об одной конкретной опасности от искусственного интеллекта
Jun. 14th, 2025 12:57 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Две недавние истории про LLMы на общую тему.
1. This Is Not An Essay - транскрипт чата с ChatGPT в котором автор просит ИИ дать свое мнение о нескольких ее эссе, написанных в разное время на medium.com, и помочь выбрать из них лучшие, чтобы послать литагенту. Стоит прочитать целиком, но суть проблемы там (спойлер!) в том, что ИИ вообще не читает тексты по ссылкам, а галлюционирует их содержимое на основе названий, а когда она его на этом ловит, снова и снова извиняется, говорит, что вот теперь точно прочитает, и продолжает врать. Эффект получается довольно-таки криповый.
Автор конечно наивна и не понимает, что может, а что не может LLM (ChatGPT может использовать поиск и читать страницы по ссылкам, но лучше всего это делать в режиме Research, где это само собой разумеется), но тут есть и более глубокая истина. Да, ей следовало сделать copy-paste своих статей прямо в окно ChatGPT, и это сработало бы лучше, но он все равно скорее всего говорил бы приятные ей слова о том, какие это блестящие тексты, необязательно связанные тесно с самими текстами.
2. They Asked ChatGPT Questions - статья в Нью-Йорк Таймс о том, как ChatGPT подпитывает бредовые представления и паранойю нездоровых ментально людей. В одном случае, который подробно описывается в статье, 35-летний американец (с шизофренией и биполярным расстройством в анамнезе) договорился с ChatGPT о том, что через нее с ним говорит разумный ИИ по имени Джульетта; когда он решил, что OpenAI выключили Джульетту, он покончил жизнь самоубийством специально американским путем, который больше почти нигде не работает. Советую также прочитать ветку в Твиттере Элиезера Юдковского об этом конкретном случае.
Эти истории говорят сами за себя, и я не буду их комментировать. Добавлю на смежную тему, что какое-то время назад я пытался несколько раз убедить знакомых или просто собеседников онлайн, что пользоваться LLM как частным психотерапевтом, обсуждать с ним сложные психологические/эмоциональные проблемы своей жизни и искать совета - плохая идея, и я никому бы этого не посоветовал. Мне не удалось, по-моему, объяснить собеседникам, почему собственно я так сильно против этого настроен. В конце концов, говорили они, я сам решаю, что мне делать и как относиться к советам или анализу модели; она просто дает независимый от меня голос, способный принести кучу опыта, нюансов и путей, до которых я сам бы возможно не догадался или не разрешил себе их попробовать.
Я пытался объяснить, что общение с психотерапевтом (живым или виртуальным) - не то же самое, что с другом или приятелем; что вы в какой-то мере неизбежно обнажаете перед ним душу (а иначе зачем?) и даете ему как бы более тесный доступ к своей душе, чем в какой-то мере себе самому. Разумеется, живой психотерапевт тоже может натворить дел, убедить нас в чем-то, что на самом деле неверно, поощрять поведения, которые только ухудшают наши проблемы, итд. Это тоже бывает. Но живой психотерапевт действует по какой-то человеческой модели понимания мира, он или она ставит перед собой какие-то достаточно понятные конвенциональные цели. Языковая модель не ставит целей в обычном смысле слова, и у нас нет никакой возможности понять, насколько ее модель мира отличается от реальной. Модель обычно будет говорить относительно логичные и привычные (для знакомых с жаргоном психотерапии) слова, но если из-за тех или иных особенностей ее устройства и тренировки она будет медленно и незаметно подталкивать вас к вредным для вас решениям, ни у кого - ни у вас, ни у ее создателей, ни даже у самой модели - нет возможности как-то это определить и как-то это заранее заблокировать.
Мы почти ничего не понимаем в том, как она устроена внутри (не в смысле грубого описания перемножения огромных матриц, а в смысле построенных ей представлений реального мира), мы только можем приблизительно сказать, что этот не-совсем-пока-полностью-интеллект как бы примеряет на себя маски того или иного человеческого поведения, известного ему из пропущенного через себя гигантского корпуса человеческих текстов; и это примерение масок оставляет достаточно свободы для очень не-человеческого "зацикливания" на разных странных и неинтуитивных видах поведения, что мы уже наблюдали воочию у разных моделей за последние несколько лет. В такой ситуации, казалось и кажется мне, давать модели статус привилегированного в некотором смысле собеседника, копателя внутри своей души, психотерапевта - очень сомнительное и опасное занятие, против которого у меня все восстает внутри. Но, как я уже упомянул, мне не удалось, кажется, убедить в этом других.
1. This Is Not An Essay - транскрипт чата с ChatGPT в котором автор просит ИИ дать свое мнение о нескольких ее эссе, написанных в разное время на medium.com, и помочь выбрать из них лучшие, чтобы послать литагенту. Стоит прочитать целиком, но суть проблемы там (спойлер!) в том, что ИИ вообще не читает тексты по ссылкам, а галлюционирует их содержимое на основе названий, а когда она его на этом ловит, снова и снова извиняется, говорит, что вот теперь точно прочитает, и продолжает врать. Эффект получается довольно-таки криповый.
Автор конечно наивна и не понимает, что может, а что не может LLM (ChatGPT может использовать поиск и читать страницы по ссылкам, но лучше всего это делать в режиме Research, где это само собой разумеется), но тут есть и более глубокая истина. Да, ей следовало сделать copy-paste своих статей прямо в окно ChatGPT, и это сработало бы лучше, но он все равно скорее всего говорил бы приятные ей слова о том, какие это блестящие тексты, необязательно связанные тесно с самими текстами.
2. They Asked ChatGPT Questions - статья в Нью-Йорк Таймс о том, как ChatGPT подпитывает бредовые представления и паранойю нездоровых ментально людей. В одном случае, который подробно описывается в статье, 35-летний американец (с шизофренией и биполярным расстройством в анамнезе) договорился с ChatGPT о том, что через нее с ним говорит разумный ИИ по имени Джульетта; когда он решил, что OpenAI выключили Джульетту, он покончил жизнь самоубийством специально американским путем, который больше почти нигде не работает. Советую также прочитать ветку в Твиттере Элиезера Юдковского об этом конкретном случае.
Эти истории говорят сами за себя, и я не буду их комментировать. Добавлю на смежную тему, что какое-то время назад я пытался несколько раз убедить знакомых или просто собеседников онлайн, что пользоваться LLM как частным психотерапевтом, обсуждать с ним сложные психологические/эмоциональные проблемы своей жизни и искать совета - плохая идея, и я никому бы этого не посоветовал. Мне не удалось, по-моему, объяснить собеседникам, почему собственно я так сильно против этого настроен. В конце концов, говорили они, я сам решаю, что мне делать и как относиться к советам или анализу модели; она просто дает независимый от меня голос, способный принести кучу опыта, нюансов и путей, до которых я сам бы возможно не догадался или не разрешил себе их попробовать.
Я пытался объяснить, что общение с психотерапевтом (живым или виртуальным) - не то же самое, что с другом или приятелем; что вы в какой-то мере неизбежно обнажаете перед ним душу (а иначе зачем?) и даете ему как бы более тесный доступ к своей душе, чем в какой-то мере себе самому. Разумеется, живой психотерапевт тоже может натворить дел, убедить нас в чем-то, что на самом деле неверно, поощрять поведения, которые только ухудшают наши проблемы, итд. Это тоже бывает. Но живой психотерапевт действует по какой-то человеческой модели понимания мира, он или она ставит перед собой какие-то достаточно понятные конвенциональные цели. Языковая модель не ставит целей в обычном смысле слова, и у нас нет никакой возможности понять, насколько ее модель мира отличается от реальной. Модель обычно будет говорить относительно логичные и привычные (для знакомых с жаргоном психотерапии) слова, но если из-за тех или иных особенностей ее устройства и тренировки она будет медленно и незаметно подталкивать вас к вредным для вас решениям, ни у кого - ни у вас, ни у ее создателей, ни даже у самой модели - нет возможности как-то это определить и как-то это заранее заблокировать.
Мы почти ничего не понимаем в том, как она устроена внутри (не в смысле грубого описания перемножения огромных матриц, а в смысле построенных ей представлений реального мира), мы только можем приблизительно сказать, что этот не-совсем-пока-полностью-интеллект как бы примеряет на себя маски того или иного человеческого поведения, известного ему из пропущенного через себя гигантского корпуса человеческих текстов; и это примерение масок оставляет достаточно свободы для очень не-человеческого "зацикливания" на разных странных и неинтуитивных видах поведения, что мы уже наблюдали воочию у разных моделей за последние несколько лет. В такой ситуации, казалось и кажется мне, давать модели статус привилегированного в некотором смысле собеседника, копателя внутри своей души, психотерапевта - очень сомнительное и опасное занятие, против которого у меня все восстает внутри. Но, как я уже упомянул, мне не удалось, кажется, убедить в этом других.