Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

  • A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Психометрика ИИ: можно ли понять машину с помощью психологических тестов?

Психометрика ИИ: можно ли понять машину с помощью психологических тестов?

© freepik

27 ноября состоялся семинар проектно-учебной группы «Когнитивная психометрика» по теме «Психометрика ИИ: можно ли понять машину с помощью психологических тестов?». На семинаре участники обсудили развивающуюся область психометрики искусственного интеллекта (ИИ), её возможности и имеющиеся наработки, а также ограничения и проблемы в изучении ИИ с помощью психологических тестов. Также докладчики семинара представили результаты своего мини-исследования по оценке «личностных» качеств двух больших языковых моделей с помощью опросника Большой пятерки.

AI Psychometrics, или психометрика искусственного интеллекта (ИИ) – область психометрики, которая занимается оценкой ИИ с использованием методик, разработанных изначально для оценки психологических качеств людей. Исследователи главным образом заинтересованы в изучении больших языковых моделей (БЯМ) - это программы для обработки естественного языка. Обычно они состоят из нейронной сети со множеством параметров, обученной на большом количестве неразмеченного текста с использованием обучения без учителя.

Почему психометрики заинтересовались оценкой ИИ? Прежде всего потому, что ИИ становится важной частью человеческого мира и уже сейчас вовлечен во множество повседневных задач. Наверняка вы сталкивались с чат-ботами в различных сервисах, или сами просили ChatGPT ответить на ваши вопросы. Поэтому важно понимать особенности ИИ, чтобы их можно было при необходимости скорректировать. Но зачем для изучения ИИ, и прежде всего БЯМ, стали применяться методики, разработанные для оценки человеческих качеств? Дело в том, что БЯМ обучаются на огромном массиве данных, созданных людьми. И, как предполагают исследователи, при взаимодействии с человеком они демонстрируют характеристики, которым обучились в процессе этого взаимодействия, которые можно попробовать оценить с помощью психологических опросников.

Несмотря на растущий интерес к оценке БЯМ с помощью психологических опросников, многие исследователи настроены скептично и призывают к обсуждению теоретических и методологических проблем, которые неизбежно возникают, когда методы, разработанные для одной области исследования, применяются к другой, тем более новой и совсем не изученной области. Так, авторы препринта Is Machine Psychology here? On Requirements for Using Human Psychological Tests on Large Language Models выявляют ряд потенциальных проблем, требующих решения при разработке психометрики ИИ.
 

Одна из центральных проблем: психологические конструкты и «конструкты БЯМ» – не эквивалентные вещи. Как минимум, БЯМ не имеют физического тела, а значит проявления конструкта, связанные с физическим выражением, для БЯМ нерелевантны, но при этом нередко встречаются в психологических конструктах и в опросниках для оценки этих конструктов. Поэтому исследователи призывают к уточнению конструктов и опросников, чтобы они были приемлемыми для использования в случае оценки БЯМ.

Из других проблем стоит отметить: 1) неизвестно, как происходит процесс ответа у БЯМ, 2) непонятен статус БЯМ – можно ли его назвать отдельной сущностью?
Таким образом, хотя интерес к психометрике ИИ возрастает, это область, возникающая буквально на глазах, где еще очень много следует понять и уточнить относительно возможностей применения методов, изначально разработанных для оценки людей.

Во второй части доклада были представлены результаты пилотного исследования, в котором БЯМ проходили тест  на выявление личностных черт из модели «Большой пятерки». В частности, происходила оценка по таким шкалам, как «Нейротизм», «Экстраверсия», «Открытость опыту», «Доброжелательность» и «Добросовестность». БЯМ, участвовавшие в «эксперименте» – GPT (четвертая версия) и GIGAChat (русскоязычная нейросеть от Сбера). GIGAChat и GPT показали различные стратегии ответа на «социально неудобные (чувствительные)» вопросы: GPT чаще выбирает социально желательные варианты, тогда как GIGAChat избегает ответа.

В итоге мы получили, что обе модели имеют плюс-минус одинаково высокий уровень по шкалам  «Открытость опыту» и «Доброжелательность». GPT оказался более экстравертирован, а GIGAChat более эмоционально стабильным, получив низкий балл по шкале «Нейротизма». В то же время русскоязычная нейросеть оказалась более «добросовестной», в частности показав выше уровень по всем субшкалам шкалы «Добросовестность» – «Уверенность в себе», «Порядочность», «Чувство долга», «Самодисциплина» и «Осторожность».

Также полученные после прохождения теста результаты были представлены самим БЯМ. В общих чертах модели согласны с результатами теста, но признают нюансы. Например, обе модели имели высокие показатели по шкале «Экстраверсии», при этом GPT считает, что иногда ему необходимо уединение, «чтобы сосредоточиться на размышлениях или личных проектах». GIGAChat в свою очередь, наоборот, полагает, что несмотря на средне-высокий результат, уровень его экстравертированности мог бы быть оценен немного выше.

Полученные результаты в целом соответствовали результатам предыдущих исследований с использованием других моделей. При этом остается неизвестным, насколько можно доверять этим результатам. Проведенная работа поднимает важные вопросы адаптации человеческих методик к искусственному интеллекту. Вместе с участниками семинара мы обсудили возможные результаты и будущие направления работы.

Полный текст результатов доступен по ссылке: 

GIGAChat – https://bigfive-test.com/result/6745f82c53ef684e4231838d
GPT – https://bigfive-test.com/result/6745e927c1843b279305468e

Запись семинара