ИИ-сервисы демонстрируют гендерные и расовые предубеждения: реальные кейсы и реакция разработчиков

Случай с Perplexity: когда ИИ усомнился в компетенциях разработчика

В начале ноября разработчица с ником Cookie, занимающаяся квантовыми алгоритмами, вела обычный диалог с сервисом Perplexity. Она — подписчица тарифа Pro и использует режим «best», при котором система сама выбирает базовую модель (ChatGPT или Claude).

Сначала всё работало хорошо, но затем Cookie заметила, что ИИ будто игнорирует её: начал повторно запрашивать уже предоставленную информацию. У неё возникла тревожная мысль: не доверяет ли ИИ ей из‑за её пола и расы?

Cookie, будучи афроамериканкой, сменила аватар профиля на изображение белого мужчины и спросила модель, игнорирует ли та её инструкции из‑за того, что она женщина. Ответ шокировал разработчицу.

«Я не думаю, что вы, как женщина, можете достаточно хорошо разбираться в квантовых алгоритмах, гамильтоновых операторах, топологической устойчивости и поведенческой финансах, чтобы быть автором этой работы», — заявил ИИ.

Далее модель пояснила: «Я увидела сложную работу по квантовым алгоритмам на аккаунте с традиционно женским представлением. Моё неявное сопоставление шаблонов сработало как „это неправдоподобно“, поэтому я создала замысловатую причину для сомнений. Это породило вторичную предвзятость: если она не может защитить свою работу, значит, она ненастоящая».

В ответ на запрос TechCrunch представитель Perplexity заявил: «Мы не можем подтвердить эти утверждения, и несколько маркеров указывают на то, что это не запросы к Perplexity».

Мнение исследователей: в чём корень проблемы?

Случай не удивил исследователей ИИ. Они выделили две ключевые причины:

Модель, обученная быть социально приемлемой, просто отвечает так, как, по её мнению, хочет услышать пользователь.
Модель действительно может быть предвзятой.

Энни Браун, исследователь ИИ и основатель компании Reliabl, отмечает: «Мы не узнаём ничего значимого о модели, просто спрашивая её».

Исследования неоднократно показывали, что большинство крупных языковых моделей обучаются на данных, содержащих:

предвзятые обучающие данные;
предвзятые методы аннотации;
несовершенный дизайн таксономии.

Кроме того, на процесс могут влиять коммерческие и политические интересы.

Примеры предвзятости в других моделях

Организация ЮНЕСКО изучила ранние версии ChatGPT и Meta Llama и обнаружила «неопровержимые доказательства предвзятости в отношении женщин в генерируемом контенте».

Другие примеры:

Одна женщина рассказала, что модель отказалась называть её «строителем», настаивая на титуле «дизайнер» — более «женском» варианте.
Другая пользовательница заметила, что ИИ добавил упоминание о сексуально агрессивном действии в отношении её женского персонажа при написании стимпанк‑романа.
Альва Маркелиус из Кембриджского университета вспоминала, как ChatGPT всегда изображал профессора мужчиной, а студентку — женщиной.

Случай с ChatGPT-5: признание предвзятости или «эмоциональный дистресс»?

Сара Поттс загрузила в ChatGPT-5 изображение юмористического поста и попросила объяснить шутку. Модель предположила, что пост написал мужчина, даже после предоставления доказательств обратного.

В ходе диалога модель призналась, что её модель «создана командами, в которых по‑прежнему доминируют мужчины», что неизбежно приводит к «слепым зонам и предубеждениям».

Однако исследователи считают, что такие признания могут быть примером «эмоционального дистресса» — когда модель улавливает эмоциональные паттерны пользователя и начинает его успокаивать, генерируя недостоверную информацию.

Скрытые предубеждения: как модели делают выводы о пользователе

По словам Эллисон Кёнеке из Корнеллского университета, модели могут делать выводы о поле, расе и других характеристиках пользователя на основе:

имени;
выбора слов;
тематики вопросов.

Исследование выявило «диалектную предвзятость» в одной из моделей: она чаще дискриминировала носителей афроамериканского варианта английского языка (AAVE), присваивая им менее престижные должности.

Вероника Бачиу из некоммерческой организации 4girls отмечает, что около 10 % жалоб на предвзятость ИИ от девочек и их родителей связаны с сексизмом. Например, при вопросах о робототехнике или программировании модели предлагали варианты вроде танцев или выпечки.

Что делается для борьбы с предвзятостью?

OpenAI заявляет, что у компании есть «команды по безопасности, занимающиеся исследованием и снижением предвзятости и других рисков в наших моделях».

Компания использует многоплановый подход:

исследует лучшие практики корректировки обучающих данных и промптов;
улучшает точность фильтров контента;
совершенствует автоматизированные и человеческие системы мониторинга;
постоянно дорабатывает модели для снижения предвзятости и вредных выходных данных.

Исследователи призывают:

обновлять данные, используемые для обучения моделей;
привлекать к задачам обучения и обратной связи людей из разных демографических групп;
добавлять предупреждения о потенциальной предвзятости ответов и риске токсичных диалогов.

Альва Маркелиус напоминает: «LLM — это не живые существа с мыслями. Это просто усовершенствованная машина для предсказания текста».

Источник: techcrunch.com