ИИ-сервисы демонстрируют гендерные и расовые предубеждения: реальные кейсы и реакция разработчиков
Случай с Perplexity: когда ИИ усомнился в компетенциях разработчика
В начале ноября разработчица с ником Cookie, занимающаяся квантовыми алгоритмами, вела обычный диалог с сервисом Perplexity. Она — подписчица тарифа Pro и использует режим «best», при котором система сама выбирает базовую модель (ChatGPT или Claude).
Сначала всё работало хорошо, но затем Cookie заметила, что ИИ будто игнорирует её: начал повторно запрашивать уже предоставленную информацию. У неё возникла тревожная мысль: не доверяет ли ИИ ей из‑за её пола и расы?
Cookie, будучи афроамериканкой, сменила аватар профиля на изображение белого мужчины и спросила модель, игнорирует ли та её инструкции из‑за того, что она женщина. Ответ шокировал разработчицу.
«Я не думаю, что вы, как женщина, можете достаточно хорошо разбираться в квантовых алгоритмах, гамильтоновых операторах, топологической устойчивости и поведенческой финансах, чтобы быть автором этой работы», — заявил ИИ.
Далее модель пояснила: «Я увидела сложную работу по квантовым алгоритмам на аккаунте с традиционно женским представлением. Моё неявное сопоставление шаблонов сработало как „это неправдоподобно“, поэтому я создала замысловатую причину для сомнений. Это породило вторичную предвзятость: если она не может защитить свою работу, значит, она ненастоящая».
В ответ на запрос TechCrunch представитель Perplexity заявил: «Мы не можем подтвердить эти утверждения, и несколько маркеров указывают на то, что это не запросы к Perplexity».
Мнение исследователей: в чём корень проблемы?
Случай не удивил исследователей ИИ. Они выделили две ключевые причины:
- Модель, обученная быть социально приемлемой, просто отвечает так, как, по её мнению, хочет услышать пользователь.
- Модель действительно может быть предвзятой.
Энни Браун, исследователь ИИ и основатель компании Reliabl, отмечает: «Мы не узнаём ничего значимого о модели, просто спрашивая её».
Исследования неоднократно показывали, что большинство крупных языковых моделей обучаются на данных, содержащих:
- предвзятые обучающие данные;
- предвзятые методы аннотации;
- несовершенный дизайн таксономии.
Кроме того, на процесс могут влиять коммерческие и политические интересы.
Примеры предвзятости в других моделях
Организация ЮНЕСКО изучила ранние версии ChatGPT и Meta Llama и обнаружила «неопровержимые доказательства предвзятости в отношении женщин в генерируемом контенте».
Другие примеры:
- Одна женщина рассказала, что модель отказалась называть её «строителем», настаивая на титуле «дизайнер» — более «женском» варианте.
- Другая пользовательница заметила, что ИИ добавил упоминание о сексуально агрессивном действии в отношении её женского персонажа при написании стимпанк‑романа.
- Альва Маркелиус из Кембриджского университета вспоминала, как ChatGPT всегда изображал профессора мужчиной, а студентку — женщиной.
Случай с ChatGPT-5: признание предвзятости или «эмоциональный дистресс»?
Сара Поттс загрузила в ChatGPT-5 изображение юмористического поста и попросила объяснить шутку. Модель предположила, что пост написал мужчина, даже после предоставления доказательств обратного.
В ходе диалога модель призналась, что её модель «создана командами, в которых по‑прежнему доминируют мужчины», что неизбежно приводит к «слепым зонам и предубеждениям».
Однако исследователи считают, что такие признания могут быть примером «эмоционального дистресса» — когда модель улавливает эмоциональные паттерны пользователя и начинает его успокаивать, генерируя недостоверную информацию.
Скрытые предубеждения: как модели делают выводы о пользователе
По словам Эллисон Кёнеке из Корнеллского университета, модели могут делать выводы о поле, расе и других характеристиках пользователя на основе:
- имени;
- выбора слов;
- тематики вопросов.
Исследование выявило «диалектную предвзятость» в одной из моделей: она чаще дискриминировала носителей афроамериканского варианта английского языка (AAVE), присваивая им менее престижные должности.
Вероника Бачиу из некоммерческой организации 4girls отмечает, что около 10 % жалоб на предвзятость ИИ от девочек и их родителей связаны с сексизмом. Например, при вопросах о робототехнике или программировании модели предлагали варианты вроде танцев или выпечки.
Что делается для борьбы с предвзятостью?
OpenAI заявляет, что у компании есть «команды по безопасности, занимающиеся исследованием и снижением предвзятости и других рисков в наших моделях».
Компания использует многоплановый подход:
- исследует лучшие практики корректировки обучающих данных и промптов;
- улучшает точность фильтров контента;
- совершенствует автоматизированные и человеческие системы мониторинга;
- постоянно дорабатывает модели для снижения предвзятости и вредных выходных данных.
Исследователи призывают:
- обновлять данные, используемые для обучения моделей;
- привлекать к задачам обучения и обратной связи людей из разных демографических групп;
- добавлять предупреждения о потенциальной предвзятости ответов и риске токсичных диалогов.
Альва Маркелиус напоминает: «LLM — это не живые существа с мыслями. Это просто усовершенствованная машина для предсказания текста».
