Как компании обучают ИИ: сбор данных для визуальных моделей и моделей обработки текстов
В течение одной недели этим летом Тейлор и её соседка по комнате носили камеры GoPro, закреплённые на лбу, пока рисовали, занимались скульптурой и выполняли домашние дела. Они обучали модель ИИ, тщательно синхронизируя отснятые материалы, чтобы система могла получать информацию с разных ракурсов.
Работа была непростой, но хорошо оплачиваемой — и позволяла Тейлор большую часть дня заниматься искусством. «Мы просыпались, выполняли обычные утренние ритуалы, а затем закрепляли камеры на голове и синхронизировали время, — рассказала она. — Потом готовили завтрак и мыли посуду, а затем расходились и занимались искусством».
Им нужно было ежедневно предоставлять пять часов синхронизированных видеоматериалов, но Тейлор быстро поняла, что на работу нужно выделять семь часов в день, чтобы оставалось время на перерывы и восстановление.
«От этого болели головы, — сказала она. — Когда снимаешь камеру, на лбу остаётся красный квадрат».
Тейлор (она попросила не называть её фамилию) работала фрилансером по сбору данных для компании Turing Labs. Цель Turing — не научить ИИ рисовать картины, а развить более абстрактные навыки последовательного решения задач и визуального мышления. Модель зрения Turing будет обучаться исключительно на видеоматериалах, большая часть которых будет собрана самой компанией.
Turing сотрудничает не только с художниками, но и с поварами, строителями и электриками — со всеми, кто работает руками. По словам главного специалиста по общему искусственному интеллекту (AGI) компании Сударшана Сиварамана, ручной сбор данных — единственный способ получить достаточно разнообразный набор данных.
«Мы собираем данные для самых разных видов ручного труда, чтобы на этапе предварительного обучения иметь разнообразный набор данных, — сказал Сивараман TechCrunch. — После того как мы соберём всю эту информацию, модели смогут понимать, как выполняется определённая задача».
Работа Turing над визуальными моделями — часть растущей тенденции в подходе компаний к данным для ИИ. Если раньше обучающие наборы данных свободно собирали из интернета или с помощью низкооплачиваемых аннотаторов, то теперь компании готовы платить большие деньги за тщательно отобранные данные.
Компания Fyxer, использующая модели ИИ для сортировки электронных писем и составления ответов, — один из примеров такого подхода. Основатель Ричард Холлингсворт после некоторых экспериментов обнаружил, что лучший подход — использовать набор небольших моделей с узко сфокусированными обучающими данными.
«Мы поняли, что качество данных, а не их количество, действительно определяет производительность, — сказал Холлингсворт. — На ранних этапах у нас было больше помощников руководителей, чем инженеров и менеджеров».
Со временем Холлингсворт стал уделять больше внимания наборам данных, отдавая предпочтение небольшим, но тщательно отобранным наборам данных после обучения. По его словам, «качество данных, а не их количество, действительно определяет производительность».
Это особенно актуально, когда используются синтетические данные, которые расширяют возможности обучения, но при этом усиливают влияние любых недостатков исходного набора данных. По оценкам Turing, 75–80 % её данных являются синтетическими, экстраполированными из исходных видеозаписей с GoPro. Но это ещё больше подчёркивает важность высокого качества исходного набора данных.
«Если данные для предварительного обучения некачественные, то и всё, что вы сделаете с синтетическими данными, тоже будет некачественным», — говорит Сивараман.
Помимо вопросов качества, существует мощная конкурентная логика, лежащая в основе внутреннего сбора данных. Для Fyxer тяжёлый труд по сбору данных — одно из главных преимуществ перед конкурентами. По мнению Холлингсворта, любой может встроить в свой продукт модель с открытым исходным кодом, но не каждый сможет найти опытных аннотаторов для её обучения.
«Мы считаем, что лучший способ сделать это — через данные, через создание пользовательских моделей, через обучение моделей на высококачественных данных, подготовленных людьми», — сказал Холлингсворт TechCrunch.
