Новый метод обучения моделей ИИ помогает распознавать персонализированные объекты
Представьте, что человек приводит своего французского бульдога по кличке Баузер в парк для собак. Владельцу легко узнать своего питомца среди других собак, когда он находится в парке. Однако если кто-то захочет использовать генеративную модель ИИ, например GPT-5, для наблюдения за своим питомцем во время работы, модель может не справиться с этой простой задачей.
Визуально-языковые модели, такие как GPT-5, часто хорошо распознают общие объекты, например собаку, но плохо справляются с определением персонализированных объектов, таких как французский бульдог Баузер.
Новый метод обучения моделей
Чтобы устранить этот недостаток, исследователи из MIT и MIT-IBM Watson AI Lab представили новый метод обучения, который учит визуально-языковые модели локализовать персонализированные объекты в сцене. Метод использует тщательно подготовленные данные видеоотслеживания, в которых один и тот же объект отслеживается в нескольких кадрах.
Исследователи разработали набор данных таким образом, чтобы модель сосредотачивалась на контекстных подсказках для идентификации персонализированного объекта, а не полагалась на ранее запомненные знания. Когда модели показывают несколько изображений с персонализированным объектом, например с питомцем, переобученная модель лучше определяет местоположение этого же питомца на новом изображении.
Результаты исследования
Модели, переобученные с использованием нового метода, превзошли современные системы в этой задаче. Важно, что их методика не затрагивает общие способности модели. Этот подход может помочь будущим ИИ-системам отслеживать определённые объекты во времени, например рюкзак ребёнка, или локализовать интересующие объекты, например вид животного при экологическом мониторинге.
«В конечном счёте мы хотим, чтобы эти модели могли учиться на основе контекста, как люди. Если модель сможет делать это хорошо, вместо переобучения для каждой новой задачи мы сможем просто предоставить несколько примеров, и она будет делать выводы о том, как выполнить задачу на основе этого контекста. Это очень мощная способность», — говорит Джеханзеб Мирза, постдок MIT и старший автор статьи об этой методике.
Проблемы и решения
Исследователи обнаружили, что визуально-языковые модели склонны «схитрить». Вместо того чтобы отвечать, опираясь на контекстные подсказки, они идентифицируют объект, используя знания, полученные во время предварительного обучения. Чтобы решить эту проблему, исследователи использовали псевдоимена вместо реальных названий категорий объектов в наборе данных. Например, они заменили название «тигр» на «Чарли».
В результате переобучения визуально-языковых моделей с использованием нового набора данных точность персонализированной локализации улучшилась в среднем примерно на 12%. А когда они включили набор данных с псевдоименами, прирост производительности достиг 21%.
