Избыточность данных (Data Redundancy)
наличие в наборе данных повторяющейся, дублирующей или несущественной информации, которая не вносит значимого вклада в обучение модели машинного обучения и может негативно влиять на эффективность и скорость обучения нейронных сетей
В контексте машинного обучения и нейронных сетей избыточность данных — это не просто «лишние байты» в хранилище, а фактор, способный исказить процесс обучения.
Представьте, что вы учитесь готовить по рецептам, но 80 % книг содержат один и тот же рецепт борща с минимальными вариациями. Вы вряд ли освоите широкий спектр кулинарных навыков — скорее, заучите один рецепт наизусть, но не научитесь адаптироваться к новым задачам.
Аналогично и с нейросетями: избыточные данные «забивают» обучающий сигнал, мешают модели выявлять обобщающие закономерности и могут привести к переобучению (overfitting) — ситуации, когда модель отлично работает на обучающих данных, но плохо обобщает на новых.
Исторически проблема избыточности стала особенно заметной с ростом объёмов данных в эпоху «больших данных» (Big Data) — примерно с 2010‑х годов. По мере того как компании и исследователи начали собирать петабайты данных для обучения моделей, выяснилось, что значительная часть информации дублируется или не несёт полезной сигнальной нагрузки. Например, в датасетах изображений часто встречаются почти идентичные кадры (например, снимки одного и того же объекта с незначительным сдвигом камеры), а в текстовых корпусах — повторяющиеся абзацы или статьи. Исследователи из Google, Facebook (Meta) и других крупных компаний публиковали работы, показывающие, что фильтрация избыточных данных может существенно улучшить качество моделей при меньшем объёме обучающих выборок.
Важно отличать избыточность данных от шума (noise) и нерелевантности (irrelevance)
- Шум — это случайные искажения данных (например, ошибки в разметке, артефакты на изображениях), которые мешают модели «увидеть» истинный сигнал.
- Нерелевантность — данные, которые вообще не связаны с задачей (например, фотографии кошек в датасете для распознавания собак).
- Избыточность — это именно дублирование или чрезмерное повторение полезной информации, которое снижает эффективность обучения, но не обязательно «портит» данные.
Примеры использования и проявления избыточности данных
- В компьютерном зрении: датасеты вроде ImageNet или COCO могут содержать сотни почти идентичных изображений одного и того же объекта под разными углами. Для борьбы с этим применяют аугментацию (augmentation) и фильтрацию дубликатов.
- В обработке естественного языка (NLP): крупные текстовые корпуса (например, Common Crawl) часто включают повторяющиеся статьи или фрагменты. Для очистки используют алгоритмы дедупликации (например, на основе хеширования или семантического сходства).
- В рекомендательных системах: пользовательские логи могут содержать многократные клики по одному и тому же товару, что создаёт ложное впечатление о его популярности. Здесь применяют взвешивание событий или агрегацию дубликатов.
- В тренировке больших языковых моделей (LLM): компании вроде OpenAI или Anthropic тщательно фильтруют датасеты, удаляя дубликаты и низкокачественные тексты, чтобы повысить эффективность обучения.
Популярные методы борьбы с избыточностью
- дедупликация на основе точных совпадений (например, по хешам);
- семантическая дедупликация (сравнение векторных представлений текстов или изображений);
- выборка (sampling) — отбор репрезентативных подмножеств данных;
- кластеризация и удаление «близких» примеров.
