Фильтрация выбросов (Outlier Filtering)

Что такое Фильтрация выбросов (Outlier Filtering)?

Процесс выявления и устранения аномальных, нетипичных значений (выбросов) в наборах данных, используемых для обучения, валидации или тестирования моделей машинного обучения и нейронных сетей.

В контексте машинного обучения выбросы могут серьёзно искажать картину: модель начинает «учиться» на аномалиях, принимая их за закономерность, либо тратит избыточные ресурсы на их обработку. В результате снижается точность, обобщающая способность и устойчивость модели. Фильтрация выбросов — важный этап предобработки данных (data preprocessing), предшествующий обучению.

Аналогия из бытового мира

Представьте, что вы готовите суп по рецепту, где указано «добавить 1 чайную ложку соли». Если один из помощников по ошибке насыплет целую горсть, вкус блюда будет испорчен. Фильтрация выбросов похожа на внимательную проверку ингредиентов перед готовкой: вы замечаете и убираете «пересоленную» порцию, чтобы рецепт сработал как надо.

Исторический контекст

Проблема выбросов известна в статистике давно (термин «outlier» активно используется с первой половины XX века), но в машинном обучении она приобрела особую остроту с ростом объёмов данных и сложности моделей. В 1960–1970‑х, на заре статистического обучения, уже применялись простые методы вроде «правила трёх сигм» (3σ) для отсева аномалий. С развитием глубокого обучения (2010‑е) и использованием неструктурированных данных (изображения, текст, звук) потребовались более изощрённые методы, учитывающие многомерность и нелинейность признаков.

Смежные понятия

Очистка данных (data cleaning) — более широкий процесс, включающий не только фильтрацию выбросов, но и исправление ошибок, заполнение пропусков, приведение к единому формату.
Обнаружение аномалий (anomaly detection) — задача, где выбросы не отбрасываются, а специально выявляются как объект интереса (например, в кибербезопасности или мониторинге оборудования). В фильтрации выбросов цель — «очистить» данные для обучения; в обнаружении аномалий — найти и изучить сами аномалии.
Робастная статистика (robust statistics) — подходы, устойчивые к выбросам по дизайну (например, медиана вместо среднего). Фильтрация — активный отбор, робастные методы — пассивная устойчивость.

Примеры использования

В табличных данных: применение межквартильного размаха (IQR) или Z‑оценки для отсева значений за пределами заданного порога.
В компьютерном зрении: удаление изображений с аномально высоким уровнем шума или артефактами перед обучением CNN.
В обработке текста: фильтрация документов с аномально длинной или короткой последовательностью токенов, которые могут нарушать пакинг батчей.
В временных рядах: использование методов на основе скользящего окна (rolling window) или автоэнкодеров для выявления и удаления аномальных точек.

Фильтрация выбросов (Outlier Filtering)

Аналогия из бытового мира

Исторический контекст

Смежные понятия

Примеры использования

Популярные реализации и инструменты

Авторизация