Типология данных (Data Typology)
Что такое Типология данных (Data Typology)?
Классификация данных по определённым признакам, имеющая ключевое значение в машинном обучении и нейросетевых технологиях для выбора подходящих алгоритмов обработки, моделей и стратегий обучения.
Понимание типов данных — это фундамент для корректной предобработки, проектирования архитектуры нейросетей и интерпретации результатов. От того, к какому типу относятся данные, зависят:
- способы кодирования и нормализации;
- выбор функций потерь и метрик качества;
- архитектура модели (например, свёрточные сети для изображений, рекуррентные — для последовательностей);
- методы аугментации и регуляризации.
Представьте, что вы готовите блюдо. Ингредиенты (данные) бывают разными: жидкие (молоко), твёрдые (овощи), сыпучие (соль). От типа ингредиента зависит, как его обрабатывать: резать, взбивать, просеивать. Так и в ML: числовые данные «режут» нормализацией, текстовые «взбивают» токенизацией, изображения «просеивают» через фильтры свёрточных слоёв.
Исторический контекст
Систематизация типов данных восходит к основам информатики (типы переменных в языках программирования), но в ML приобрела специфический смысл. В 1950–1960‑х, с появлением первых перцептронов, данные были примитивны (бинарные векторы). С развитием областей применения (компьютерное зрение, NLP, аудио) возникла потребность в детализированной типологии:
- 1980–1990‑е: акцент на структурированных табличных данных (регрессия, деревья решений);
- 2000‑е: рост интереса к неструктурированным данным (тексты, изображения);
- 2010‑е: взрывной рост мультимодальных данных (комбинация текста, изображений, звука) благодаря глубоким сетям.
Смежные понятия и различия
- Структура данных (в программировании) — способ организации данных в памяти (массив, список). В ML это вторично: важнее семантика типа (изображение vs текст).
- Формат данных (CSV, JSON, PNG) — физическое представление. Типология в ML абстрагируется от формата: PNG и JPEG — оба «изображения».
- Признаки (features) — отдельные атрибуты объекта. Типология классифицирует целые наборы данных, а не отдельные признаки.
Примеры использования
Числовые данные (continuous, discrete)
- Примеры: температура, цена, количество кликов.
- Применение: регрессия (линейная модель, MLP), нормализация (MinMaxScaler).
Категориальные данные (nominal, ordinal)
- Примеры: цвет автомобиля, уровень образования.
- Применение: one-hot-кодирование, встраивание (embeddings) в нейросетях.
Текстовые данные (sequence of tokens)
- Примеры: отзывы, статьи, сообщения.
- Применение: NLP-модели (BERT, GPT), токенизация, Word2Vec.
Изображения (2D/3D arrays)
- Примеры: фотографии, МРТ-снимки.
- Применение: CNN (ResNet, U-Net), аугментация (поворот, обрезка).
Временные ряды (sequential data with time axis)
- Примеры: котировки акций, показания датчиков.
- Применение: RNN, LSTM, Transformers для последовательностей.
Графовые данные (nodes and edges)
- Примеры: социальные сети, молекулярные структуры.
- Применение: GNN (Graph Neural Networks), GCN (Graph Convolutional Networks).
Мультимодальные данные (combination of types)
- Примеры: видео (изображение + звук), посты в соцсетях (текст + фото).
- Применение: мультимодальные модели (CLIP, Flamingo), фьюжн-слои.
