Типология данных (Data Typology)

Что такое Типология данных (Data Typology)?

Классификация данных по определённым признакам, имеющая ключевое значение в машинном обучении и нейросетевых технологиях для выбора подходящих алгоритмов обработки, моделей и стратегий обучения.

Понимание типов данных — это фундамент для корректной предобработки, проектирования архитектуры нейросетей и интерпретации результатов. От того, к какому типу относятся данные, зависят:

способы кодирования и нормализации;
выбор функций потерь и метрик качества;
архитектура модели (например, свёрточные сети для изображений, рекуррентные — для последовательностей);
методы аугментации и регуляризации.

Представьте, что вы готовите блюдо. Ингредиенты (данные) бывают разными: жидкие (молоко), твёрдые (овощи), сыпучие (соль). От типа ингредиента зависит, как его обрабатывать: резать, взбивать, просеивать. Так и в ML: числовые данные «режут» нормализацией, текстовые «взбивают» токенизацией, изображения «просеивают» через фильтры свёрточных слоёв.

Исторический контекст

Систематизация типов данных восходит к основам информатики (типы переменных в языках программирования), но в ML приобрела специфический смысл. В 1950–1960‑х, с появлением первых перцептронов, данные были примитивны (бинарные векторы). С развитием областей применения (компьютерное зрение, NLP, аудио) возникла потребность в детализированной типологии:

1980–1990‑е: акцент на структурированных табличных данных (регрессия, деревья решений);
2000‑е: рост интереса к неструктурированным данным (тексты, изображения);
2010‑е: взрывной рост мультимодальных данных (комбинация текста, изображений, звука) благодаря глубоким сетям.

Смежные понятия и различия

Структура данных (в программировании) — способ организации данных в памяти (массив, список). В ML это вторично: важнее семантика типа (изображение vs текст).
Формат данных (CSV, JSON, PNG) — физическое представление. Типология в ML абстрагируется от формата: PNG и JPEG — оба «изображения».
Признаки (features) — отдельные атрибуты объекта. Типология классифицирует целые наборы данных, а не отдельные признаки.

Примеры использования

Числовые данные (continuous, discrete)

Примеры: температура, цена, количество кликов.
Применение: регрессия (линейная модель, MLP), нормализация (MinMaxScaler).

Категориальные данные (nominal, ordinal)

Примеры: цвет автомобиля, уровень образования.
Применение: one-hot-кодирование, встраивание (embeddings) в нейросетях.

Текстовые данные (sequence of tokens)

Примеры: отзывы, статьи, сообщения.
Применение: NLP-модели (BERT, GPT), токенизация, Word2Vec.

Изображения (2D/3D arrays)

Примеры: фотографии, МРТ-снимки.
Применение: CNN (ResNet, U-Net), аугментация (поворот, обрезка).

Временные ряды (sequential data with time axis)

Примеры: котировки акций, показания датчиков.
Применение: RNN, LSTM, Transformers для последовательностей.

Графовые данные (nodes and edges)

Примеры: социальные сети, молекулярные структуры.
Применение: GNN (Graph Neural Networks), GCN (Graph Convolutional Networks).

Мультимодальные данные (combination of types)

Примеры: видео (изображение + звук), посты в соцсетях (текст + фото).
Применение: мультимодальные модели (CLIP, Flamingo), фьюжн-слои.