Типология данных (Data Typology)

Что такое Типология данных (Data Typology)?

Классификация данных по определённым признакам, имеющая ключевое значение в машинном обучении и нейросетевых технологиях для выбора подходящих алгоритмов обработки, моделей и стратегий обучения.

Понимание типов данных — это фундамент для корректной предобработки, проектирования архитектуры нейросетей и интерпретации результатов. От того, к какому типу относятся данные, зависят:

  • способы кодирования и нормализации;
  • выбор функций потерь и метрик качества;
  • архитектура модели (например, свёрточные сети для изображений, рекуррентные — для последовательностей);
  • методы аугментации и регуляризации.
Представьте, что вы готовите блюдо. Ингредиенты (данные) бывают разными: жидкие (молоко), твёрдые (овощи), сыпучие (соль). От типа ингредиента зависит, как его обрабатывать: резать, взбивать, просеивать. Так и в ML: числовые данные «режут» нормализацией, текстовые «взбивают» токенизацией, изображения «просеивают» через фильтры свёрточных слоёв.

Исторический контекст

Систематизация типов данных восходит к основам информатики (типы переменных в языках программирования), но в ML приобрела специфический смысл. В 1950–1960‑х, с появлением первых перцептронов, данные были примитивны (бинарные векторы). С развитием областей применения (компьютерное зрение, NLP, аудио) возникла потребность в детализированной типологии:

  • 1980–1990‑е: акцент на структурированных табличных данных (регрессия, деревья решений);
  • 2000‑е: рост интереса к неструктурированным данным (тексты, изображения);
  • 2010‑е: взрывной рост мультимодальных данных (комбинация текста, изображений, звука) благодаря глубоким сетям.

Смежные понятия и различия

  • Структура данных (в программировании) — способ организации данных в памяти (массив, список). В ML это вторично: важнее семантика типа (изображение vs текст).
  • Формат данных (CSV, JSON, PNG) — физическое представление. Типология в ML абстрагируется от формата: PNG и JPEG — оба «изображения».
  • Признаки (features) — отдельные атрибуты объекта. Типология классифицирует целые наборы данных, а не отдельные признаки.

Примеры использования

Числовые данные (continuous, discrete)

  • Примеры: температура, цена, количество кликов.
  • Применение: регрессия (линейная модель, MLP), нормализация (MinMaxScaler).

Категориальные данные (nominal, ordinal)

  • Примеры: цвет автомобиля, уровень образования.
  • Применение: one-hot-кодирование, встраивание (embeddings) в нейросетях.

Текстовые данные (sequence of tokens)

  • Примеры: отзывы, статьи, сообщения.
  • Применение: NLP-модели (BERT, GPT), токенизация, Word2Vec.

Изображения (2D/3D arrays)

  • Примеры: фотографии, МРТ-снимки.
  • Применение: CNN (ResNet, U-Net), аугментация (поворот, обрезка).

Временные ряды (sequential data with time axis)

  • Примеры: котировки акций, показания датчиков.
  • Применение: RNN, LSTM, Transformers для последовательностей.

Графовые данные (nodes and edges)

  • Примеры: социальные сети, молекулярные структуры.
  • Применение: GNN (Graph Neural Networks), GCN (Graph Convolutional Networks).

Мультимодальные данные (combination of types)

  • Примеры: видео (изображение + звук), посты в соцсетях (текст + фото).
  • Применение: мультимодальные модели (CLIP, Flamingo), фьюжн-слои.

Авторизация