Данные для тестирования (Test Data)
Что такое Данные для тестирования (Test Data)?
Набор данных, используемый в машинном обучении и ИИ для оценки качества и эффективности обученной модели.
Чем отличается от смежных понятий
- Данные для обучения (training data) — используются для непосредственного обучения модели, «на них она учится».
- Данные для валидации (validation data) — применяются в процессе обучения для настройки гиперпараметров и контроля переобучения; обычно используются многократно в ходе тренировки.
- Данные для тестирования (test data) — задействуются только один раз, после полного обучения модели, чтобы дать беспристрастную оценку её качества.
Примеры использования
- В задачах классификации изображений (например, распознавание кошек и собак) тестовая выборка может состоять из 1 000 изображений, не встречавшихся в обучающем наборе. Модель прогоняют через эти изображения и считают метрики: точность (accuracy), полноту (recall), точность (precision) и т. д.
- В NLP (обработка естественного языка) тестовые данные могут включать тексты на том же языке, но из других источников (например, новости вместо блогов), чтобы проверить, насколько хорошо модель обобщает знания.
- В соревнованиях по ML (Kaggle, AI Journey) организаторы предоставляют участникам тестовый набор, на котором оценивается финальное качество решений.
Популярные форматы и источники тестовых данных
- Наборы данных ImageNet, CIFAR‑10/100 (для компьютерного зрения).
- GLUE, SQuAD (для NLP).
- MNIST (для распознавания рукописных цифр).
- Собственные размеченные выборки компаний (например, тестовые логи пользовательских запросов для рекомендательных систем).
