Пропускная способность (Throughput)
Характеристика нейронной сети или её отдельных компонентов, отражающая максимальный объём данных (количество примеров, пакетов, токенов и т. п.), который может быть обработан за единицу времени.
В контексте машинного обучения и нейронных сетей пропускная способность определяет, насколько эффективно модель справляется с потоками информации: сколько входных данных она способна «переварить» за секунду, минуту или иной временной интервал, не теряя в качестве вывода. Это ключевой параметр для оценки производительности как на этапе обучения, так и при инференсе (применении обученной модели).
Аналогия из бытового мира
Представьте пропускной пункт на границе: сколько машин может пройти через него за час, зависит от числа работающих шлагбаумов, скорости проверки документов и т. д. Аналогично пропускная способность нейросети зависит от архитектуры (сколько «параллельных потоков» обработки), аппаратных ресурсов (мощность GPU/TPU), оптимизации кода и объёма входных данных.
Исторический контекст
Понятие пропускной способности стало особенно актуальным с ростом масштабов моделей и объёмов данных в 2010‑х годах. Появление глубоких свёрточных сетей (CNN) для компьютерного зрения и трансформеров для обработки естественного языка (например, BERT, GPT) резко повысило требования к вычислительным ресурсам. Исследователи и инженеры начали активно оптимизировать пропускную способность:
- разрабатывать специализированные ускорители (TPU от Google, GPU от NVIDIA);
- применять техники квантования и прунинга для сокращения вычислительных затрат;
- использовать распределённые вычисления (многоузловые кластеры).
Смежные понятия и различия
- Вычислительная мощность — общая способность системы выполнять операции (например, FLOPS), тогда как пропускная способность фокусируется на потоке данных через модель.
- Латентность — время задержки от ввода до вывода; высокая пропускная способность не всегда означает низкую латентность (например, пакетная обработка может повышать пропускную способность, но увеличивать латентность).
- Масштабируемость — способность системы увеличивать производительность при добавлении ресурсов; пропускная способность — это метрика, которую масштабирование стремится улучшить.
Примеры использования
- В компьютерном зрении пропускная способность измеряется в кадрах в секунду (FPS) для моделей типа YOLO или ResNet при обработке видеопотоков.
- В NLP — количество токенов в секунду для трансформеров (например, GPT‑4 или Llama), особенно при генерации текста в реальном времени.
- В распределённых системах — количество запросов в секунду (RPS), которые может обработать кластер серверов с развёрнутыми моделями (например, в облачных сервисах AWS SageMaker или Google Vertex AI).
- При оптимизации инференса — сравнение пропускной способности модели до и после применения техник вроде ONNX Runtime или TensorRT.
