Пропускная способность (Throughput)

Что такое Пропускная способность (Throughput)?

Характеристика нейронной сети или её отдельных компонентов, отражающая максимальный объём данных (количество примеров, пакетов, токенов и т. п.), который может быть обработан за единицу времени.

В контексте машинного обучения и нейронных сетей пропускная способность определяет, насколько эффективно модель справляется с потоками информации: сколько входных данных она способна «переварить» за секунду, минуту или иной временной интервал, не теряя в качестве вывода. Это ключевой параметр для оценки производительности как на этапе обучения, так и при инференсе (применении обученной модели).

Аналогия из бытового мира

Представьте пропускной пункт на границе: сколько машин может пройти через него за час, зависит от числа работающих шлагбаумов, скорости проверки документов и т. д. Аналогично пропускная способность нейросети зависит от архитектуры (сколько «параллельных потоков» обработки), аппаратных ресурсов (мощность GPU/TPU), оптимизации кода и объёма входных данных.

Исторический контекст

Понятие пропускной способности стало особенно актуальным с ростом масштабов моделей и объёмов данных в 2010‑х годах. Появление глубоких свёрточных сетей (CNN) для компьютерного зрения и трансформеров для обработки естественного языка (например, BERT, GPT) резко повысило требования к вычислительным ресурсам. Исследователи и инженеры начали активно оптимизировать пропускную способность:

  • разрабатывать специализированные ускорители (TPU от Google, GPU от NVIDIA);
  • применять техники квантования и прунинга для сокращения вычислительных затрат;
  • использовать распределённые вычисления (многоузловые кластеры).

Смежные понятия и различия

  • Вычислительная мощность — общая способность системы выполнять операции (например, FLOPS), тогда как пропускная способность фокусируется на потоке данных через модель.
  • Латентность — время задержки от ввода до вывода; высокая пропускная способность не всегда означает низкую латентность (например, пакетная обработка может повышать пропускную способность, но увеличивать латентность).
  • Масштабируемость — способность системы увеличивать производительность при добавлении ресурсов; пропускная способность — это метрика, которую масштабирование стремится улучшить.

Примеры использования

  • В компьютерном зрении пропускная способность измеряется в кадрах в секунду (FPS) для моделей типа YOLO или ResNet при обработке видеопотоков.
  • В NLP — количество токенов в секунду для трансформеров (например, GPT‑4 или Llama), особенно при генерации текста в реальном времени.
  • В распределённых системах — количество запросов в секунду (RPS), которые может обработать кластер серверов с развёрнутыми моделями (например, в облачных сервисах AWS SageMaker или Google Vertex AI).
  • При оптимизации инференса — сравнение пропускной способности модели до и после применения техник вроде ONNX Runtime или TensorRT.

Авторизация