Единичный параметр (Single Parameter)
Единичный параметр — это отдельный числовой показатель или переменная в структуре нейронной сети, которая влияет на обработку данных и формирование выходных результатов. В контексте машинного обучения такие параметры обычно представляют собой веса связей между нейронами или смещения (биасы) в слоях сети.
Представьте, что нейронная сеть — это сложный музыкальный инструмент, например, орган. Каждый единичный параметр в этом случае подобен отдельной клавише или регистру: сам по себе он не создаёт мелодию, но в совокупности с другими элементами формирует звучание. Меняя положение регистров (то есть значения параметров), органист (а в нашем случае — алгоритм обучения) добивается нужного звучания (оптимальной работы модели).
Историческая справка
Исторически понятие параметров в нейросетях восходит к ранним моделям перцептронов, разработанным в 1950–1960‑х годах (например, перцептрон Фрэнка Розенблатта). Уже тогда стало понятно: чтобы модель «училась», нужно настраивать коэффициенты, связывающие входные данные с выходными. С развитием архитектуры сетей (от простых перцептронов к свёрточным, рекуррентным и трансформерам) количество единичных параметров резко выросло — современные модели могут содержать миллиарды таких переменных.
Отличия от других понятий
Важно отличать единичный параметр от:
- гиперпараметра — это настройки, которые задаются до обучения (например, скорость обучения, количество слоёв) и влияют на процесс оптимизации, но не обновляются в ходе него;
- признака (фичи) — это входные данные, которые подаются в сеть (например, пиксели изображения), а не внутренние переменные модели.
Примеры использования единичных параметров
- в полносвязном слое нейронной сети каждый вес, соединяющий нейроны двух соседних слоёв, — это единичный параметр;
- в свёрточной нейронной сети (CNN) единичными параметрами являются коэффициенты ядер свёртки (фильтров), которые «скользят» по входному изображению;
- в рекуррентных сетях (RNN) единичные параметры включают веса матриц, отвечающих за передачу состояния между временными шагами.
Популярные модели с большим количеством единичных параметров
- GPT-3 (около 175 млрд параметров);
- BERT (от 110 млн до 340 млн параметров в разных версиях);
- ResNet-50 (около 25 млн параметров).
Оптимизация этих параметров — ключевая задача при обучении: алгоритмы вроде стохастического градиентного спуска (SGD) или Adam итеративно подстраивают их значения, минимизируя функцию потерь.
