Реактивное обучение (Reactive Learning)
Подход в машинном обучении, при котором модель адаптируется и корректирует своё поведение исключительно на основе непосредственной обратной связи от среды после совершения действия, без предварительного планирования или построения внутренней модели мира.
Вместо того чтобы заранее изучать все возможные дорожные ситуации и продумывать алгоритмы действий, он реагирует на происходящее «здесь и сейчас»: видит красный свет — тормозит, чувствует занос — корректирует руль. Его действия определяются текущими сигналами от дороги и автомобиля, а не сложным планом наперёд.Так и реактивная модель в ИИ действует по принципу «стимул — реакция», оптимизируя поведение через пробы и ошибки в реальном времени.
Исторический контекст
Исторически реактивное обучение тесно связано с развитием обучения с подкреплением (reinforcement learning, RL). В 1980–1990‑х годах исследователи вроде Ричарда Саттона и Эндрю Барто закладывали основы RL, где агент учится, взаимодействуя со средой и получая сигналы подкрепления (награды или наказания). Реактивный подход стал одной из парадигм в этой области — в отличие от моделей, строящих детальные прогнозы или планы (например, на основе деревьев поиска), реактивные агенты фокусируются на быстрой адаптации к текущим условиям.
Отличия от смежных понятий
- Обучение с учителем (supervised learning): там модель учится на размеченных данных (вход — правильный выход), а не через взаимодействие со средой.
- Планирующие агенты в RL: они строят внутренние модели среды и просчитывают последствия действий на несколько шагов вперёд, тогда как реактивные агенты действуют «по ситуации».
- Эволюционные алгоритмы: оптимизация идёт через отбор и мутации популяций решений, а не через пошаговую адаптацию на основе обратной связи.
Примеры использования
- Простые агенты в игровых средах (например, в Atari-играх), где модель учится нажимать кнопки на основе текущего кадра и полученной награды.
- Робототехника — управление роботами в динамических средах (например, обход препятствий), где важно быстро реагировать на изменения, а не строить долгосрочные планы.
- Алгоритмы типа Q-learning (в их базовой форме): агент обновляет оценку ценности действий на основе непосредственной награды, не моделируя всю среду.
- Простые нейронные сети-политики в RL, где выход сети напрямую определяет действие, а обучение идёт через градиенты подкрепления (например, REINFORCE).
