Towards sample-efficient episodic control with DAC

// abstract

Проблема низкой эффективности выборки в искусственном интеллекте заключается в неспособности современных моделей глубокого обучения с подкреплением оптимизировать стратегии поведения за малое количество эпизодов. Недавние исследования пытались преодолеть это ограничение, внедряя системы памяти и архитектурные смещения для ускорения обучения, как в случае с эпизодическим обучением с подкреплением. Однако, несмотря на постепенный прогресс, производительность таких систем все еще значительно уступает человеческим способностям к быстрому освоению новых навыков. В данной работе предлагается подход DAC-ML, направленный на сокращение этого разрыва.

// описание

Авторы решают проблему низкой эффективности обучения (sample-inefficiency) в глубоком обучении с подкреплением, когда моделям требуется слишком много попыток для освоения навыка. Предложенный метод DAC-ML внедряет системы памяти и архитектурные модификации, позволяя ИИ быстрее оптимизировать свои действия на основе ограниченного опыта. Это важный шаг к созданию алгоритмов, способных обучаться так же быстро и гибко, как живые организмы.

// авторы

Ismael T. Freire, Adrián F. Amil, Vasiliki Vouloutsi, Paul F. M. J. Verschure

← все исследования

К вопросу об эффективности выборки в эпизодическом управлении с помощью DAC-ML