Проблема низкой эффективности выборки в искусственном интеллекте заключается в неспособности современных моделей глубокого обучения с подкреплением оптимизировать стратегии поведения за малое количество эпизодов. Недавние исследования пытались преодолеть это ограничение, внедряя системы памяти и архитектурные смещения для ускорения обучения, как в случае с эпизодическим обучением с подкреплением. Однако, несмотря на постепенный прогресс, производительность таких систем все еще значительно уступает человеческим способностям к быстрому освоению новых навыков. В данной работе предлагается подход DAC-ML, направленный на сокращение этого разрыва.
Авторы решают проблему низкой эффективности обучения (sample-inefficiency) в глубоком обучении с подкреплением, когда моделям требуется слишком много попыток для освоения навыка. Предложенный метод DAC-ML внедряет системы памяти и архитектурные модификации, позволяя ИИ быстрее оптимизировать свои действия на основе ограниченного опыта. Это важный шаг к созданию алгоритмов, способных обучаться так же быстро и гибко, как живые организмы.