Яндекс Метрика
R

Модель вознаграждения (Reward Model)

// определение

Модель, обученная предсказывать предпочтения человека для использования в обучении с подкреплением (RLHF). Она выступает в роли «судьи», помогая настроить поведение ИИ так, чтобы его ответы были максимально полезными и безопасными.

// faq
Что такое Модель вознаграждения (Reward Model)?+
Как Модель вознаграждения (Reward Model) используется в ИИ?+