Яндекс Метрика
Языковая модель

Starling-LM-7B-alpha

University of California (UC) Berkeley
Чат-ботГенерация текста

Starling-LM-7B-alpha — это амбициозная языковая модель, обученная с помощью инновационного метода RLAIF (обучение на основе ИИ-фидбека). Она показывает невероятные результаты в тестах, обходя многие более крупные нейросети по качеству и логике ответов.

We introduce Starling-7B, an open large language model (LLM) trained by Reinforcement Learning from AI Feedback (RLAIF). The model harnesses the power of our new GPT-4 labeled ranking dataset, Nectar, and our new reward training and policy tuning pipeline. Starling-7B-alpha scores 8.09 in MT Bench with GPT-4 as a judge, outperforming every model to date on MT-Bench except for OpenAI’s GPT-4 and GPT-4 Turbo. We release the ranking dataset Nectar, the reward model Starling-RM-7B-alpha and the language model Starling-LM-7B-alpha on HuggingFace, and an online demo in LMSYS Chatbot Arena. Stay tuned for our forthcoming code and paper, which will provide more details on the whole process.

Что такое Starling-LM-7B-alpha?+
Кто разработал Starling-LM-7B-alpha?+
Какие задачи решает Starling-LM-7B-alpha?+