В работе исследуется применение сверхглубоких моделей Transformer в задачах нейронного машинного перевода. Авторы предлагают простой, но эффективный метод инициализации, который стабилизирует процесс обучения и позволяет создавать архитектуры с 60 слоями энкодера и 12 слоями декодера. Такие глубокие модели превосходят стандартные 6-слойные аналоги на 2,5 балла по метрике BLEU. В результате были достигнуты новые рекордные показатели (SOTA) на наборе данных WMT14 (англо-французское направление).
Исследование посвящено значительному увеличению глубины архитектуры Transformer для задач машинного перевода. Авторы представили метод стабилизации обучения, позволивший создать модели с 60 слоями энкодера, что улучшило качество перевода на 2.5 BLEU по сравнению со стандартными решениями.