Выявление скрытых тематик в коротких текстах является фундаментальной задачей, необходимой для семантического анализа данных во многих современных приложениях. Традиционные алгоритмы (например, PLSA и LDA), основанные на совместной встречаемости слов, неэффективны в этой области из-за крайней ограниченности контекста в коротких сообщениях. В данном обзоре рассматриваются специализированные методы тематического моделирования, которые стали востребованным направлением в области машинного обучения.
В работе представлен масштабный обзор методов тематического моделирования для коротких текстов, где классические алгоритмы вроде LDA работают плохо из-за дефицита данных. Авторы систематизируют современные подходы, их применение и эффективность в задачах семантического анализа. Исследование служит ключевым ориентиром для разработчиков, работающих с данными из соцсетей и мессенджеров.