Яндекс Метрика
cs.IR, cs.CL

Методы, применение и эффективность тематического моделирования коротких текстов: обзор

Qiang Jipeng, Qian Zhenyu, Li Yun, Yuan Yunhao, Wu Xindong13.04.2019

Выявление скрытых тематик в коротких текстах является фундаментальной задачей, необходимой для семантического анализа данных во многих современных приложениях. Традиционные алгоритмы (например, PLSA и LDA), основанные на совместной встречаемости слов, неэффективны в этой области из-за крайней ограниченности контекста в коротких сообщениях. В данном обзоре рассматриваются специализированные методы тематического моделирования, которые стали востребованным направлением в области машинного обучения.

В работе представлен масштабный обзор методов тематического моделирования для коротких текстов, где классические алгоритмы вроде LDA работают плохо из-за дефицита данных. Авторы систематизируют современные подходы, их применение и эффективность в задачах семантического анализа. Исследование служит ключевым ориентиром для разработчиков, работающих с данными из соцсетей и мессенджеров.

Qiang Jipeng, Qian Zhenyu, Li Yun, Yuan Yunhao, Wu Xindong