Модель SmooCT от ученых UCL адаптирует обучение с подкреплением для игр с неполной информацией, таких как покер. ИИ использует модифицированный поиск по дереву Монте-Карло (MCTS), чтобы принимать оптимальные решения в условиях неопределенности. Это важный шаг в развитии игрового ИИ, выходящий за рамки классических шахмат и го.
Self-play reinforcement learning has proved to be successful in many perfect information two-player games. However, research carrying over its theoretical guarantees and practical success to games of imperfect information has been lacking. In this paper, we evaluate selfplay Monte-Carlo Tree Search (MCTS) in limit Texas Hold’em and Kuhn poker. We introduce a variant of the established UCB algorithm and provide first empirical results demonstrating its ability to find approximate Nash equilibria.