Что такое тезаурус и как определить семантическое сходство слов

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений.

Для человека не составит труда понять, что предложения имеют схожий смысл, несмотря на различие в лексике. Но как компьютеру узнать, что под разными словами подразумевается одно и то же? Решение этой задачи состоит в вычислении меры семантического сходства слов: для синонимов она близка к единице, для совершенно непохожих слов – к нулю.

Продолжить чтение, выразить свое мнение в комментариях и подписаться на наш канал можно на сайте Хабр - Читать полную версию.