Архив выступлений: 2017-2018 учебный год, осенний семестр

К.В.Лунев (МГУ имени М.В. Ломоносова).
«Автоматический сбор тезауруса семантически близких ключевых слов с использованием методов из теории графов и техник машинного обучения».

Аннотация доклада.

Многие современные информационные системы, такие как социальные сети, блоговое и поисковые системы, используют ключевые слова для описания содержащихся в них сущностей. Это значительно упрощает для пользователя поиск объектов системы, потому что позволяет с помощью запроса на естественном языке находить документы различной природы, включая текстовые документы, изображения, видеозаписи, т.е. любой объект, которому был приписан набор ключевых слов.

Важной задачей в области анализа ключевых слов является задача поиска семантически близких ключевых слов к заданному. Это позволяет улучшить качество ранжирования и поиска объектов информационных систем в целом.

В рамках данного доклада будут представлены методы определения близости пары слов по корпусу наборов ключевых слов с применением алгоритмов из теории графов. При помощи построенных графов будет продемонстрирован способ автоматической генерации обучающей выборки для классификации пар ключевых слов, семантически близких по смыслу. Будет показано, как по этой выборке и по построенным графам обучается модель машинного обучения, способная качественно решать поставленную задачу.