Архив выступлений: 2017-2018 учебный год, осенний семестр

А.П.Антонов, М.Г.Акимов (МГУ имени М.В. Ломоносова, Институт биоорганической химии им. акад. М.М.Шемякина и Ю.А.Овчинникова).
«Построение классификатора на основе системы анализа текстов».

Аннотация доклада.

Доклад посвящен задаче классификации пользователей системы "Истина" на основе анализа названий их статей.

Рассмотрены подходы с применением как онлайн-обучения на очень больших массивах данных (baseline решение) так и векторные представления документов (массивов слов) и их качественное сравнение. Будут затронуты некоторые вопросы обработки текстов. Актуальность задачи обуславливается, например, такими уникальными особенностями данных системы "Истина", такими как мультиязычность (названия статей на разных языках), наличие коллизий (у статьи могут быть различные авторы, что создает существенные проблемы при векторизации).