Архив выступлений: 2009-2010 учебный год, осенний семестр
Аннотация доклада.
В докладе рассматривается задача разделения синтактически корректного предложения русского языка, описывающего некоторое событие, на три составляющие, отражающие дату, место и суть события. Источником данных для этой задачи могут служить новостные ленты информационных агентств. В докладе реализован алгоритм поиска и выделения из данного предложения дат и географических названий. Оставшаяся часть предложения считается описанием сути события. Описываются возможные пути расширения словарей географических названий за счет автоматического обучения на основе размеченных текстов или путем подключения существующих в открытом доступе баз данных топонимов.