Архив выступлений: 2015-2016 учебный год, осенний семестр

О. Н. Шорин (Российская национальная библиотека).
«Семантическая интеграция библиографических записей национальной электронной библиотеки».

Аннотация доклада.

В Министерстве культуры Российской Федерации предпринимаются попытки, направленные на реализацию нового этапа развития Национальной электронной библиотеки (НЭБ). Основной целью этого этапа является обеспечение свободного, равного и всеобщего доступа граждан нашей страны к документной информации историко-культурного, научного и образовательного назначения через сеть Интернет, предоставляемой на основе единой общенациональной системы создания и эффективного использования цифровых библиотечно-информационных ресурсов и сервисов.

Следуя парадигме открытости данных, была осуществлена публикация библиографических записей библиотек, входящих в состав НЭБ, в соответствии с принципами Linked Open Data. Реализация данного проекта позволила получить доступ к библиографической информации, хранящейся в ряде крупнейших библиотек России, в виде, пригодном для машинной обработки. Набор данных состоит из нескольких десятков миллионов записей. Наличие открытого доступа к одному из самых крупных в мире массиву библиографической информации с возможностью обнаружения семантически связанных данных является одной из составляющих развития как культуры в целом, так и отдельных направлений книжной отрасли в частности.

В процессе семантической интеграции были решены несколько актуальных задач: разработана онтология предметной области, произведена конвертация библиографических данных из различных MARC-форматов в RDF, создан эффективный алгоритм поиска нечетких дубликатов среди большого количества записей, осуществлена публикация данных и предоставлена SPARQL точка доступа к ним.

Для выявления дублетных библиографических записей используется функция из семейства locality-sensitive hashing c дополнительными оптимизациями. Выявленные таким образом записи сравниваются друг с другом с помощью меры Жаккара для принятия окончательного решения о дублетности и осуществления слияния нескольких записей в одну. Полученные библиографические записи семантически связывались с данными из Библиотеки конгресса США, Британской национальной библиотекой и DBPedia. Для каждого из источников был создан модуль, который осуществлял поиск по заданному выражению и возвращал найденные результаты. Для отсечения заведомо неподходящих кандидатов для установления связи owl:sameAs отдельные поля библиографических записей разбивались на множества биграмм. Используя меру Жаккара, вычислялось расстояние между строками библиографических записей. Для тех пар записей, у которых мера превышала установленный порог, производилось связывание.

Основными научными и практическими результатами являются:

  • аналитическая модель построения модульных систем для сбора и последующей обработки библиографических записей;
  • алгоритм выявления дублетных библиографических записей и создания на их основе обогащенных данных, позволяющий минимизировать количество попарно сравниваемых записей;
  • разработанный набор XSLT-шаблонов для преобразования библиографических записей из различных форматов в формат, пригодный для публикации в LOD, в соответствии с существующей онтологией;
  • алгоритм связывания библиографических данных с уже опубликованными в LOD сведениями, поставляемыми различными организациями;
  • модульная система интеграции библиографических данных, позволяющая в автоматическом режиме осуществлять сбор библиографических записей из библиотек, проводить обогащение данных на основе полученной информации, конвертировать сведения в формат, пригодный для публикации в LOD, и устанавливать связи с уже опубликованными в LOD данными.