Архив выступлений: 2015-2016 учебный год, осенний семестр
Аннотация доклада.
В Министерстве культуры Российской Федерации предпринимаются попытки, направленные на реализацию нового этапа развития Национальной электронной библиотеки (НЭБ). Основной целью этого этапа является обеспечение свободного, равного и всеобщего доступа граждан нашей страны к документной информации историко-культурного, научного и образовательного назначения через сеть Интернет, предоставляемой на основе единой общенациональной системы создания и эффективного использования цифровых библиотечно-информационных ресурсов и сервисов.
Следуя парадигме открытости данных, была осуществлена публикация библиографических записей библиотек, входящих в состав НЭБ, в соответствии с принципами Linked Open Data. Реализация данного проекта позволила получить доступ к библиографической информации, хранящейся в ряде крупнейших библиотек России, в виде, пригодном для машинной обработки. Набор данных состоит из нескольких десятков миллионов записей. Наличие открытого доступа к одному из самых крупных в мире массиву библиографической информации с возможностью обнаружения семантически связанных данных является одной из составляющих развития как культуры в целом, так и отдельных направлений книжной отрасли в частности.
В процессе семантической интеграции были решены несколько актуальных задач: разработана онтология предметной области, произведена конвертация библиографических данных из различных MARC-форматов в RDF, создан эффективный алгоритм поиска нечетких дубликатов среди большого количества записей, осуществлена публикация данных и предоставлена SPARQL точка доступа к ним.
Для выявления дублетных библиографических записей используется функция из семейства locality-sensitive hashing c дополнительными оптимизациями. Выявленные таким образом записи сравниваются друг с другом с помощью меры Жаккара для принятия окончательного решения о дублетности и осуществления слияния нескольких записей в одну. Полученные библиографические записи семантически связывались с данными из Библиотеки конгресса США, Британской национальной библиотекой и DBPedia. Для каждого из источников был создан модуль, который осуществлял поиск по заданному выражению и возвращал найденные результаты. Для отсечения заведомо неподходящих кандидатов для установления связи owl:sameAs отдельные поля библиографических записей разбивались на множества биграмм. Используя меру Жаккара, вычислялось расстояние между строками библиографических записей. Для тех пар записей, у которых мера превышала установленный порог, производилось связывание.
Основными научными и практическими результатами являются:
- аналитическая модель построения модульных систем для сбора и последующей обработки библиографических записей;
- алгоритм выявления дублетных библиографических записей и создания на их основе обогащенных данных, позволяющий минимизировать количество попарно сравниваемых записей;
- разработанный набор XSLT-шаблонов для преобразования библиографических записей из различных форматов в формат, пригодный для публикации в LOD, в соответствии с существующей онтологией;
- алгоритм связывания библиографических данных с уже опубликованными в LOD сведениями, поставляемыми различными организациями;
- модульная система интеграции библиографических данных, позволяющая в автоматическом режиме осуществлять сбор библиографических записей из библиотек, проводить обогащение данных на основе полученной информации, конвертировать сведения в формат, пригодный для публикации в LOD, и устанавливать связи с уже опубликованными в LOD данными.