План работы семинара: 2017-2018 учебный год, весенний семестр

Кузнецов С. Д. (МГУ имени М.В. Ломоносова).
«Новые устройства хранения данных и их влияние на технологию баз данных».

Аннотация доклада.

В начале доклада будет продемонстрировано, что технология наиболее распространенных в настоящее время SQL-ориентированных СУБД неразрывно связана с технологией HDD (Hard Disk Drive). Особенности HDD влияют на структуры данных и алгоритмы выполнения операций, на методы управления буферным пулом СУБД, на управление транзакциями, оптимизацию запросов и т.д. Альтернативой дисковым СУБД являются in-memory СУБД, хранящие базы данных целиком в основной памяти. Несмотря на наличие у in-memory СУБД ряда преимуществ перед дисковыми СУБД, в настоящее время конкуренция между ними практически отсутствует. Это, прежде всего, связано с естественными ограничениями на размеры баз данных, свойственными in-memory СУБД. В настоящее время появились новые виды аппаратуры хранения данных: SSD – блочные твердотельные накопители; SCM – энергонезависимая основная память. Характеристики SSD указывали на целесообразность разработки СУБД, которая была бы рассчитана на их исключительное использование. Однако до сих пор такая СУБД не создана. Накопители SSD просто используются вместо HDD в СУБД, не учитывающих их особенности. Наличие SCM позволяет радикально упростить архитектуры СУБД и значительно повысить их производительность. Для этого нужно пересмотреть многие идеи, используемые в дисковых СУБД.

Коротков А.Е. (Postgres Professional).
«Credereum - Postgres с поддержкой блокчейн. Соединяем доказуемость и неизменяемость блокчейна с производительностью и эффективностью традиционных СУБД».

Аннотация доклада.

Credereum – это платформа, которая позволяет создавать и поддерживать базы данных, содержимое и история которых доказуемы и неизменяемы, без принесения в жертву производительности и эффективности традиционных СУБД. Благодаря Credereum, владелец базы данных может доказывать корректность результатов запроса, а пользователи могут их проверять. Владельцу базы данных необязательно раскрывать всё содержимое базы данных или всю историю транзакций для того, чтобы доказывать корректность результатов отдельного запроса к базе данных. Таким образом, база данных Credereum подходит и для хранения приватной информации.
На пути реализации Credereum существует ряд математических проблем. Одной из таких проблем является сложность построения доказательств результатов запроса. Наивный подход заключается в том, чтобы строить доказательства для каждой из прошедших транзакций. Такой подход обеспечивает корректный результат, однако его отрицательной стороной является то, что сложность построения доказательства прямо пропорциональна числу всех транзакций за рассматриваемый период (а не числу транзакций, которые затронули возвращаемые данные).
Проблемным вопросом является то, что Credereum нуждается в доверенном хранилище, где могли бы храниться хэши базы данных. Благодаря таким механизмом можно гарантировать, что владелец базы данных поддерживает единственное состояние базы данных. В качестве такого доверенного хранилища может служить публичный блокчейн. При использовании публичного блокчейна встаёт вопрос масштабируемости (шардинга), которая в частном случае хранения большого количества независимых хэшей (от разных баз) может иметь более простое решение, чем в общем случае.
В докладе будет детально описана концепция Credereum, а также его математические вопросы, которые требуют разрешения. Целью данного доклада является привлечение математической общественности к совместному решению отмеченных выше задач.

Бонюшкина А., Кузнецова А. (МГУ имени М.В. Ломоносова).
«Проверка свойств безопасности атрибутивной политики разграничения доступа».

Аннотация доклада.

В качестве модели базы данных подсистемы разграничения доступа рассматривается ориентированный граф с помеченными ребрами. Вершины графа представляют собой объекты подконтрольной информационной системы, а ребра задают названия атрибутов объекта. Операции с данным в такой модели - это изменение значений в вершинах графа. Свойство безопасности - отсутствие возможности получить доступ к объекту путем выполнения последовательности разрешенных операций. Доказано, что задача не имеет решения в общем случае, однако имеет решение при некоторых ограничениях на допустимые действия с данными.

Козицын А. С. (МГУ имени М.В. Ломоносова).
«Использование графа соавторства для построения связей между объектами в больших коллекциях библиографических данных».

Аннотация доклада.

В докладе рассматриваются некоторые задачи обработки библиографических данных с использованием выделения статистических закономерностей в графе соавторства. Представлены результаты исследований по идентификации переводных вариантов статей, определения авторов по библиографическим данным и определения тематической близости журналов. Представленный алгоритм позволяет выделять авторов с точностью более 95%. Точность определения переводных статей составляет 65%, что не позволяет использовать его в автоматическом режиме. Однако, этот алгоритм может использоваться для построения рекомендаций для авторов или лиц -ответственных за сопровождение информации при вводе или верификации статей.

Иткес А. А. (МГУ имени М.В. Ломоносова).
«Внедрение реляционной модели логического разграничения доступа в системах на основе библиотеки Django».

Аннотация доклада.

В докладе рассматривается задача внедрения реляционной модели логического разграничения доступа к объектам многопользовательских систем управления сетевым контентом, использующих библиотеку Django, на примере ИАС «ИСТИНА». Рассмотрены различные варианты структурирования формата описания политики безопасности системы, которые оцениваются с точки зрения удобства модификации политики в процессе сопровождения системы. Представлены также подходы к автоматизации процесса тестирования механизмов логического разграничения доступа, базирующихся на использовании реляционной модели.

Роганов В. А. (МГУ имени М.В. Ломоносова).
«Многоагентный подход к непрерывному тестированию информационных систем и оптимизации процессов в цифровых сообществах».

Аннотация доклада.

Современные информационные системы представляют собой сложные, непрерывно развивающиеся комплексы. Они имеют объемный код, и вопрос его качественного покрытия тестами требует больших трудозатрат, что непросто обеспечить при дефиците ресурсов.
Субъекты, работающие с ИС, могут быть представлены при помощи агентов с определенными личными целями и активностями, при этом их взаимодействие с моделью и/или реальной системой естественным образом порождает тестовые последовательности с адекватным покрытием, что позволяет получать различные характеристики тех участков кода, по которым проходят трассы исполнения входящих в систему программ.
Взгляд на код системы с «рабочей» стороны дает ответы на ключевые вопросы, связанные с его поддержкой, развитием и оптимизацией.
С точки же зрения модели субъектов, образующих цифровое сообщество, можно прогнозировать изменение различных ключевых его характеристик при изменении тех или иных тех влияющих на активности агентов факторов. Это позволяет, при адекватной настройке модели, решать обратную задачу оптимального расходования имеющихся ресурсов в задачах управления.

Лунев К. В. (МГУ имени М.В. Ломоносова).
«Определение семантических связей между объектами информационной системы по ассоциированным с ними наборами ключевых слов».

Аннотация доклада.

Многие современные информационные системы, такие как социальные сети, блоговое и поисковые системы, используют ключевые слова для описания содержащихся в них сущностей. Это значительно упрощает для пользователя поиск объектов системы, потому что позволяет с помощью запроса на естественном языке находить документы различной природы: текстовые документы, изображения, видеозаписи - любой объект, которому был приписан набор ключевых слов.
В рамках данной работы рассматривается коллекция наборов ключевых слов для которой будут предложены решения для различных задач информационного поиска таких как поисковое ранжирование, кластеризация и автоматическое построение классификаторов. Для достижения поставленных целей использованы методы машинного обучения, а также построенная в автоматическом режиме база синонимов ключевых слов.

Шачнев Д. А. (МГУ имени М.В. Ломоносова).
«Тематический классификатор наукометрических данных на примере анализа проектов в ИАС «ИСТИНА»».

Аннотация доклада.

В докладе рассматриваются способы реализации тематической классификации сущностей в наукометрических системах, использующих реляционную базу для хранения объектов и отношений между ними. Для решения этой задачи предлагается использовать введённые пользователями или выделенные из текстов на естественном языке ключевые слова. Множество ключевых слов из поискового запроса может быть расширено при помощи подготовленной заранее выборки пар ключевых слов (тезауруса). Все ключевые слова объединяются в направленный граф, для поиска путей в котором можно использовать алгоритм Дейкстры или другие алгоритмы поиска и кластеризации.
Реализованные алгоритмы будут продемонстрированы на примере решения задачи классификации научно-исследовательских работ по приоритетным направлениям с использованием механизмов информационно-аналитической системы «ИСТИНА».

24 апреля 2018 года [планируемое заседание]
Кривчиков М. А. (МГУ имени М.В. Ломоносова).
«Описание семантики предметно-ориентированных языков программирования с использованием подтипов».

Аннотация доклада.

Наиболее полное описание семантики языка программирования — это его интерпретатор, основанный на строгой математической модели. Например, операционная семантика представляет собой интерпретатор языка для некоторой абстрактной машины (как правило, редукционной), а денотационная семантика представляет собой компилятор исходного языка программирования в частичные непрерывные функции над решётками (доменами). Однако для решения практических задач верификации функциональных свойств программ на предмет их соответствия требованиям, сформулированным в терминах предметной области, описание семантики в виде интерпретатора имеет слишком высокий уровень детализации. В настоящем докладе представлен подход к описанию семантики языков программирования с использованием подтипов, а также реализация этого подхода на основе промежуточного представления. В рамках предлагаемого подхода семантика языка программирования может описываться в виде приближений (с требуемым для решения конкретной задачи уровнем детализации), согласованных в терминах подтипов с каноническим интерпретатором этого языка, который, в свою очередь, может быть задан в форме операционной семантики.