Архив выступлений: 2009-2010 учебный год, весенний семестр
Аннотация доклада.
Вопросы эффективного управления большими объемами данных, а также построения открытых интерфейсов для доступа к этим данным в настоящее время являются приоритетными направлениями исследований в области высокопроизводительных вычислений. В докладе будут представлены алгоритмы и программное обеспечение для сбора, долгосрочного хранения, интеллектуального анализа и динамической визуализации данных по окружающей среде. Мы предлагаем абстрактный уровень сервисов для виртуализации баз данных, с помощью которых мы выбираем многомерные массивы с параметрами окружающей среды и реализуем распределенный нечеткий поиск сценариев событий. Такой подход позволяет создавать масштабируемые хранилища и сервисы для облака научных данных (data cloud).
Аннотация доклада.
В докладе представлено распределенное хранилище численных данных ActiveStorage, предназначенное для хранения временных рядов, спутниковых изображений, результатов численного моделирования и другой информации, которая может быть представлена в виде многомерных численных массивов. Проводится сравнение с существующей системой хранения многомерных массивов RasDaMan и находящейся в разработке базой данных SciDB.
Данные из различных научных областей по окружающей среде из многомерных массивов могут быть представлены в графическом виде в различном масштабе и совмещены из нескольких источников с использованием современных технологий визуализации. Описываются технологии визуализации на мультидисплеях (видеостенах), стереоскопических, объёмных экранах, их возможности и недостатки, а так же конкретные приложения и практические реализации.
Аннотация доклада.
В докладе рассматривается подход к созданию механизмов и средств автоматизации процесса разделения ресурсов между задачами различных пользователей, которые поступают на обслуживание в распределенную вычислительную среду, построенную на основе методологии GRID. Анализируются механизмы и модели системы планирования и диспетчеризации ресурсов, которые используются в инструметальном комплексе GridWay. Излагается подход к планированию задач, основанный на контроле насыщения (Congestion Control). Описывается протопит системы, построенной на основе такой модели и результаты его тестирования.
Аннотация доклада.
Префиксные деревья (tries) и их разновидности являются одними из самых эффективных структур данных для хранения ассоциативных массивов (обычно со строковыми ключами). Некоторые реализации префиксных деревьев (HAT-trie) сравнимы по производительности с хэш-таблицами. При этом в отличие от хэш-таблиц, они позволяют поддерживать отношение порядка между ключами, а также быстро получать все ключи по заданному префиксу.
Предлагается реализация разновидности префиксных деревьев для поддержки индексов баз данных в качестве альтернативы B-деревьям. Наиболее похожим типом деревьев является HAT-trie (cache-conscious trie). В данном типе деревьев учитываются особенности хранения данных в СУБД: изменения локальны относительно страниц; используется максимально компактное представление узлов (с целью занять наименьшее количество страниц). Кроме того, в отличие от B-деревьев, в предложенной структуре данных нет ограничений на длину ключа. Основная задача, которая была решена в ходе работы --- это разработка эффективного алгоритма разделения страниц (splitting). Этот алгоритм позволяет обеспечивать оптимальное заполнение страниц.
В настоящее время выполняется сравнение прототипной реализации с существующими реализациями B-деревьев, в том числе, с B-деревьями, во внутренних страницах которых данные представлены в виде префиксного дерева.
Аннотация доклада.
Во многих областях науки происходит процесс лавинного поступления информации, в первую очередь связанный с успехами в технологии создания приемных устройств. В современных экспериментах (включая и численное моделирование) речь идет о многих петабайтах информации. Специфика научных данных состоит в необходимости «вечного» хранения сырых данных (raw data) - данные,считанные с приемных устройств, что накладывает повышенные требования к масштабируемости и защищенности системы хранения. Проект SciDB - это новая СУБД, разрабатываемая в России и США, ориентированная на современную архитектуру и сверхбольшие базы научных данных, способная к масштабированию от ноутбука до тысяч серверов.
Аннотация доклада.
В докладе рассматривается задача построения статической семантики языка программирования. Будут изложены идеи основных подходов к построению формальной семантики, рассмотрена связь формальной семантики с задачей статического анализа программ и описан процесс построения статической денотационной семантики на примере управляемого кода стандарта ECMA-335.
Аннотация доклада.
Поиск ближайших соседей является очень важной задачей информационного поиска. Предлагается неитерационный алгоритм поиска K-ближайших соседей и его реализация в СУБД PostgreSQL на основе модификации обобщенного поискового дерева GiST.