Архив выступлений: 2005-2006 учебный год, осенний семестр

А. А. Щербина (ИСП РАН, ВМиК МГУ).
«Технология извлечения знаний из использования Интернет».

Аннотация доклада.

На данный момент практически в любой научной или прикладной области накоплены огромные объёмы данных. Каждый день новые данные поступают в наше распоряжение, и их больше, чем можно просто просмотреть, даже не говоря об эффективном использовании для принятия решений. Ясно, что такие объемы данных не поддаются эффективной обработке традиционными методами ручного анализа.

Интерес со стороны инвесторов и научных организаций, породил в начале 90-х годов прошлого века острую необходимость в разработке новых технологий и средств, которые могли бы автоматически переводить обрабатываемые данные в полезную информацию и знания. Технология Data mining (извлечение знаний) - один из результатов этих научных разработок.

Извлечение знаний - это процесс нетривиального извлечения полной, неизвестной до этого и потенциально полезной информации (такой как правила, связи, зависимости) из данных. Основное преимущество извлечения знаний перед другими методами анализа данных - это возможность нивелировать важность эксперта для анализа, автоматизация процесса нахождения зерен знаний среди плевел.

В докладе приводятся данные по практическому использованию технологии, описание различных методов и применение технологии для анализа поведения пользователей Интернет.

Основные темы доклада

  1. Понятие извлечения знаний. Прикладные и специальные приложения.
  2. Сравнение методики извлечения знаний и других технологий (статистические методы, OLAP).
  3. Типы закономерностей.
  4. Классификация. Баесовы классификаторы, Деревья решений.
  5. Кластеризация. Иерархическая классификация. Нечеткая кластеризация. Методы для данных перечислимых типов.
  6. Валидация результатов извлечения знаний.
  7. Особенности отслеживания действий пользователей в Интернет.

Литература:

  1. M.-S. Chen, J. Han, P.S. Yu. Data Mining: An Overview from a Database Perspective. // IEEE Transaction on Knowledge and Data Engineering, pp. 866-884, December 1996.
  2. Advances in Knowledge Discovery and Data Mining // Под ред. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth и R. Uthurusamy, AAAI Press/MIT Press 1996.
  3. C. Owen. Data Modeling, Data Warehousing and Data Mining: How to Make Your Data Work for You Like Never Before! - DM Review Magazine, November 1998.
  4. Robert Cooley, Bamshad Mobasher, Jaideep Srivastava. Web Mining: Information and Pattern Discovery on the World Wide Web. // Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97), November 1997.
  5. Daniela Florescu, Alon Levy, Alberto Mendelzon. Database Techniques for the World-Wide Web: A Survey. // SIGMOD Record, vol. 27, no. 3, 1998, pp. 59-74. Есть русск. пер.: Флореску Д., Леви А., Мендельсон А. Технологии баз данных для World-Wide Web: обзор. СУБД. - 1998. - №4-5, 1998.
  6. Sanjay Madria, Sourav S. Bhowmick. Research issues in Web Data Mining. // Data Warehousing and Knowledge Discovery, 1999, pp. 303-312.
  7. Maria Halkidi, Yannis Batistakis and Michalis Vazirgiannis. On Clustering Validation Techniques. // Journal of Intelligent Information Systems, vol. 17, number 2-3, 2001, pp. 107-145.