Архив выступлений: 2005-2006 учебный год, осенний семестр
Аннотация доклада.
На данный момент практически в любой научной или прикладной области накоплены огромные объёмы данных. Каждый день новые данные поступают в наше распоряжение, и их больше, чем можно просто просмотреть, даже не говоря об эффективном использовании для принятия решений. Ясно, что такие объемы данных не поддаются эффективной обработке традиционными методами ручного анализа.
Интерес со стороны инвесторов и научных организаций, породил в начале 90-х годов прошлого века острую необходимость в разработке новых технологий и средств, которые могли бы автоматически переводить обрабатываемые данные в полезную информацию и знания. Технология Data mining (извлечение знаний) - один из результатов этих научных разработок.
Извлечение знаний - это процесс нетривиального извлечения полной, неизвестной до этого и потенциально полезной информации (такой как правила, связи, зависимости) из данных. Основное преимущество извлечения знаний перед другими методами анализа данных - это возможность нивелировать важность эксперта для анализа, автоматизация процесса нахождения зерен знаний среди плевел.
В докладе приводятся данные по практическому использованию технологии, описание различных методов и применение технологии для анализа поведения пользователей Интернет.
Основные темы доклада
- Понятие извлечения знаний. Прикладные и специальные приложения.
- Сравнение методики извлечения знаний и других технологий (статистические методы, OLAP).
- Типы закономерностей.
- Классификация. Баесовы классификаторы, Деревья решений.
- Кластеризация. Иерархическая классификация. Нечеткая кластеризация. Методы для данных перечислимых типов.
- Валидация результатов извлечения знаний.
- Особенности отслеживания действий пользователей в Интернет.
Литература:
- M.-S. Chen, J. Han, P.S. Yu. Data Mining: An Overview from a Database Perspective. // IEEE Transaction on Knowledge and Data Engineering, pp. 866-884, December 1996.
- Advances in Knowledge Discovery and Data Mining // Под ред. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth и R. Uthurusamy, AAAI Press/MIT Press 1996.
- C. Owen. Data Modeling, Data Warehousing and Data Mining: How to Make Your Data Work for You Like Never Before! - DM Review Magazine, November 1998.
- Robert Cooley, Bamshad Mobasher, Jaideep Srivastava. Web Mining: Information and Pattern Discovery on the World Wide Web. // Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97), November 1997.
- Daniela Florescu, Alon Levy, Alberto Mendelzon. Database Techniques for the World-Wide Web: A Survey. // SIGMOD Record, vol. 27, no. 3, 1998, pp. 59-74. Есть русск. пер.: Флореску Д., Леви А., Мендельсон А. Технологии баз данных для World-Wide Web: обзор. СУБД. - 1998. - №4-5, 1998.
- Sanjay Madria, Sourav S. Bhowmick. Research issues in Web Data Mining. // Data Warehousing and Knowledge Discovery, 1999, pp. 303-312.
- Maria Halkidi, Yannis Batistakis and Michalis Vazirgiannis. On Clustering Validation Techniques. // Journal of Intelligent Information Systems, vol. 17, number 2-3, 2001, pp. 107-145.