数据挖掘原理 nterprise iner For Windows 赵卫东博士 复旦大学软件学院 wdzhao@fudan.edu.cn Warn J0
数据挖掘原理 赵卫东 博士 复旦大学软件学院 wdzhao@fudan.edu.cn
What is Data Mining? According to the Gartner Group, Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques Data mining refers to the work of discovering new and useful business) knowledge from large real databases through a non-trivial process and using a sound methodology and multiple data processing and analytical techniques. Examples: Detect taxation fraud: not declaring all income for taxation From the thousands of mobile phone customers predict which customers are going to switch to a competitor
What is Data Mining? ◼ According to the Gartner Group, Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. ◼ Data mining refers to the work of discovering new and useful (business) knowledge from large real databases through a non-trivial process and using a sound methodology and multiple data processing and analytical techniques. ◼ Examples: ◼ Detect taxation fraud: not declaring all income for taxation; ◼ From the thousands of mobile phone customers, predict which customers are going to switch to a competitor
数据挖掘受多学科的影响 数据挖掘是一个交叉 科学领域,受多个学 科影响,包括数据库 数据库技术 统计 系统、统计、机器学 习、可视化和信息科 学 信息科学 数据 挖起+机器学习 可视化 其它学科
数据挖掘受多学科的影响 ◼ 数据挖掘是一个交叉 科学领域,受多个学 科影响,包括数据库 系统、统计、机器学 习、可视化和信息科 学
一个比较正式的数据挖掘的定义 高层次上的主动式自动发现方法,被称为发现驱动型知识发现。 ■从数据中提取正确的、有用的、未知的和综合的信息并用它进 行决策的过程 数据挖掘的相关学科是统计理论、数据库技术和人工智能。 前 Business Objects的 Todd rowe曾表示:“从技术上讲,甚至 只要有完备的Exce数据就能用上B|。” 我誓
一个比较正式的数据挖掘的定义 ◼ 高层次上的主动式自动发现方法,被称为发现驱动型知识发现。 ◼ 从数据中提取正确的、有用的、未知的和综合的信息并用它进 行决策的过程。 ◼ 数据挖掘的相关学科是统计理论、数据库技术和人工智能。 ◼ 前Business Objects的Todd Rowe曾表示:“从技术上讲,甚至 只要有完备的Excel数据就能用上BI
过程 数据挖掘并不是一个装在软件包装盒中的工具 可以简单的买到并运行在商业智能环境中,也 不会自动开始产生值得注意的商业规律 金块 △E 知识 堆积如山的数据
过程 ◼ 数据挖掘并不是一个装在软件包装盒中的工具 可以简单的买到并运行在商业智能环境中,也 不会自动开始产生值得注意的商业规律