2数据挖掘 大量信息带来方便也带来一大堆问题:信息过量,难 以消化;信息真假难以辨识;信息安全难以保证; 信息形式不一致,难以统一处理。 数据爆炸但知识贫乏:随着数据库技术的迅速发展以 及数据库管理系统的广泛应用,人们积累的数据越 来越多。目前的数据库系统可以高效地实现数据的 录入、查询、统计等功能,但无法发现数据中存在 的关系和规则,无法根据现有的数据预测未来的发 展趋势。缺乏挖掘数据背后隐藏的知识的手段,导 致了“数据爆炸但知识贫乏”的现象
2 数据挖掘 大量信息带来方便也带来一大堆问题:信息过量,难 以消化;信息真假难以辨识;信息安全难以保证; 信息形式不一致,难以统一处理。 数据爆炸但知识贫乏:随着数据库技术的迅速发展以 及数据库管理系统的广泛应用,人们积累的数据越 来越多。目前的数据库系统可以高效地实现数据的 录入、查询、统计等功能,但无法发现数据中存在 的关系和规则,无法根据现有的数据预测未来的发 展趋势。缺乏挖掘数据背后隐藏的知识的手段,导 致了“数据爆炸但知识贫乏”的现象
2数据挖掘 进化阶段 商业问题 支持技术 产品厂家 产品特点 D 数据搜集“过去五年中我的 计算机、磁带和磁盘 IBM 提供历史性的、 (60年代)总收入是多少? CDC 静态的数据信息 Orac M产生背景及阶段 数据访问 在新英格兰的分关系数据库(RDBM) Sybase 在记录级提供历 (80年代 部去年三月的销售结构化查询语言(SQL) Informix史性的、动态数 额是多少?” ODBC IBM 据信息 Microsoft “在新英格兰的分 Pilot 数据仓库部去年三月的销售联机分析处理(LP) Comshare在各种层次上提 决策支持额是多少?波士顿多维数据库 供回溯的、动态 (90年代)据此可得出什么结 数据仓库 Cognos 的数据信息 论?” Microstrategy Pilot 数据挖掘 “下个月波士顿的 高级算法 Lockheed (正在流行)/销售会怎么样?为多处理器计算机 IBM 提供预测性的信 什么? 海量数据库 SGI 息 其他初创公司
2 数据挖掘 D M 产 生 背 景 及 阶 段 进化阶段 商业问题 支持技术 产品厂家 产品特点 数据搜集 (60年代) “过去五年中我的 总收入是多少?” 计算机、磁带和磁盘 IBM CDC 提供历史性的、 静态的数据信息 数据访问 (80年代) “在新英格兰的分 部去年三月的销售 额是多少?” 关系数据库(RDBMS) 结构化查询语言(SQL) ODBC Oracle Sybase Informix IBM Microsoft 在记录级提供历 史性的、动态数 据信息 数据仓库 决策支持 (90年代) “在新英格兰的分 部去年三月的销售 额是多少?波士顿 据此可得出什么结 论?” 联机分析处理(OLAP) 多维数据库 数据仓库 Pilot Comshare Arbor Cognos Microstrategy 在各种层次上提 供回溯的、动态 的数据信息 数据挖掘 (正在流行) “下个月波士顿的 销售会怎么样?为 什么?” 高级算法 多处理器计算机 海量数据库 Pilot Lockheed IBM SGI 其他初创公司 提供预测性的信 息
2数据挖掘 数据挖掘是多学科的产物 数据库技术 统计学 机器学习 数据挖掘 可视化 人工智能 高性能计算
2 数据挖掘 数据挖掘是多学科的产物 数据挖掘 数据库技术 统计学 人工智能 高性能计算 机器学习 可视化
B.数据挖掘的应用 n电信:流失 ■银行:聚类(细分),交叉销售 ■百货公司/超市:购物篮分析(关联规则) ■保险:细分,交叉销售,流失(原因分析) ■信用卡:欺诈探测,细分 电子商务:网站日志分析 ■税务部门:偷漏税行为探测 ■警察机关:犯罪行为分析 ■医学:医疗保健
B. 数据挖掘的应用 ◼ 电信 :流失 ◼ 银行:聚类(细分), 交叉销售 ◼ 百货公司/超市:购物篮分析 (关联规则) ◼ 保险:细分,交叉销售,流失(原因分析) ◼ 信用卡: 欺诈探测,细分 ◼ 电子商务: 网站日志分析 ◼ 税务部门:偷漏税行为探测 ◼ 警察机关:犯罪行为分析 ◼ 医学: 医疗保健
电信 BT英国电信需要发布一种新的产品 需要通过直邮的方式向客户推 荐这种产品。。。。。。 使直邮的回应率提高了100%
英国电信需要发布一种新的产品 ,需要通过直邮的方式向客户推 荐这种产品。。。。。。 使直邮的回应率提高了100% 电信