图8-6是BUC算法对表8-3的处理结果。 (A1*,*) (*A2,·) (*,A3) (A,A2,*) A,,A3) 图86对表8-3中的数据库,使用BUC算法得到的数据处理树 找到MD模式后,下一步对每个MD模式在 MD-投影中挖掘频繁项集
图8-6是BUC算法对表8-3的处理结果。 ◼ 找到MD-模式后,下一步对每个MD-模式在 MD-投影中挖掘频繁项集
8.7WEB挖掘 」在分布式的信息环境中,文档或对象通常被链接在 起,从而可以起到互相访问的作用。例如 WW和在线服务,这类信息提供的环境,通过 工具(如超链接、∪R地址)一个对象转到另 对象,从而获得有用的信息。WEB是一个超8亿页 的超文本的载体,而且信息量还在不断增长。几 乎每天要增加100万个页面,而且页面每几个月就 会更新一次,因此,每月会有几百G字节的数据 在变化
8.7 WEB挖掘 ◼ 在分布式的信息环境中,文档或对象通常被链接在 一起,从而可以起到互相访问的作用。例如, WWW和在线服务,这类信息提供的环境,通过 工具(如超链接、URL地址)从一个对象转到另一个 对象,从而获得有用的信息。WEB是一个超8亿页 的超文本的载体,而且信息量还在不断增长。几 乎每天要增加100万个页面,而且页面每几个月就 会更新一次,因此,每月会有几百G字节的数据 在变化
web挖掘可以定义为使用数据库挖掘技术在 Web文栏和服务中自动在发掘并且提取信息 它涉及到整个挖掘的过程,而不仅仅是应 用标准的数据挖掘工具。Web挖掘任务划分 为4个子任务 1寻找资源这是一个从Web上的多媒体资 源中在线或离线检索数据的过程。 电子时事通信、电子新闻专线、新闻组 以及通过删除所ML标记得到的HML文档
◼ Web挖掘可以定义为使用数据库挖掘技术在 Web文档和服务中自动在发掘并且提取信息。 它涉及到整个挖掘的过程,而不仅仅是应 用标准的数据挖掘工具。Web挖掘任务划分 为4个子任务: 1.寻找资源─这是一个从Web上的多媒体资 源中在线或离线检索数据的过程。 电子时事通信、电子新闻专线、新闻组 以及通过删除HTML标记得到的HTML文档
2.信息选择和预处理一这是在上面的子任务 中检索岀的不同种类的原始数据的转换过程。 转换过程既可以是一种预处理,比例删除 停止字,障碍字等,或者旨在获得所需要的 表示法,例如查找在训练主体中的习语,以 第一顺序逻辑的形式表示文本等 3总结一总结是一个在个别Web站点上自动 地发掘出综合模式的过程。 本阶段使用了不同的综合目的机器学习、 数据挖掘技术和指定的面向Web的方法
2.信息选择和预处理─这是在上面的子任务 中检索出的不同种类的原始数据的转换过程。 转换过程既可以是一种预处理,比例删除 停止字,障碍字等,或者旨在获得所需要的 表示法,例如查找在训练主体中的习语,以 第一顺序逻辑的形式表示文本等。 3.总结─总结是一个在个别Web站点上自动 地发掘出综合模式的过程。 本阶段使用了不同的综合目的机器学习、 数据挖掘技术和指定的面向Web的方法
4分析在这一过程中,执行生效和/或解 释已挖掘岀模式 Web挖掘可以基于所挖掘的部分进行分类, 分为3类 1.Web內容挖掘一描述从Web文档发掘岀有用 的信息。 内容包括:文本、图像、音频、视频、元 数据以及超链接
4.分析─在这一过程中,执行生效和/或解 释已挖掘出模式。 ◼ Web挖掘可以基于所挖掘的部分进行分类, 分为3类: 1.Web内容挖掘─描述从Web文档发掘出有用 的信息。 内容包括:文本、图像、音频、视频、元 数据以及超链接