Web挖掘分类 Web挖掘 Web内容挖掘 web结构挖掘 Web使用挖掘 文本挖掘 多媒体挖掘 URL挖掘 内、外部结构挖掘 般访问模式个性化访问模 追踪 式追踪 ebusiness FUDAN UNIVERSITY
Web挖掘分类 Web挖掘 Web内容挖掘 Web结构挖掘 Web使用挖掘 文本挖掘 多媒体挖掘 内、外部结构挖掘 URL挖掘 个性化访问模 式追踪 一般访问模式 追踪
Web挖掘类 项目 Web内容挖掘 Web结构挖掘Web日志挖掘 处理数据 IR方法:无结构数据、半结构数据 Wb结构数据用户访问Wb数据 类型 Serverlog, 主要数据 Web文档内及文档 自由化文本、HTML标记的超文本间的超链 Proxy serverlog, Client log 表示方法词集、段落、概念、|R的三种经典模型 图 关系表、图 处理方法 统计、机器学习、自然语言理解法 机器学习、专有算统计、机器学习、 关联规则 页面权重 主要应用 分类、聚类、模式发现 分类聚类 Web站点重建,商 业决策 模式发现 ebusiness FUDAN UNIVERSITY
Web挖掘类 项目 Web内容挖掘 Web结构挖掘 Web日志挖掘 处理数据 类型 IR方法:无结构数据、半结构数据 Web结构数据 用户访问Web数据 主要数据 自由化文本、HTML标记的超文本 Web文档内及文档 间的超链 Serverlog, Proxy serverlog, Client log 表示方法 词集、段落、概念、IR的三种经典模型 图 关系表、图 处理方法 统计、机器学习、自然语言理解 机器学习、专有算 法 统计、机器学习、 关联规则 主要应用 分类、聚类、模式发现 页面权重 分类聚类 模式发现 Web站点重建,商 业决策
Web内容挖掘 <ip addr<base url>. <date><method><file><protocol><code><bytes ><referrer><user agent> 基于网页内容或其 描述中抽取知识的 203.30.5,145w. acr.nowe.org·I1/run/199:03;09121-0600]"a/clla/chtm 过程。 Http/1.02003942http://www.lycos.cca/cg1 bn/pursuit?queryradrarts1ng+psyehologynarhts20at=dlr""kz111a/4.5tan)(n9s;I Web内容挖掘主要 203.305.145ww.acr· ncwE. org·1/un/999:03:09:23-0600]"a /cAlls/inages/earthan1.gitBrid/1.0'20010689http://ww.acr-newsarg/calls/okOh.html 包括文本挖据和多 #calla/4. 5 (en)(Mins, I) 203.30.5.145ow,acr.nes.org·Ion/ang:03:0:24-.0600“c/clls/nag/1l.gt 媒体挖掘两类,其 Httd/1.0200190'http://ww.acr-navs.org/ca11s/02cM.htnl'mozi1lay4.5[an]Ix1N98rI) 203. 30. 5. 145 ww. acr-nevs, org.[01/Jun/1999: 03: 09: 25 -0600)"CaT /Calls/Inages/rod. git 挖掘对象包括文本 Httd/1.0200104http://w.acr-noxs.org/cal1s/0ch.htnl'mor11la/4.5[en](in98:I' 图像、音频、视频1 和其他各种类型的-m21mm如出m紫 数据。 203.252.234.33ww. acr.newe.org·0l/u/99:03:32:35-0600"ar/raag/rd.gr Httd/1.0.200104'http://n.acr-naws.org/maz111a/4.6[an](xin95;i) 203.252.24.3ww,acr-news.org·l01/u/199:03:32:35-0600)"ga/mage/ arthan1.g1t Http/1.020010689'http://n.acr-nexs.org/"hbz111a/4.06(en](w1N95:I) 203.252.234.33ww.acr-nwa,org·I0/Ju/19:03:33:11-0600"a/CPbtnlHTTP/1.@"20 3218http://www.acr-nevc.org/hoz11lay4.06[an](win95:i) ebusiness FUDAN UNIVERSITY
Web内容挖掘 • 基于网页内容或其 描述中抽取知识的 过程。 • Web内容挖掘主要 包括文本挖掘和多 媒体挖掘两类,其 挖掘对象包括文本、 图像、音频、视频 和其他各种类型的 数据
日志的预处理 IP Address Time/ Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan01 GET Index. htm http://ok.edu/link.htm Mozilla/4.0(正E5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(正5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET A.htm http://ex.edu/index.ht Mozilla/4.0(I5.0W98) 202.120.224.4 15:33:04/2-an01 GET Index htm http://ok.edu/res.php Mozilla/4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET 1.htm http://ex.edu/index.htm Mozilla 4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET A. htm http://ex.edu/index.htm Mozilla/4.0(IE4.ONT) 202.120.224.4 15:35:11/2-Jan01 GET C. htm http://ok.edu/a.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:35:11/2-Jan-0 GET B. htm http://ex.edu/a.htm MoZilla/ 4.(IE4.OND) 202.120.224.4 15:37:09/2-Jan01 GET Htm http://ex.edu/c.htm Mozilla /4.0(E5.0W98) ebusiness FUDAN UNIVERSITY
日志的预处理 IP Address Time/Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:37:09/2-Jan-01 GET E.htm http://ex.edu/C.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:33:04/2-Jan-01 GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET B.htm http://ex.edu/A.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET C.htm http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)
Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问 信息等在内的各种Web数据,应用数据挖掘方法发现有用的 知识帮助人们从大量Web文档集中发现隐藏的模式。 hn)采集-W文本提取→特征库}挖据- 评价 输出 ebusiness FUDAN UNIVERSITY
Web文本挖掘 • Web文本挖掘针对包括Web页面内容、页面结构和用户访问 信息等在内的各种Web数据,应用数据挖掘方法发现有用的 知识帮助人们从大量Web文档集中发现隐藏的模式。 Internet 采集 Web文本 提取 特征库 挖掘 结果 评价 输出