当前位置：和泉文库 > 计算机 > 浏览文档

复旦大学：《商务智能》课程PPT教学课件（商务数据分析）07 Web挖掘基础

• Web挖掘的概念 • Web内容挖掘 • Web结构挖掘 • Web日志挖掘

文件格式：PPT，文件大小：1.6MB，售价：8元

共29页，可试读10页，点击往前阅读 ↑↑

文档详细内容（约29页）

Web挖掘分类 Web挖掘 Web内容挖掘 web结构挖掘 Web使用挖掘文本挖掘多媒体挖掘 URL挖掘内、外部结构挖掘般访问模式个性化访问模追踪式追踪 ebusiness FUDAN UNIVERSITY

Web挖掘分类 Web挖掘 Web内容挖掘 Web结构挖掘 Web使用挖掘文本挖掘多媒体挖掘内、外部结构挖掘 URL挖掘个性化访问模式追踪一般访问模式追踪

Web挖掘类项目 Web内容挖掘 Web结构挖掘Web日志挖掘处理数据 IR方法:无结构数据、半结构数据 Wb结构数据用户访问Wb数据类型 Serverlog, 主要数据 Web文档内及文档自由化文本、HTML标记的超文本间的超链 Proxy serverlog, Client log 表示方法词集、段落、概念、|R的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解法机器学习、专有算统计、机器学习、关联规则页面权重主要应用分类、聚类、模式发现分类聚类 Web站点重建,商业决策模式发现 ebusiness FUDAN UNIVERSITY

Web挖掘类项目 Web内容挖掘 Web结构挖掘 Web日志挖掘处理数据类型 IR方法：无结构数据、半结构数据 Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本 Web文档内及文档间的超链 Serverlog, Proxy serverlog, Client log 表示方法词集、段落、概念、IR的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现页面权重分类聚类模式发现 Web站点重建，商业决策

Web内容挖掘 <ip addr<base url>. <date><method><file><protocol><code><bytes ><referrer><user agent> 基于网页内容或其描述中抽取知识的 203.30.5,145w. acr.nowe.org·I1/run/199:03;09121-0600]"a/clla/chtm 过程。 Http/1.02003942http://www.lycos.cca/cg1 bn/pursuit?queryradrarts1ng+psyehologynarhts20at=dlr""kz111a/4.5tan)(n9s;I Web内容挖掘主要 203.305.145ww.acr· ncwE. org·1/un/999:03:09:23-0600]"a /cAlls/inages/earthan1.gitBrid/1.0'20010689http://ww.acr-newsarg/calls/okOh.html 包括文本挖据和多 #calla/4. 5 (en)(Mins, I) 203.30.5.145ow,acr.nes.org·Ion/ang:03:0:24-.0600“c/clls/nag/1l.gt 媒体挖掘两类,其 Httd/1.0200190'http://ww.acr-navs.org/ca11s/02cM.htnl'mozi1lay4.5[an]Ix1N98rI) 203. 30. 5. 145 ww. acr-nevs, org.[01/Jun/1999: 03: 09: 25 -0600)"CaT /Calls/Inages/rod. git 挖掘对象包括文本 Httd/1.0200104http://w.acr-noxs.org/cal1s/0ch.htnl'mor11la/4.5[en](in98:I' 图像、音频、视频1 和其他各种类型的-m21mm如出m紫数据。 203.252.234.33ww. acr.newe.org·0l/u/99:03:32:35-0600"ar/raag/rd.gr Httd/1.0.200104'http://n.acr-naws.org/maz111a/4.6[an](xin95;i) 203.252.24.3ww,acr-news.org·l01/u/199:03:32:35-0600)"ga/mage/ arthan1.g1t Http/1.020010689'http://n.acr-nexs.org/"hbz111a/4.06(en](w1N95:I) 203.252.234.33ww.acr-nwa,org·I0/Ju/19:03:33:11-0600"a/CPbtnlHTTP/1.@"20 3218http://www.acr-nevc.org/hoz11lay4.06[an](win95:i) ebusiness FUDAN UNIVERSITY

Web内容挖掘 • 基于网页内容或其描述中抽取知识的过程。 • Web内容挖掘主要包括文本挖掘和多媒体挖掘两类，其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据

日志的预处理 IP Address Time/ Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan01 GET Index. htm http://ok.edu/link.htm Mozilla/4.0(正E5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(正5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET A.htm http://ex.edu/index.ht Mozilla/4.0(I5.0W98) 202.120.224.4 15:33:04/2-an01 GET Index htm http://ok.edu/res.php Mozilla/4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET 1.htm http://ex.edu/index.htm Mozilla 4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET A. htm http://ex.edu/index.htm Mozilla/4.0(IE4.ONT) 202.120.224.4 15:35:11/2-Jan01 GET C. htm http://ok.edu/a.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:35:11/2-Jan-0 GET B. htm http://ex.edu/a.htm MoZilla/ 4.(IE4.OND) 202.120.224.4 15:37:09/2-Jan01 GET Htm http://ex.edu/c.htm Mozilla /4.0(E5.0W98) ebusiness FUDAN UNIVERSITY

日志的预处理 IP Address Time/Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:37:09/2-Jan-01 GET E.htm http://ex.edu/C.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:33:04/2-Jan-01 GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET B.htm http://ex.edu/A.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET C.htm http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)

Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 hn)采集-W文本提取→特征库}挖据- 评价输出 ebusiness FUDAN UNIVERSITY

Web文本挖掘 • Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据，应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 Internet 采集 Web文本提取特征库挖掘结果评价输出

点击进入文档下载页（PPT格式）

共29页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

复旦大学：《商务智能》课程PPT教学课件（商务数据分析）06 数据挖掘应用
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）05 数据挖掘技术方法
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）04 数据挖掘基础（数据挖掘原理）
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）03 在线分析处理 Online Analytical Processing
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）02 数据仓库 Data Warehouse
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）11 大数据分析与应用 Big data analytics and applications
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）10 流程智能 Process Intelligence
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）01 商务智能概论 Introduction to Business Intelligence
《商务智能》课程学习资料：集成学习实用机器学习方法 Ensemble Learning
复旦大学：《商务智能》课程教学讲义（商务数据分析）电子推荐系统
复旦大学《商务智能》课程参考资料：室内位置服务与商业智能
《计算机教育Computer Education》：数据分析类课程的技能培养方法探讨（复旦大学：赵卫东，蒲实）
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）08 知识管理
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）09 搜索引擎优化 Search Engine Optimization
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）关联规则 CARMA Continuous Association Rule Mining Algorithm
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）密度聚类——算法详解
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）序列模式挖掘算法
中国科学院计算技术研究所：《高级人工智能》PPT课件_贝叶斯网络——概率推理（史忠植）
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第10章基于逻辑回归模型的高危
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第11章卷积神经网络在音频质量评价领域的应用
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第1章数据分析过程的主要问题
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第2章保险产品推荐（主讲：赵卫东）
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第3章可视化的分析
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第4章 SPSS Modeler介绍

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录