2.Web结构挖掘挖掘Web上的链接结构中的 潜在模型。 3.Web使用挖掘挖掘在网上冲浪的过程或行 为所产生的数据。 当1类和2类利用Web上的真实或主要数据 时,3类就会从用户在同Web进行交互时的 为入手,挖掘第二级数据。这些数据包括 访问Web服务器日志、代理服务器日志、浏 览器日志、用户数据、注册数据、用户会话 或交易、 Cookies、书签数据以及任何个人 同Web进行交互所产生的其他数据
2.Web结构挖掘─挖掘Web上的链接结构中的 潜在模型。 3.Web使用挖掘─挖掘在网上冲浪的过程或行 为所产生的数据。 当1类和2类利用Web上的真实或主要数据 时,3类就会从用户在同Web进行交互时的 行为入手,挖掘第二级数据。这些数据包括 访问Web服务器日志、代理服务器日志、浏 览器日志、用户数据、注册数据、用户会话 或交易、Cookies、书签数据以及任何个人 同Web进行交互所产生的其他数据
在下两小节中,介绍Web挖掘的3个主要技 术
• 在下两小节中,介绍Web挖掘的3个主要技 术
88HITS和 LOGSOM算法 到目前为止,基于索引的Web搜索引擎是 用户搜索信息的主要工具。 问题是搜索引擎不适合那些大范围的不精 确的搜索任务。 我们的目标是能搜索出最主要的网页,即 相关的且是高质量的网页。因此Web挖掘 中必须发掘出两种重要类型的网页:权威 页(提供了指定主题的最佳信息来源)和Hub 页(提供同权威页链接的集合)
8.8 HITS和LOGSOM算法 • 到目前为止,基于索引的Web搜索引擎是 用户搜索信息的主要工具。 • 问题是搜索引擎不适合那些大范围的不精 确的搜索任务。 • 我们的目标是能搜索出最主要的网页,即 相关的且是高质量的网页。因此Web挖掘 中必须发掘出两种重要类型的网页:权威 页(提供了指定主题的最佳信息来源)和Hub 页(提供同权威页链接的集合)