web挖掘基础 赵卫东博士 复旦大学软件学院 wdzhao@fudan.edu.cn ebusiness FUDAN UNIVERSITY
Web挖掘基础 赵卫东 博士 复旦大学软件学院 wdzhao@fudan.edu.cn
提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 WWW 知识 Web日志挖据 ebusiness FUDAN UNIVERSITY
提纲 • Web挖掘的概念 • Web内容挖掘 • Web结构挖掘 • Web日志挖掘 WWW 知识
Web挖掘的挑战 Web数据量太庞大: Server level collection、 Client Level Collection/A Proxy Level collection Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 ebusiness FUDAN UNIVERSITY
Web 挖掘的挑战 • Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level Collection • Web数据的复杂性高于传统的文本文档 • Web是一个动态性极强的信息源 • Web面对的是一个广泛的用户群体 • Web上的信息只有很小的一部分是相关的或有用的
Web挖掘与R web上的IR是web挖掘的一个方面,仅是对信息有序化。 web挖掘是智能化的IR,IR出现早,技术成熟。 Ofher Users ocal Computer Page Caching Muf ple Users Local Network Dynamic Addressing Proxy Server Page Caching ebusiness Web server FUDAN UNIVERSIT
Web挖掘与IR • Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 • Web挖掘是智能化的IR,IR出现早,技术成熟
Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的 模式P的过程:C→P。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的 数据,这些数据分布在Web文档、Web服务器的日志、用户 cookies等。 ebusiness FUDAN UNIVERSITY
Web挖掘概念 • Web挖掘是从大量Web文档的集合C中发现隐含的、有用的 模式P的过程:C→P 。 • Web挖掘主要处理文本、图形和图像等半结构、非结构化的 数据,这些数据分布在Web文档、Web服务器的日志、用户 cookies等