Wrapper generation and HTML Reduction
1 Wrapper Generation and HTML Reduction Yu Li
Outline ●网页抽取问题 ● SGWrap System ●HTML的问题 ●HTML约简 ○基本想法 O问题的定义和目标 ○页面模型 ○算法设计 ● Future work
2 Outline ⚫ 网页抽取问题 ⚫ SGWrap System ⚫ HTML的问题 ⚫ HTML约简 基本想法 问题的定义和目标 页面模型 算法设计 ⚫ Future work
页面抽取的问题 ●Wveb上存在大量的数据,以半结构化的 HTML页面形式存在 ●Wveb数据集成需要将半结构化的数据转换 成为结构化的数据 ●页面抽取的任务:按照用户要求,将半结 构化的Web数据转换成为结构化数据 ●完成页面抽取任务的程序通常叫做 wrapper
3 页面抽取的问题 ⚫Web上存在大量的数据,以半结构化的 HTML页面形式存在 ⚫Web数据集成需要将半结构化的数据转换 成为结构化的数据 ⚫页面抽取的任务:按照用户要求,将半结 构化的Web数据转换成为结构化数据 ⚫完成页面抽取任务的程序通常叫做wrapper
页面抽取问题 Alternatively you can view Contact, or see the Overview Name Detail Platform: java Purpose: indexing Availability: source Platform: UNIX Ahoy!the Homepage Fil Purpose: maintenance Availability: none -《> robot <R> P !i mapping <> Platform? wrapper
4 页面抽取问题 mapping wrapper
页面抽取问题 ●页面抽取的工作可以通过 ○手工编写 Wrapper:使用传统语言,将 mapping"硬”编码在 Wrapper程序中 ○借助工具生成 Wrapper:通过计算机辅助生成 wrapper程序 ●抽取规则、交互方式、维护 O完全自动进行 ●页面结构的划分、 Annotation
5 页面抽取问题 ⚫页面抽取的工作可以通过 手工编写wrapper:使用传统语言,将 mapping“硬”编码在wrapper程序中 借助工具生成wrapper:通过计算机辅助生成 wrapper程序 ⚫抽取规则、交互方式、维护 完全自动进行 ⚫页面结构的划分、Annotation