信息检索与数据挖掘 2019/317 17 RCV1语料库:样例文档集 ·为了阐述本课程的许多要点,《莎士比亚全集》作为样例 文档集还远远不够。 ·Reuters-RCV1文档集也并不是真正的足够大,但它是公开 的并且是一个更为合理的样例。我们将使用路透社的RCV1 文档集作为“可扩展的索引构建算法”的样例。该文档集 由一年的路透社新闻组成(1995-1996)。 REUTERS You are here:Home>News>Scence>Article Go to a Section: U.S. International Business Markets Pol最cs Entertainment Technobgy Sports Oddlly Enoug Extreme conditions create rare Antarctic clouds Tue Aug 1.2006 3.20am ET Email This Article Print This Article Reprints SYDNEY (Reuters)-Rare.mother-of-pearl colored clouds lTet用 caused by extreme weather conditions above Antarctica are a possible indication of global warming.Australian scientists said on Tuesday. Known as nacreous clouds,the spectacular formations showing delicate wisps of colors were photographed in the sky over an Australian meteorological base atl Mawson Station on July 25
信息检索与数据挖掘 2019/3/7 17 RCV1语料库:样例文档集 • 为了阐述本课程的许多要点,《莎士比亚全集》作为样例 文档集还远远不够。 • Reuters-RCV1文档集也并不是真正的足够大,但它是公开 的并且是一个更为合理的样例。我们将使用路透社的RCV1 文档集作为“可扩展的索引构建算法”的样例。该文档集 由一年的路透社新闻组成(1995-1996)。 17
信息检索与数据挖掘 2019/317 18 Reuters-RCV1语料:统计数据 符号 含义 值 N 文档总数 800,.000 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400.000 每个词条(Token)的平均字节数 6 (含空格和标点符号) 每个词条的平均字节数 4.5 (不含空格和标点符号) 每个词项的平均字节数 7.5 T 词条(Token)总数目 100.000.000 每个词条占4.5字节VS.每个词项占7.5字节:为什么? 18
信息检索与数据挖掘 2019/3/7 18 Reuters-RCV1语料:统计数据 符号 含义 值 N 文档总数 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400,000 每个词条(Token)的平均字节数 (含空格和标点符号) 6 每个词条的平均字节数 (不含空格和标点符号) 4.5 每个词项的平均字节数 7.5 T 词条(Token)总数目 100,000,000 每个词条占4.5字节 VS. 每个词项占7.5字节:为什么? 18
信息检索与数据挖掘 2019/3/719 Reuters-RCV1语料:索引构建中的l临时文件 ·N=800,000 220>N>216 →文档D需32bit ·T=100,000,000 220+7>N>216→词条ID需32bit ·存储“词条D-文档D”需要 Doc 1 Doc 2 I did enact Julius Caesar:I was killed So let it be with Caesar.The noble Brutus hath told you Caesar was ambitious: T*(32bits+32bits)=0.8GBytes i'the Capitol;Brutus killed me. erm doclDterm doclD term term 1 ambitious 2 : term did 1 be 2 doc.freq. postings lists enact brutus 1 ambitious 1 : julius brutus 2 be 1 产 2 ◆ caesar 1 capitol 1 brutus2 -回 caesar 1 capitol 1 was caesar caesar 2 killed -回 符号含义 值 ◆ caesar did did 1 ◆ the enact ■ enact 1 1 N hath 1 2 文档总数 capitol hath 8 brutus ◆ killed 1 T 词条(Token)总数目 me 100,000,000 it1 2 it 2 2 2 julius 1 julius 1 it 2 killed killed 1 1 be 2 killed let 1 with 2 let 2 me 1 1 caesar 2 me noble 1 the 2 noble 2 ◆ 22 noble 2 5S0 2 s01 我们需要对0.8GB的ID对进行排序! brutus 2 the 2 -回 hath 2 the 2 told 1 told 2 told 2 ◆ you 1 而实际语料库要比RCV1大 you 2 you 2 was 2 caesar 2 was 1 2212 1-回 was was 2 : with 1 19 ambitious 2 with 2
信息检索与数据挖掘 2019/3/7 19 Reuters-RCV1语料:索引构建中的临时文件 • N=800,000 220>N>216 文档ID需32bit • T=100,000,000 220+7>N>216 词条ID需32bit • 存储“词条ID-文档ID”需要 • T*(32bits+32bits)=0.8GBytes 符号 含义 值 N 文档总数 T 词条(Token)总数目 100,000,000 我们需要对0.8GB的ID对进行排序! 而实际语料库要比RCV1大 19
信息检索与数据挖掘 2019/3/720 词典大小、倒排记录大小 ·M=400,000 219>N>216 →词项ID需32bit 。词典大小:M*32bits=1,600,000 Bytes=-1.6 MBytes .N=800.000 220>N>216 →文档D需32bit ·L*N=160,000,000220+8>N>220+7 。倒排记录:约L*N*32bits=640,000,000 Bytes-=0.64 GBytes ·不考虑倒排记录存储数据结构的额外开销 符号 含义 值 N 文档总数 800,.000 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400,000 20
信息检索与数据挖掘 2019/3/7 20 词典大小、倒排记录大小 • M=400,000 219>N>216 词项ID需32bit • 词典大小:M*32bits=1,600,000Bytes=1.6MBytes • N=800,000 220>N>216 文档ID需32bit • L*N=160,000,000 220+8>N>220+7 • 倒排记录:约L*N*32bits=640,000,000Bytes=0.64GBytes • 不考虑倒排记录存储数据结构的额外开销 符号 含义 值 N 文档总数 L 每篇文档的平均词条数目 200 M 词项(Term)总数 400,000 20
信息检索与数据挖掘 2019/3/7 21 回顾:词条化 Term Doc# 实际排序的不是词条D而是词条 did 1 enact ·将每篇文档转换成一个个词条的列表并 julius 1 caesar 1 加上文档的D 1 was 1 killed r the 1 capitol 1 brutus 1 killed 1 me 1 Doc 1 Doc 2 So 2 let 2 it 2 be 2 with 2 I did enact Julius So let it be with caesar 2 Caesar I was killed Caesar.The noble the 2 i'the Capitol; Brutus hath told you noble 2 brutus 2 Brutus killed me. Caesar was ambitious hath 2 told 2 you 2 caesar 2 was 2 21 ambitious 2
信息检索与数据挖掘 2019/3/7 21 回顾:词条化 实际排序的不是词条ID而是词条 • 将每篇文档转换成一个个词条的列表并 加上文档的ID Term Doc # I 1 did 1 enact 1 julius 1 caesar 1 I 1 was 1 killed 1 i' 1 the 1 capitol 1 brutus 1 killed 1 me 1 so 2 let 2 it 2 be 2 with 2 caesar 2 the 2 noble 2 brutus 2 hath 2 told 2 you 2 caesar 2 was 2 ambitious 2 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Doc 1 So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious Doc 2 21