文本聚类任务 历些毛子代枚大多 XIDIAN UNIVERSITY →对象与特征 口文本聚类特征表示 ■聚类的第一步:如何表示一篇文档? >向量表示法(Vector Space Model):文档表示成由词语组成的 向量 ■问题:每个词语的位置填什么量? >布尔值:0,1 >词频:即某一个词在文档中出现的次数 >文档频率:即文本集中包含该词的文档数 > TF-IDF Term Frequency-Inversed Document Frequency ) 频逆文档频率→重要的概念 2017/4/25 17 软件工程系
2017/4/25 软件工程系 文本聚类任务 对象与特征 文本聚类特征表示 聚类的第一步:如何表示一篇文档? ➢ 向量表示法(Vector Space Model):文档表示成由词语组成的 向量 问题:每个词语的位置填什么量? ➢ 布尔值: 0, 1 ➢ 词频: 即某一个词在文档中出现的次数 ➢ 文档频率: 即文本集中包含该词的文档数 ➢ TF-IDF(Term Frequency-Inversed Document Frequency):词 频-逆文档频率 重要的概念 17
文本聚类任务 历些毛子种枝大” XIDIAN UNIVERSITY 对象与特征 口TF-IDF计算方法 ■动机:一篇文章中的每个词重要性都相同么? 文章一:中国四大银行是指中国工商银行、中国农业银行、中国 银行、中国建设银行(工,农,中,建),亦称中央四大行,其代 表着中国最雄厚的金融资本力量。国有四大行经历了从建国之初, 各自分工的专业银行阶段,到新世纪,各自基本成为综合性大型 上市银行,并都跻身世界500强企业的发展战略。 文章二:银行业资产负债表的变化、规模的快速扩张、系统性风 险的累计、利润的持续高企等成为了银行业的新特点、新问题和 新现象。因此银行业未来的发展应与科技、政策、社会、市场相 结合,同时银行业监管制度应更加简约、协调、精准化。 哪些词更能表征一篇文章/文档? 2017/4/25 软件工程系
2017/4/25 软件工程系 文本聚类任务 对象与特征 TF-IDF计算方法 动机:一篇文章中的每个词重要性都相同么? 18 文章一:中国四大银行是指中国工商银行、中国农业银行、中国 银行 、中国建设银行(工,农,中,建),亦称中央四大行,其代 表着中国最雄厚的金融资本力量。国有四大行经历了从建国之初, 各自分工的专业银行阶段,到新世纪,各自基本成为综合性大型 上市银行,并都跻身世界500强企业的发展战略。 文章二:银行业资产负债表的变化、规模的快速扩张、系统性风 险的累计、利润的持续高企等成为了银行业的新特点、新问题和 新现象。因此银行业未来的发展应与科技、政策、社会、市场相 结合,同时银行业监管制度应更加简约、协调、精准化。 哪些词更能表征一篇文章/文档?