挑战 ·对人类而言 ·工作量大,认知负担沉重 。 对表面相似性非常敏感,倾向于表面属性上的相似,而不是内在关系、结 构的相似 ·对机器而言 ·大多算法集中在完全结构化的数据集 ·NLP/IR方法,例如word2vec、LSA、LDA等模型,在检测表面相似性方面 表现出色,但往往无法检测出单词分布不一致的文档之间的相似性。 6
6 挑战 • 对人类而言 • 工作量大,认知负担沉重 • 对表面相似性非常敏感,倾向于表面属性上的相似,而不是内在关系、结 构的相似 • 对机器而言 • 大多算法集中在完全结构化的数据集 • NLP/IR方法,例如word2vec、LSA、LDA等模型,在检测表面相似性方面 表现出色,但往往无法检测出单词分布不一致的文档之间的相似性
刘 /02 实验方法
实验方法