中图分类法 A类马列主义、毛泽东思想 TB类一般工业技术 B类 哲学 TD类矿业工程 C类社会科学总论 TE类石油、天然气工业 D类政治、法律 TF类冶金工业 E类军事 TG类金属学、金属工艺 F类经济 TH类机械、仪表工艺 G类文化、科学、教育、体育 T类武器工业 H类语言、文字 TK类动力工业 类文学 TL类原子能技术 类 艺术 TM类电工技术 K类 历史、地理 TN类无线电电子学、电信技术 N类自然科学总论 TP类自动化技术、计算技术 0类 数理科学和化学 TQ类化学工业 P类 天文学、地球科学 TS类轻工业、手工业 Q类生物科学 TU类建筑科学 R类医药、卫生 V类水利工程 S类农业科学 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学)
中图分类法 A类 马列主义、毛泽东思想 B类 哲学 C类 社会科学总论 D类 政治、法律 E类 军事 F类 经济 G类 文化、科学、教育、体育 H类 语言、文字 I类 文学 J类 艺术 K类 历史、地理 N类 自然科学总论 O类 数理科学和化学 P类 天文学、地球科学 Q类 生物科学 R类 医药、卫生 S类 农业科学 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学) TB类 一般工业技术 TD类 矿业工程 TE类 石油、天然气工业 TF类 冶金工业 TG类 金属学、金属工艺 TH类 机械、仪表工艺 TJ类 武器工业 TK类 动力工业 TL类 原子能技术 TM类 电工技术 TN类 无线电电子学、电信技术 TP类 自动化技术、计算技术 TQ类 化学工业 TS类 轻工业、手工业 TU类 建筑科学 TV类 水利工程
系统结构 训练数据 预处理 标注工具 文本 模型数据 机器学习工具 标注的样本 新数据 预处理 分类工具 类别 文本
系统结构 标注工具 模型数据 机器学习工具 标注的样本 分类工具 类别 预处理 预处理 训练数据 文本 新数据 文本
分类的一般过程 收集训练集和测试集,对文本进行预处 理 ■对文本类别进行人工标注 ■对文本进行特征提取 ■训练(学习) ■评价 ·精确率、召回率、F1 。宏平均,微平均
分类的一般过程 收集训练集和测试集,对文本进行预处 理 对文本类别进行人工标注 对文本进行特征提取 训练(学习) 评价 精确率、召回率、F1 宏平均,微平均
文本分类示例 "planning language 测试数据 proof intelligence" (AI) (Programming) (HCI) 类别 ML Planning Semantics Garb.Coll. Multimedia GUI learning planning programming garbage intelligence temporal semantics collection algorithm reasoning language memory 训练数据 reinforcement plan proof... optimization network... language... region
文本分类示例 “planning language proof intelligence” ML Semantics Garb.Coll. Multim edia GUI 测试数据 (AI) (Programming) (HCI) 类别 Planning garbage collection memory optimization region... programming semantics language proof... planning temporal reasoning plan language... learning intelligence algorithm reinforcement network... ... ... 训练数据
预处理 去掉网页中的导航信息 ■去掉HTL网页中的tag标记 ■(中文)分词、词性标注、短语识别、 . ■ 去除停用词和词根还原(stemming) ■数据清洗:去掉不合适的噪声文档或文档内垃 圾数据 0。●00
预处理 去掉网页中的导航信息 去掉HTML网页中的tag标记 (中文)分词、词性标注、短语识别、… 去除停用词和词根还原(stemming) 数据清洗:去掉不合适的噪声文档或文档内垃 圾数据 ⋅⋅⋅⋅⋅⋅