机器学习 机器学习 (Machine Learning) 究竟是什么东东? 看个例子一
机器学习 机器学习 (Machine Learning) 究竟是什么东东? 看个例子
66 文献筛选” 的故事 在“循证医学” (evidence-based medicine)中,针对特 定的临床问题,先要对相关研究报告进行详尽评估 查询PubMed以获 取候选摘要 PubMed:-23 million 人工找出值得全文审 读的文章 Retrieved with Search:5000 Deemed Relevant:100 [C.Brodley et al.,AI Magazine 2012]
“ 文献筛选” 的故事 [C. Brodley et al., AI Magazine 2012] 在“ 循证医学” (evidence-based medicine)中,针对特 定的临床问题,先要对相关研究报告进行详尽评估 查询 PubMed 以获 取候选摘要 人工找出值得全文审 读的文章
66 文献筛选”的故事 在一项关于婴儿和儿童残疾的研 究中,美国Tuftsl医学中心筛选 了约33,000篇摘要 a portion of the 33,000 abstracts 尽管ufts医学中心的专家效率 很高,对每篇摘要只需30秒钟, 但该工作仍花费了250小时 每项新的研究都要重复 这个麻烦的过程! 需筛选的文章数在不断显著增长!
“ 文献筛选” 的故事 在一项关于婴儿和儿童残疾的研 究中, 美国Tufts医学中心筛选 了约 33,000 篇摘要 尽管Tufts医学中心的专家效率 很高,对每篇摘要只需 30 秒钟, 但该工作仍花费了 250 小时 每项新的研究都要重复 这个麻烦的过程! 需筛选的文章数在不断显著增长!
文献筛选”的故事 为了降低昂贵的成本,Ufts医学中心引入了机器学习技术 邀请专家阅读少量摘要,标记 为“有关”或“无关” 对是否“有关” 进行预测 分类模型 机器只需阅读50篇摘要,系统的自动筛选精度就达到93% 机器阅读1,000篇摘要,则系统的自动筛选敏感度达到95% (人类专家以前需阅读33,000篇摘要才能获得此效果)
为了降低昂贵的成本, Tufts医学中心引入了机器学习技术 邀请专家阅读少量摘要,标 记 为 “有关” 或 “ 无 关 ” 对是否 “ 有 关 ” 进行预测 分类模型 “ 文献筛选” 的故事 机器只需阅读 50 篇摘要,系统的自动筛选精度就达到 93% 机器阅读 1,000 篇摘要,则系统的自动筛选敏感度达到 95% (人类专家以前需阅读 33,000 篇摘要才能获得此效果)
典型的机器学习过程 使用学习算法(learning algorithm) 类别标记 训练数据 (label) 训练 模型 色泽 根蒂 敲声 好瓜 青绿 蜷缩 浊啊 是 决策树,神经网络,支持向量机, 马黑 蜷缩 浊响 是 Boosting,贝叶斯网, … 青绿 硬挺 清脆 否 鸟黑 稍蜷 沉闷 否 ?=是 新数据样本 (浅白,蜷缩,浊响,?) 类别标记 未知
决策树,神经网络,支持向量机, Boosting,贝叶斯网,…… 训练数据 模型 色泽 青绿 乌黑 青绿 根蒂 蜷缩 蜷缩 硬挺 敲声 浊响 浊响 清脆 好瓜 是 是 否 乌黑 稍蜷 沉闷 否 (label) 训练 ?= 是 新数据样本 (浅白, 蜷缩, 浊响, ?) 类别标记 未知 典型的机器学习过程 使用学习算法(learning algorithm) 类别标记