人工智能发展白皮书-产业应用篇(2018) 中国信息通信研究院&中国人工智能产业发展联盟 工智能应用程序发展。据IDC预测,到2020年,60%的人工智能应 用程序将在开源平台上运行。 (二)人工智能基础产品 1.自然语言处理产品呈现实用化发展趋势 自然语言处理(NLP)是指机器理解并解释人类写作、说话方式 的能力,是人工智能和语言学的一部分,它致力于使用计算机理解或 产生人类语言中的词语或句子。自然语言处理主要涉及语音识别、语 音合成、语义理解、机器翻译,自然语言类产品呈现实用化的发展趋 势,但是产品成熟度上仍存在较大的提升空间。 语音识别受到国内外商业和学术界的广泛关注,在无噪音无口音 干扰情况下可接近人类水平。目前语音识别的技术成熟度较高,已达 到95%的准确度,但背景噪音仍难解决,实际应用仅限于近距离使用。 我国语音识别技术研究水平良好,基本上与国外同步,科大讯飞语音 识别成功率达到97%,离线识别率亦达95%。此外,我国在汉语语 音识别技术上还有自己的特点与优势,已达到国际先进水平。语音识 别产品方面,微软、谷歌、亚马逊,以及国内的百度、讯飞、思必驰 等企业均推出了各自基于语音交互的产品,其中以输入法、车载语音、 智能家居、教育测评最为普遍 机器翻译是当前最热门的应用方向,由于自然语言语义分析的复 杂性,翻译水平还远不能和人类相比。近年来机器翻译技术越发成熟 各大厂商都积极投身于这个备受关注的机器翻译领域,谷歌使用深度 学习技术,显著提升了翻译的性能与质量。各大互联网公司相继推出
人工智能发展白皮书-产业应用篇(2018) 中国信息通信研究院&中国人工智能产业发展联盟 10 工智能应用程序发展。据 IDC 预测,到 2020 年,60%的人工智能应 用程序将在开源平台上运行。 (二) 人工智能基础产品 1. 自然语言处理产品呈现实用化发展趋势 自然语言处理(NLP)是指机器理解并解释人类写作、说话方式 的能力,是人工智能和语言学的一部分,它致力于使用计算机理解或 产生人类语言中的词语或句子。自然语言处理主要涉及语音识别、语 音合成、语义理解、机器翻译,自然语言类产品呈现实用化的发展趋 势,但是产品成熟度上仍存在较大的提升空间。 语音识别受到国内外商业和学术界的广泛关注,在无噪音无口音 干扰情况下可接近人类水平。目前语音识别的技术成熟度较高,已达 到 95%的准确度,但背景噪音仍难解决,实际应用仅限于近距离使用。 我国语音识别技术研究水平良好,基本上与国外同步,科大讯飞语音 识别成功率达到 97%,离线识别率亦达 95%。此外,我国在汉语语 音识别技术上还有自己的特点与优势,已达到国际先进水平。语音识 别产品方面,微软、谷歌、亚马逊,以及国内的百度、讯飞、思必驰 等企业均推出了各自基于语音交互的产品,其中以输入法、车载语音、 智能家居、教育测评最为普遍。 机器翻译是当前最热门的应用方向,由于自然语言语义分析的复 杂性,翻译水平还远不能和人类相比。近年来机器翻译技术越发成熟, 各大厂商都积极投身于这个备受关注的机器翻译领域,谷歌使用深度 学习技术,显著提升了翻译的性能与质量。各大互联网公司相继推出
中国信息通信研究院&中国人工智能产业发展联盟 人工智能发展白皮书-产业应用篇(2018) 自己的翻译系统,谷歌、微软、有道、科大讯飞、百度、搜狗等均上 线或更新了翻译产品。例如阿里机器翻译基于阿里巴巴海量电商数据, 并结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻 译功能,为跨境电商信息本地化与跨语言沟通提供精准、快捷、可靠 的在线翻译服务。2017年科大讯飞晓译翻译机10plus可以在没有网 络的情况下提供基本翻译功能。机器翻译应用情景简单,具体有词典 翻译软件、计算机辅助翻译软件和机器翻译软件,目前还主要体现在 简单沟通交流层面,如商业交流、旅游交际、新闻编译、游戏组队 影片字幕、国际比赛等。受到语义理解所限制,也不具备优秀的人工 译者所有的丰富的人生阅历和创造性想象力,机器很难翻译有背景的 复杂句子,此外,对于书籍翻译、专业性强的高级会议口译等翻译质 量要求高的场景,机器翻译技术还有待提高。 2.知识图谱从实际问题出发呈现多维度应用 知识图谱概念由谷歌2012年正式提出,其初衷是为了提高搜索 引擎的能力,改善用户的搜索质量以及搜索体验。知识图谱是具有向 图结构的一个知识库,其中图的节点代表实体或概念,而图的边代表 实体/概念之间的各种语义关系,其起源可以追溯到20世纪50年代 的语义网络,本质上是使机器用接近于自然语言语义的方式存储信息 从而提升智能信息检索能力,现已被广泛应用于智能搜索、智能问答、 个性化推荐等领域。 知识图谱经历了由人工和群体协作构建到利用机器学习和信息 抽取技术自动获取的过程。早期知识图谱主要依靠人工处理获得,如
中国信息通信研究院&中国人工智能产业发展联盟 人工智能发展白皮书-产业应用篇(2018) 11 自己的翻译系统,谷歌、微软、有道、科大讯飞、百度、搜狗等均上 线或更新了翻译产品。例如阿里机器翻译基于阿里巴巴海量电商数据, 并结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻 译功能,为跨境电商信息本地化与跨语言沟通提供精准、快捷、可靠 的在线翻译服务。2017 年科大讯飞晓译翻译机 1.0plus 可以在没有网 络的情况下提供基本翻译功能。机器翻译应用情景简单,具体有词典 翻译软件、计算机辅助翻译软件和机器翻译软件,目前还主要体现在 简单沟通交流层面,如商业交流、旅游交际、新闻编译、游戏组队、 影片字幕、国际比赛等。受到语义理解所限制,也不具备优秀的人工 译者所有的丰富的人生阅历和创造性想象力,机器很难翻译有背景的 复杂句子,此外,对于书籍翻译、专业性强的高级会议口译等翻译质 量要求高的场景,机器翻译技术还有待提高。 2. 知识图谱从实际问题出发呈现多维度应用 知识图谱概念由谷歌 2012 年正式提出,其初衷是为了提高搜索 引擎的能力,改善用户的搜索质量以及搜索体验。知识图谱是具有向 图结构的一个知识库,其中图的节点代表实体或概念,而图的边代表 实体/概念之间的各种语义关系,其起源可以追溯到 20 世纪 50 年代 的语义网络,本质上是使机器用接近于自然语言语义的方式存储信息, 从而提升智能信息检索能力,现已被广泛应用于智能搜索、智能问答、 个性化推荐等领域。 知识图谱经历了由人工和群体协作构建到利用机器学习和信息 抽取技术自动获取的过程。早期知识图谱主要依靠人工处理获得,如
人工智能发展白皮书-产业应用篇(2018) 中国信息通信研究院&中国人工智能产业发展联盟 英文 WordNet和Cyc项目。通过人工处理,知识图谱将上百万条知 识处理为机器能够理解的形式,使机器拥有判断和推理能力。随着互 联网上最大群体智能知识库维基百科的建立,出现了 DBpedia、YAGO 以及 Freebase等依托大规模协同合作建立的知识图谱。随着大数据时 代的到来,知识图谱的数据来源不再局限于百科类的半结构化数据和 各类型网络数据。知识图谱利用机器学习和信息抽取技术自动获取 web上的信息构建知识库,并更关注知识清洗、知识融合和知识表示 技术,如华盛顿大学图灵中心的 Knowall和 TextRunner、卡内基梅 隆大学的“永不停歇的语言学习者” (Never- nding language learner. NELL)都是这种类型的知识图谱。 目前,大多数知识图谱都是采用自底向上的方式进行构建,包括 知识获取、知识融合和知识加工三个阶段。由于互联网上存在大量异 构资源,通常无法通过自顶向下预先定义或直接得到本体的数据。因 此,自底向上就成为了当前知识图谱的主要构建模式,即首先获得知 识图谱的实体数据,通过知识获取、知识融合、知识加工以及知识更 新构建图谱本体。半结构和非结构化数据将通过概念层次学习、机器 学习的方法实现知识获取。异构知识库将通过语义集成等方法实现知 识融合。此外,对于经过融合的新知识需进行进一步加工,旨在实现 质量评估,以确保知识库的质量。 基于知识图谱的服务和应用是当前人工智能的研究热点。当前, 知识图谱的应用可以归纳为语义搜索、知识问答以及基于知识的大数 据分析与决策三个方面
人工智能发展白皮书-产业应用篇(2018) 中国信息通信研究院&中国人工智能产业发展联盟 12 英文 WordNet 和 Cyc 项目。通过人工处理,知识图谱将上百万条知 识处理为机器能够理解的形式,使机器拥有判断和推理能力。随着互 联网上最大群体智能知识库维基百科的建立,出现了 DBpedia、YAGO 以及 Freebase 等依托大规模协同合作建立的知识图谱。随着大数据时 代的到来,知识图谱的数据来源不再局限于百科类的半结构化数据和 各类型网络数据。知识图谱利用机器学习和信息抽取技术自动获取 Web 上的信息构建知识库,并更关注知识清洗、知识融合和知识表示 技术,如华盛顿大学图灵中心的 KnowhAll 和 TextRunner、卡内基梅 隆大学的“永不停歇的语言学习者”(Never-Ending Language Learner, NELL)都是这种类型的知识图谱。 目前,大多数知识图谱都是采用自底向上的方式进行构建,包括 知识获取、知识融合和知识加工三个阶段。由于互联网上存在大量异 构资源,通常无法通过自顶向下预先定义或直接得到本体的数据。因 此,自底向上就成为了当前知识图谱的主要构建模式,即首先获得知 识图谱的实体数据,通过知识获取、知识融合、知识加工以及知识更 新构建图谱本体。半结构和非结构化数据将通过概念层次学习、机器 学习的方法实现知识获取。异构知识库将通过语义集成等方法实现知 识融合。此外,对于经过融合的新知识需进行进一步加工,旨在实现 质量评估,以确保知识库的质量。 基于知识图谱的服务和应用是当前人工智能的研究热点。当前, 知识图谱的应用可以归纳为语义搜索、知识问答以及基于知识的大数 据分析与决策三个方面:
中国信息通信研究院&中国人工智能产业发展联盟 人工智能发展白皮书-产业应用篇(2018) 在语义搜索方面,由于知识图谱所具有的良好定义的结构形式, 语义搜索利用建立大规模数据库对关键词和文档內容进行语义标注, 从而改善搜索结果。国外搜索引擎以谷歌搜索和微软Bing最为典型。 方面,基于知识图谱的搜索引擎相继融入了维基百科、CIA世界概 览等公共资源。另一方面,搜索引擎与 Facebook、 Twitter等大型社 交企业达成了合作协议,在个性化内容的搜集、定制化方面具有显著 优势。国内主流搜索引擎公司近年来也相继将知识图谱的相关硏究从 概念转向具体产品应用。搜狗“知立方”是国内搜索引擎中的第一款 知识图谱产品,它通过整合碎片化的语义信息,对用户的搜索进行逻 辑推荐与计算,并将核心知识反馈给用户。百度将知识图谱命名为“知 心”,主要致力于构建一个庞大的通用型知识网络,以图文并茂的形 式展现知识的各方面。 在知识问答方面,基于知识图谱的问答系统通过对用户使用自然 语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形 式的查询语句,然后在知识图谱中查询答案。目前,国内外形式多样 的问答平台都引入了知识图谱,例如苹果的智能语音助手Sii能够为 用户提供回答、介绍以及搜索服务;亚马逊收购的自然语言助手Evi 采用 True Knowledge引擎进行开发,也可提供类似Siri的服务。国 内百度公司研发的小度机器人、小米智能音响、阿里巴巴天猫精灵等 都引入知识图谱技术,开始提供交互式问答服务 在分析与决策方面,利用知识图谱可以辅助行业和领域的大数据 分析和决策。例如在股票投研情报分析方面,通过知识图谱技术从招
中国信息通信研究院&中国人工智能产业发展联盟 人工智能发展白皮书-产业应用篇(2018) 13 在语义搜索方面,由于知识图谱所具有的良好定义的结构形式, 语义搜索利用建立大规模数据库对关键词和文档内容进行语义标注, 从而改善搜索结果。国外搜索引擎以谷歌搜索和微软 Bing 最为典型。 一方面,基于知识图谱的搜索引擎相继融入了维基百科、CIA 世界概 览等公共资源。另一方面,搜索引擎与 Facebook、Twitter 等大型社 交企业达成了合作协议,在个性化内容的搜集、定制化方面具有显著 优势。国内主流搜索引擎公司近年来也相继将知识图谱的相关研究从 概念转向具体产品应用。搜狗“知立方”是国内搜索引擎中的第一款 知识图谱产品,它通过整合碎片化的语义信息,对用户的搜索进行逻 辑推荐与计算,并将核心知识反馈给用户。百度将知识图谱命名为“知 心”,主要致力于构建一个庞大的通用型知识网络,以图文并茂的形 式展现知识的各方面。 在知识问答方面,基于知识图谱的问答系统通过对用户使用自然 语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形 式的查询语句,然后在知识图谱中查询答案。目前,国内外形式多样 的问答平台都引入了知识图谱,例如苹果的智能语音助手 Siri 能够为 用户提供回答、介绍以及搜索服务;亚马逊收购的自然语言助手 Evi, 采用 True Knowledge 引擎进行开发,也可提供类似 Siri 的服务。国 内百度公司研发的小度机器人、小米智能音响、阿里巴巴天猫精灵等 都引入知识图谱技术,开始提供交互式问答服务。 在分析与决策方面,利用知识图谱可以辅助行业和领域的大数据 分析和决策。例如在股票投研情报分析方面,通过知识图谱技术从招