■词法分析 词是自然语言中能够独立运用的最小单位,是语言信息处理的基本单位。 词法分析是对自然语言的形态(morphology)进行分析,判断词的结构、类别和 性质。 主要任务包括: 自动分词(segmentation) 命名实体识别(Named Entity Recognition) 词性标注(Part-of-Speech tagging,POS tagging) By期英英 NLP
By 郭凤英 词法分析
■如何做语言分析? 词性标注(Part-of-speech Tagging,POS)是给句子中每个词一个词性类别的任务。i 这里的 ■词性标注 词性类别可能是名词、动词、形容词或其他。下面的句子是一个词性标注的例子。其中, v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 国务院/ni总理/n李克强/nh调研/w上海/ns外高桥/ns时/n捏出/N,/p支持/v上海/ns积极/a探索/N 新/a机制/n。/wp 词性作为对词的一种泛化,在语言识别、句法分析、 信息抽取等任务中有重要作用。比方说,在抽取“歌 曲"的相关属性时,我们有一系列短语 儿童歌曲欢快歌曲各种歌曲悲伤歌曲· 如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如 [形容词]歌曲[名词]歌曲 而[代词]歌曲往往不是描述歌曲属性的模板。 B,英英 NLP
By 郭凤英 如何做语言分析? 词性标注 词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的 词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。 其中, v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制
■如何做语言分析? Tag Description Example Tag Description Example adjective 美丽 ni organization name 保险公司 ■词性标注 b other noun-modifier 大型,西式 location noun 城郊 conjunction 和虽然 ns geographical name 北京 d adverb 很 nt temporal noun 近日,明代 e exclamation 哎 nz other proper noun 诺贝尔奖 morpheme 茨,甥 0 onomatopoeia 晔啦 h prefix 阿,伪 0 preposition 在,把 i idiom 百花济放 q quantity 个 j abbreviation 公检法 pronoun 我们 suffix 界,率 auxiliary 的,地 m number 一,第 verb 跑,学习 n general noun 苹果 wp punctuation 。 nd direction noun 右侧 ws foreign words CPU nh person name 杜甫,汤姆 X non-lexeme 萄,翱 NLP
By 郭凤英 如何做语言分析? 词性标注
■如何做语言分析? ■命名实 命名实体识别(Named Entity Recognition,NER)是在句子的词序列中定位并识别人名、地 名、机构名等实体的任务。 体识别 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 国务院(机构名)总理李克强(人名)调研上海外高桥(地名)时提出,支持上海(地名)积极探索新机制。 命名实体识别的类型一般是根据任务确定的。通常提供最基本的三种实体类型人名、地名、机构 名的识别。我们可以很容易将实体类型拓展成品牌名、软件名、中药名、处方名等实体类型。 命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。 B,英英 NLP
By 郭凤英 如何做语言分析? 命名实 体识别 命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地 名、机构名等实体的任务。 例:国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。 命名实体识别的类型一般是根据任务确定的。通常提供最基本的三种实体类型人名、地名、机构 名的识别。 我们可以很容易将实体类型拓展成品牌名、软件名、中药名、处方名等实体类型
■研究内容 词法(Lexical)学:研究词的词素(morphemes)构成、词性等 ●形态(morphological)分析 ●1 中文分词(segmentation) employers stemming.employ +er+ 你 的什么样的电脑? ambiguities employers lemmatize employer +~s 家用 电脑。 词素(morphemes)→词(word)? 你的 牙 了吗?我的牙刷 不见了。 词根、前缀、后缀、词尾 把 手 举起来!这个把是木制的。 ●未登录词(out of vocabulary word)识别 词性标注(POS tagging) 宅男,推特模式口,新奥尔良 哥白尼说 方舟子,罗姆尼,钓鱼岛 哥白尼日心说 阿里巴巴… By英英 NLP
By 郭凤英 研究内容