PostaggingConceptsPart-of-speech (POS) tagging Process of marking up a word as corresponding to a particular part of speechafter word segmentation such as nouns,verbs, adjectives, adverbs, etc.Basis ofhigh-levelNLP tasksExamples人民网/nz1月1日/t讯/ng据/p《/w[纽约/nsf时报/n]/nz》/w报道/v,/w美国/nsf华尔街/nsf股市/n在/p2013年/t的/ude1最后/f一天/mg继续/v上涨/vn,/w和/cc [全球/n股市/n]/nz一样/uyy,/w都/d以/p [最高/a 纪录/n]/nz 或/c接近/v[最高/a纪录/n]/nz结束/v本/rz年/qt的/ude1交易/vn。/wMr./NNPVinken/NNPis/VBZchairman/NNof/INElsevier/NNPN.V./NNP,/,the/DTDutch/NNPpublishing/VBG group/NN
POS tagging • Part-of-speech (POS) tagging • Process of marking up a word as corresponding to a particular part of speech after word segmentation such as nouns, verbs, adjectives, adverbs, etc. • Basis of high-level NLP tasks. Concepts 人民网/nz 1月1日/t 讯/ng 据/p 《/w [纽约/nsf 时报/n]/nz 》/w 报道/v ,/w 美国 /nsf 华尔街/nsf 股市/n 在/p 2013年/t 的/ude1 最后/f 一天/mq 继续/v 上涨/vn ,/w 和/cc [全球/n 股市/n]/nz 一样/uyy ,/w 都/d 以/p [最高/a 纪录/n]/nz 或/c 接近/v [最高/a 纪录/n]/nz 结束/v 本/rz 年/qt 的/ude1 交易/vn 。/w Mr./NNP Vinken/NNP is/VBZ chairman/NN of/IN Elsevier/NNP N.V./NNP ,/, the/DT Dutch/NNP publishing/VBG group/NN Examples
EnglishPOStagsetTagExampleDescriptionbetterRBRadverb,comparativeCCand, or, butconjunction, coordinatingRBSadverb,superlativebestCDfive, three, 13%cardinal numberRPadverb,particleabout, off, upDTdeterminerthe, a, these%SYM symbolTOinfinitival towhat to do?EXexistential therethere were six boysUHinterjectionoh, oops, goshFWmaisforeign wordVBthinkverb,baseformconjunction, subordinating orof, on, before,INunlessprepositionVBZ verb, 3rd person singular present she thinksJadjectivenice,easyverb, non-3rd person singularI thinkVBPJRpresentadjective,comparativenicer, easierVBD verb,past tensethey thoughtJSadjective,superlativenicest, easiestVBN verb,past participleasunkenshipLSlistitemmarkerVBGverb,gerund or present participle thinking is funMDmay,shouldverb,modal auxillarywhich,whatevertiger, chair,WDT wh-determinerwhicheverNNnoun, singular or masslaughterwhat, who,tigers, chairs,wpwh-pronoun,personalwhomNNSnoun, pluralinsectswhose,Germany, God,wpswh-pronoun,possessivewhoseverNNPAlicenoun,proper singularWRBwh-adverbwhere, whenwemettwoNNPSnoun, proper pluralChristmases agopunctuationmark,sentencecloser;?*PDTbothhischildrenpredeterminerpunctuationmark,comma'sPOSpossessive ending:punctuation mark, colonPRPpronoun,personalme, you, it(contextualseparator,leftparenPRP$my, your, ourpronoun,possessiveRBadverb)extremely,loudlycontextualseparator,rightparen
English POS tagset Tag Description Example CC conjunction, coordinating and, or, but CD cardinal number five, three, 13% DT determiner the, a, these EX existential there there were six boys FW foreign word mais IN conjunction, subordinating or preposition of, on, before, unless JJ adjective nice, easy JJR adjective, comparative nicer, easier JJS adjective, superlative nicest, easiest LS list item marker MD verb, modal auxillary may, should NN noun, singular or mass tiger, chair, laughter NNS noun, plural tigers, chairs, insects NNP noun, proper singular Germany, God, Alice NNPS noun, proper plural we met two Christmases ago PDT predeterminer both his children POS possessive ending 's PRP pronoun, personal me, you, it PRP$ pronoun, possessive my, your, our RB adverb extremely, loudly RBR adverb, comparative better RBS adverb, superlative best RP adverb, particle about, off, up SYM symbol % TO infinitival to what to do? UH interjection oh, oops, gosh VB verb, base form think VBZ verb, 3rd person singular present she thinks VBP verb, non-3rd person singular present I think VBD verb, past tense they thought VBN verb, past participle a sunken ship VBG verb, gerund or present participle thinking is fun WDT wh-determiner which, whatever, whichever WP wh-pronoun, personal what, who, whom WP$ wh-pronoun, possessive whose, whosever WRB wh-adverb where, when . punctuation mark, sentence closer .;?* , punctuation mark, comma , : punctuation mark, colon : ( contextual separator, left paren ( ) contextual separator, right paren )
Chinese POS tagset“专”的声母的第1个字母为Z,名代码名称说明举例其他专名德士古/nz公司/nnz调代码n和z并在一起取英语拟声词onomatopoeia的第形容词a取英语形容调adjective的第1个字母最/d大/a的/u拟声词1个字母O泪泪/o地/u流/v出来/直接作状语的形容词.形容调代码a和取英语介词prepositional的第1个ad副形词副词代码d并在一起定/d能够/N顺利/ad实现/V,/w介词字母p往/p基层/n跑/V。/w形容词性语素,形容词代码为a,语不止/一/m次/g地/u听到/v,ag形语素素代码g前面置以a喜/v煞/ag人/n量词/w取英语quantity的第1个字母q具有名词功能的形容词。形容词代码人民/n的/u根本/a利益/n和/c国家/n的/取英语代词pronoun的第2个字母名形调ana和名词代码n并在一起安稳/anw代词因p已用于介词有些/r部门/nb区别取汉字“别”的声母副/b书记/n王/nr思齐/nr处所词取英语space的第1个字母移居N海外/s。/wSc连词取英语连词conjunction的第1个字母全军/n和/c武警/n先进/a典型/n代表/n时间词t取英语time的第1个字母当前/t经济/n社会/n情况/n取adverb的第2个字母,因其第1个时间词性语素。时间词代码为t,在d副词字母已用于形容词两侧/f台柱/n上/分别/d雄踞/v着/utg时语素语素的代码g前面以t秋/Tg冬/tg连/d早/a副词性语素。副调代码为d,语素代用/不/d甚/dg流利/a的/u中文/nz主持/V取英语助词auxiliary的第2个字母,dg副语素码g前面置以d节目/n,/w助词u因a已用于形容调工作/vn的/u政策/n叹词e取英语叹exclamation的第1个字母嘀/e!/wud结构助词有/v心/n载/v得/ud梧桐树/nf方位词取汉字“方”的声母从/p一/m大/a堆/g档索/n中/f发现/v了/u时态助调你/r想/√过/ug没有/Vug绝大多数语素都能作为合成词的“词语素根”,取汉字“根”的声母迈向/v充满/v希望/n的/uj新/a9例如dg或aguj结构助词的世纪/nh前接成分取英语head的第1个字母目前/t各种/r非/h合作制/n的/u农产品/nul时态助词了完成了/ul成语1取英语成语idiom的第1个字母提高/v农民/n讨价还价/i的/u能力/n/w满怀信心/l地/uv开创/V新/a的结构助词地UV/u业绩/n简称略语取汉字“简”的声母民主/ad选举/N村委会/的/u工作/vnJ时态助词着眼看/N着/uzuZX后接成分权责/n明确/a的/u逐级/d授权/v制/k举行/v老/a干部/n迎春/vn团拜习用语尚未成为成语,有点“临时是/v建立/v社会主义/n市场经济/n体制/n的动词会/nV1习用语性”,取“临”的声母/u重要/a组成部分/l。/w取英语numeral的第3个字母,n,uvd副动词强调/vd指出/v数词m已有他用科学技术/n是/v第一/m生产力/n动词性语素。动词代码为v。在语做好尊/vg千爱兵/n工作动语素索的代码g前面置以V/vnvg名调n取英语名词noun的第1个字母希望/v双方/n在/p市政/n规划/vn指具有名词功能的动词。动调和名股份制/n这种/r企业/n组织/vn名词性语素。名词代码为n,语素代名动调vn词的代码并在一起形式/n/wng名语素码g前面置以n就此/d分析/时/Ng认为/生产/v的/u5G/nx、/w8G名词代码n和“人(ren)的声母并在标点符号/nx型/k燃气/n热水器/nW人名nr一起建设部/nt部长/n侯/nr捷/nr非语素字只是一个符号,字母x通非语素字X常用于代表未知数、符号地名名词代码n和处所词代码s并在一起ns北京/ns经济/n运行vn态势/n喜人/a已经/d30/m多/m年/g了/y。“团”的声母为t,名词代码n和t并在[治金/n工业部/n洛阳/ns耐火材料/l研究院语气词取汉字“语”的声母/wnt机构团体一起/njntyz状态词ATM/nx交换机/n取汉字“状”的声母的前一个字母势头/n依然/z强劲/a:/wnx字母专名
Chinese POS tagset 代码 名称 说明 举例 a 形容词 取英语形容词adjective的第1个字母 最/d 大/a 的/u ad 副形词 直接作状语的形容词.形容词代码a和 副词代码d并在一起 一定/d 能够/v 顺利/ad 实现/v 。/w ag 形语素 形容词性语素。形容词代码为a,语 素代码g前面置以a 喜/v 煞/ag 人/n an 名形词 具有名词功能的形容词。形容词代码 a和名词代码n并在一起 人民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。/w b 区别词 取汉字“别”的声母 副/b 书记/n 王/nr 思齐/nr c 连词 取英语连词conjunction的第1个字母 全军/n 和/c 武警/n 先进/a 典型/n 代表/n d 副词 取adverb的第2个字母,因其第1个 字母已用于形容词 两侧/f 台柱/n 上/ 分别/d 雄踞/v 着/u dg 副语素 副词性语素。副词代码为d,语素代 码g前面置以d 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 节目/n 。/w e 叹词 取英语叹词exclamation的第1个字母嗬/e !/w f 方位词 取汉字“方” 的声母 从/p 一/m 大/a 堆/q 档案/n 中/f 发现/v 了/u g 语素 绝大多数语素都能作为合成词的“词 根”,取汉字“根”的声母 例如dg 或ag h 前接成分取英语head的第1个字母 目前/t 各种/r 非/h 合作制/n 的/u 农产品/n i 成语 取英语成语idiom的第1个字母 提高/v 农民/n 讨价还价/i 的/u 能力/n 。/w j 简称略语取汉字“简”的声母 民主/ad 选举/v 村委会/j 的/u 工作/vn k 后接成分 权责/n 明确/a 的/u 逐级/d 授权/v 制/k l 习用语 习用语尚未成为成语,有点“临时 性”,取“临”的声母 是/v 建立/v 社会主义/n 市场经济/n 体制/n 的 /u 重要/a 组成部分/l 。/w m 数词 取英语numeral的第3个字母,n,u 已有他用 科学技术/n 是/v 第一/m 生产力/n n 名词 取英语名词noun的第1个字母 希望/v 双方/n 在/p 市政/n 规划/vn ng 名语素 名词性语素。名词代码为n,语素代 码g前面置以n 就此/d 分析/v 时/Ng 认为/v nr 人名 名词代码n和“人(ren)”的声母并在 一起 建设部/nt 部长/n 侯/nr 捷/nr ns 地名 名词代码n和处所词代码s并在一起 北京/ns 经济/n 运行/vn 态势/n 喜人/a nt 机构团体 “团”的声母为t,名词代码n和t并在 一起 [冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院 /n]nt nx 字母专名 ATM/nx 交换机/n nz 其他专名 “专”的声母的第1个字母为z,名 词代码n和z并在一起 德士古/nz 公司/n o 拟声词 取英语拟声词onomatopoeia的第 1个字母 汩汩/o 地/u 流/v 出来/v p 介词 取英语介词prepositional的第1个 字母 往/p 基层/n 跑/v 。/w q 量词 取英语quantity的第1个字母 不止/v 一/m 次/q 地/u 听到/v , /w r 代词 取英语代词pronoun的第2个字母, 因p已用于介词 有些/r 部门/n s 处所词 取英语space的第1个字母 移居/v 海外/s 。/w t 时间词 取英语time的第1个字母 当前/t 经济/n 社会/n 情况/n tg 时语素 时间词性语素。时间词代码为t,在 语素的代码g前面置以t 秋/Tg 冬/tg 连/d 旱/a u 助词 取英语助词auxiliary 的第2个字母, 因a已用于形容词 工作/vn 的/u 政策/n ud 结构助词 有/v 心/n 栽/v 得/ud 梧桐树/n ug 时态助词 你/r 想/v 过/ug 没有/v uj 结构助词的 迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n ul 时态助词了 完成/v 了/ ul uv 结构助词地 满怀信心/l 地/uv 开创/v 新/a 的 /u 业绩/n uz 时态助词着 眼看/v 着/uz v 动词 举行/v 老/a 干部/n 迎春/vn 团拜 会/n vd 副动词 强调/vd 指出/v vg 动语素 动词性语素。动词代码为v。在语 素的代码g前面置以V 做好/v 尊/vg 干/j 爱/v 兵/n 工作 /vn vn 名动词 指具有名词功能的动词。动词和名 词的代码并在一起 股份制/n 这种/r 企业/n 组织/vn 形式/n ,/w w 标点符号 生产/v 的/u 5G/nx 、/w 8G /nx 型/k 燃气/n 热水器/n x 非语素字 非语素字只是一个符号,字母x通 常用于代表未知数、符号 y 语气词 取汉字“语”的声母 已经/d 30/m 多/m 年/q 了/y 。 /w z 状态词 取汉字“状”的声母的前一个字母 势头/n 依然/z 强劲/a ;/w
PostaggingEnglish taggersStanford taggerNLTK taggerPRPVBZNNSDTShesellsseashellstheonseashore
POS tagging English taggers • Stanford tagger • NLTK tagger •
PostaggingNLPiRChineseword segmentation systeme00NLPIR汉语分询系统好国ictdas-Google提来ICTCLAS强华平爆士然间直NLPIR汉源分系线中文分百度百科北星ictclas.nlpir.org/onlineputong百度<xK>TC测试样例:昔日NBA球星罗德曼访朝开启了两国间的篮球外交?至少目前看来,美国民众的回应有衰有贬。据《纽约邮报》3月6日报道,“大虫”罗德曼回到美国后,在下榻的1.8ICTCLAS张华博士应各位ICTCLAS用户酒店聊天时力挺朝鲜领导人,结果遭到一片哦声,在保镖的护送下才离开。的要求,张华平博士提剪发布ICTCLAS2013版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检共享孚台,从本版本开始,系统名称调整为NLPIR汉语分调系统2、“屌丝”这个明汉意味的代词迅速媒红,合了大众的心理和避味。因为你会发现人表面符合属丝定义的人,到和冕丝属性八竿子打不着的人,都在争相认领这一名号。当人人看在忙着确认自己的屌丝身分,并乐终选择文件自适应分调清除普通分调不时,需一调一定与时代的什么特征实现了合拍,“第丝,不是阿Q,他们公然比参并乐在其中有评论认为,“周丝”是新的昔日/tNBA/x球星/n罗德曼/nrf访/V朝/tg开启/v了/ule两/m国/n间/f的代的阿Q,两者并不完全相尾,首先,阿Q是/ude1篮球/n外交/n?/ww至少/d目前/t看来/v,/wd美国/nsf民众/n的文学巨匠鲁迅一己之力创造的,而“属丝”/udel回应/vn有/vyou衰/vn有/vyou贬/v。/wi据/p</wkz纽约/nsf邮报/n则是网络样体狂欢的结果,它是真正由网民>/wky3月/t6日/t报道/v,/wd“/wyz大虫/n*/wyy罗德曼/nrf回到/v美国集体创作的形象:另外,阿9最重要的持征/nsf后/f,/wd在/p下榻/v的/udel酒店/n聊天/vi时/ng力/n挺/d朝鲜/nsf领是“精神胜利法”,梦想的是“银歪银导人/n,/wd结果/d遭到/v一/m片/q嘘声/n,/wd在/p保镖/n的/udel护送甲”,意淫的是“我手持钢获将你打”/vn下/f才/d离开/V。/wi4.TQADW
POS tagging NLPIR Chinese word segmentation system