特征工程 (Feature Engineering) 李东 广东工业大学 自动化学院 1
(Feature Engineering) 李东 广东工业大学 自动化学院 特征工程 1
Outline ·3.1什么是特征工程? ·3.2自然语言处理中的自动分词、词性标注及句 法分析 ·3.3向量空间模型及文本相似度计算 ·3.4相似度计算 ·3.5特征值的缩放及归一化 ·3.6特征选择 ·3.7特征降维与升维 哈尔滨工业大学计算机学院刘远超 2
Outline • 3.1 什么是特征⼯程? • 3.2 ⾃然语⾔处理中的⾃动分词、词性标注及句 法分析 • 3.3 向量空间模型及⽂本相似度计算 • 3.4 相似度计算 • 3.5 特征值的缩放及归⼀化 • 3.6 特征选择 • 3.7 特征降维与升维 哈尔滨工业大学计算机学院 刘远超 2
什么是特征工程? ●引用维基百科上的定义 (https://en.wikipedia.org/wiki/Feature_engineering Feature engineering is the process of using domain knowledge of the data to create features that make machine learning algorithms work. ●引自知乎:“数据和特征决定了机器学习的上限,而模型和算法只是 逼近这个上限而已。 ●深度学习也要用到特征,需要对输入的特征进行组合变换等处理。 3
什么是特征⼯程? l引⽤维基百科上的定义 (https://en.wikipedia.org/wiki/Feature_engineering ) n Feature engineering is the process of using domain knowledge of the data to create features that make machine learning algorithms work. l引⾃知乎:“数据和特征决定了机器学习的上限,⽽模型和算法只是 逼近这个上限⽽已。” l深度学习也要⽤到特征,需要对输⼊的特征进⾏组合变换等处理。 3
自动分词 ·何谓自动分词?自动分词就是将用自然语言书写的文章、句段经计算机 处理后,以词为单位给以输出,为后续加工处理提供先决条件。 ●举例: ●“我来到北京清华大学。” →“我/来到/北京/清华大学/。 ●“I came to Tsinghua University in Beijing." >"I/came/to/Tsinghua/University/in/Beijing/./" ·思考一下:中文的自动分词和英文的自动分词有何不同?
⾃动分词 l何谓⾃动分词?⾃动分词就是将⽤⾃然语⾔书写的⽂章、句段经计算机 处理后,以词为单位给以输出,为后续加⼯处理提供先决条件。 l举例: l “我来到北京清华⼤学。” à“我/ 来到/ 北京/ 清华⼤学/ 。/” l “I came to Tsinghua University in Beijing.” à“I/ came/ to/ Tsinghua/ University/ in/ Beijing/ ./” l思考⼀下:中⽂的⾃动分词和英⽂的⾃动分词有何不同? 4
词根提取与词形还原 ●词根提取(stemming.):是抽取词的词干或词根形式(不一定能够 表达完整语义)。 ■原文:'And I also like eating apple' ■词根提取后:['and',,'also','like,'to','eat','appl']) ●词形还原(lemmatization:是把词汇还原为一般形式(能表达完 整语义)。如将“drove"处理为“drive”。 ■原文:'And I also like eating apple' ■词形还原后:['And',T,'also',like,u'eat','apple']) 5
词根提取与词形还原 l词根提取(stemming):是抽取词的词⼲或词根形式(不⼀定能够 表达完整语义)。 n原⽂:'And I also like eating apple’ n词根提取后:['and', 'I', 'also', 'like', 'to', 'eat’, 'appl’]]) l词形还原(lemmatization):是把词汇还原为⼀般形式(能表达完 整语义)。如将“drove”处理为“drive”。 n原⽂:'And I also like eating apple’ n词形还原后:['And', 'I', 'also', 'like', u'eat', 'apple’]]) 5