°SClgen生成文献的检测方案 刘昌灵 中国人民大学2012级本科 多媒体计算实验室
SCIgen生成文献的检测方案 刘昌灵 中国人民大学 2012级本科 多媒体计算实验室
简单的发现 SClgen是一个使用生成式生成文本的上 下文无关文法(巴科斯范式、巴科斯 诺尔范式、Backus-Naur Form) ●SClgen使用的生成式存在于scirules.in文 件中 ●对于子生成式的展开,SClgen的策略相 对简单,不会自递归(乔姆斯基范式、 Chomsky Normal Form)
简单的发现 SCIgen是一个使用生成式生成文本的上 下文无关文法(巴科斯范式、巴科斯- 诺尔范式、 Backus-Naur Form) SCIgen使用的生成式存在于scirules.in文 件中 对于子生成式的展开,SCIgen的策略相 对简单,不会自递归(乔姆斯基范式、 Chomsky Normal Form)
通用的解决方案 ·提取特征,观察其分布 。词频、词距等 。Sklearn提供了一部分文本特征 。使用Word2Vec准备意义空间的分析 ●SVMW多层SVM ·神经网络/循环冗余神经网络
通用的解决方案 提取特征,观察其分布 ◦ 词频、词距等 ◦ Sklearn提供了一部分文本特征 ◦ 使用Word2Vec准备意义空间的分析 SVM/多层SVM 神经网络/循环冗余神经网络
SVM/神经网络 。选择SVM的原因是特征空间(至少词频 空间)对于正反样本较为可分(高斯核, 甚至线性核都可以得到不错的效果) 。选择RNN(Recurrent Neural Network) 的原因为其每一次的运算都具有后效性, 可以在优秀的上下文环境中分析语义空 间。而语义空间是期望具有显著差别的
SVM/神经网络 选择SVM的原因是特征空间(至少词频 空间)对于正反样本较为可分(高斯核, 甚至线性核都可以得到不错的效果) 选择RNN(Recurrent Neural Network) 的原因为其每一次的运算都具有后效性, 可以在优秀的上下文环境中分析语义空 间。而语义空间是期望具有显著差别的
SVM/NN总结 。优点: 。能够快速适应SClgen做出的改动(更换/添 加特征向量) 解决办法通用,主要的训练学习任务交给 01 机器自己完成,较为智能 。易于分析意义空间 ·缺点: 。训练可能需要较长的时间,运行也有较高 的复杂度。通常需要GPU支持。 需要寻找大量的训练数据 需要局限于SVM/NN的模型
SVM/NN总结 优点: ◦ 能够快速适应SCIgen做出的改动(更换/添 加特征向量) ◦ 解决办法通用,主要的训练学习任务交给 机器自己完成,较为智能 ◦ 易于分析意义空间 缺点: ◦ 训练可能需要较长的时间,运行也有较高 的复杂度。通常需要GPU支持。 ◦ 需要寻找大量的训练数据 ◦ 需要局限于SVM/NN的模型