13.2文本过滤 13.2.1不良文本过滤主要方法 1.基于关键字的过滤方法 。 基于关键字的过滤方法是不良文本过滤早期常用 的方法。 首先由专业人员编制一个不良文本关键字词库, 关键字词库中出现的字词都是经常出现在不良文 本中的敏感词汇,能够很大程度地代表不良文本 。 当有文本到来之后,对文本全文进行检索,通过 比较简单的布尔逻辑运算进行匹配,当匹配超过 一定阀值之后,系统就认为这篇文本是不良文本, 给予过滤 信息安全导论13 12
13.2 文本过滤 13.2.1 不良文本过滤主要方法 1.基于关键字的过滤方法 • 基于关键字的过滤方法是不良文本过滤早期常用 的方法。 • 首先由专业人员编制一个不良文本关键字词库, 关键字词库中出现的字词都是经常出现在不良文 本中的敏感词汇,能够很大程度地代表不良文本。 • 当有文本到来之后,对文本全文进行检索,通过 比较简单的布尔逻辑运算进行匹配,当匹配超过 一定阀值之后,系统就认为这篇文本是不良文本, 给予过滤。 信息安全导论13 12
使用关键字匹配技术有以下三个难题 ()很难建立完整的不良文本关键字词库 网络信息如此之多,表达方式千差万别,文章主题繁冗 复杂,任何人都不可能建立一个包括所有不良文本的关 键字词库。不良文本关键字词库的不健全,就会导致不 良文本过滤精确度的降低,又因为关键字词 可能在正 反两类文本中都频繁出现,因此在采用不良 本关键字 词库进行过滤时,经常会把关于某一个敏感主题的所有 相关文本全部过滤掉。目前,所有基于关键字的过滤都 只是一个多层不良文本过滤系统的第一层过滤,用来区 别对于一个主题的相关文本和不相关文本。 ·然后对过滤得到的这两类文本的文本内容再进一步进行 基于内容的动态过滤,最终把不良信息过滤掉。也可以 通过不断的关键字过滤判断和人为的过滤方法相结合来 进行不良文本过滤。 信息安全导论13 13
使用关键字匹配技术有以下三个难题 (1)很难建立完整的不良文本关键字词库 • 网络信息如此之多,表达方式千差万别,文章主题繁冗 复杂,任何人都不可能建立一个包括所有不良文本的关 键字词库。不良文本关键字词库的不健全,就会导致不 良文本过滤精确度的降低,又因为关键字词有可能在正 反两类文本中都频繁出现,因此在采用不良文本关键字 词库进行过滤时,经常会把关于某一个敏感主题的所有 相关文本全部过滤掉。目前,所有基于关键字的过滤都 只是一个多层不良文本过滤系统的第一层过滤,用来区 别对于一个主题的相关文本和不相关文本。 • 然后对过滤得到的这两类文本的文本内容再进一步进行 基于内容的动态过滤,最终把不良信息过滤掉。也可以 通过不断的关键字过滤判断和人为的过滤方法相结合来 进行不良文本过滤。 信息安全导论13 13
(2)不良文本关键字词库的滞后性 因为关键字词库的不完整性,需要不断地补充新的 敏感词汇到不良文本关键字词库,这样带来的问题 就是敏感字词的滞后性。系统总是在某一类的不良 文本出现很多,但是没有被系统自动过滤之后,才 会去抓取新的敏感词汇。过滤的滞后性也是一个必 考虑的问题。 (3)不良文本关键字词变形的难识别性 ·针对不良文本关键字过滤技术,很多不法分子采用 拆分关键词的方法来逃避:使用特殊符号代替敏感 字词;使用特殊符号间隔敏感字词;使用拼音替代 敏感字词;故意使用错字或偏旁部首来代替敏感字 词。这样也给采用关键字词库进行过滤带来了麻烦, 而且由于没有能够准确的联系语境,只是单个的通 过关键字词进行匹配过滤,导致了较高的误判率。 信息安全导论13 14
(2)不良文本关键字词库的滞后性 • 因为关键字词库的不完整性,需要不断地补充新的 敏感词汇到不良文本关键字词库,这样带来的问题 就是敏感字词的滞后性。系统总是在某一类的不良 文本出现很多,但是没有被系统自动过滤之后,才 会去抓取新的敏感词汇。过滤的滞后性也是一个必 须考虑的问题。 (3)不良文本关键字词变形的难识别性 • 针对不良文本关键字过滤技术,很多不法分子采用 拆分关键词的方法来逃避:使用特殊符号代替敏感 字词;使用特殊符号间隔敏感字词;使用拼音替代 敏感字词;故意使用错字或偏旁部首来代替敏感字 词。这样也给采用关键字词库进行过滤带来了麻烦, 而且由于没有能够准确的联系语境,只是单个的通 过关键字词进行匹配过滤,导致了较高的误判率。 信息安全导论13 14
2.基于分级标签过滤方法 分级标签过滤方法通过对不同的网页根据内容赋 予不同的级别,以实现过滤 。 根据网页内容的不同,分为普通级、一般限制级、 严格限制级。青少年只能看到普通级别的网页 而成年人可以看到一般限制级别的网页,而包含 反动等信息的严格限制级网页,则是要严格过滤 掉的。 ·网络分级的顺利实施存在着以下几个问题。 信息安全导论13 15
2.基于分级标签过滤方法 • 分级标签过滤方法通过对不同的网页根据内容赋 予不同的级别,以实现过滤。 • 根据网页内容的不同,分为普通级、一般限制级、 严格限制级。青少年只能看到普通级别的网页, 而成年人可以看到一般限制级别的网页,而包含 反动等信息的严格限制级网页,则是要严格过滤 掉的。 • 网络分级的顺利实施存在着以下几个问题。 信息安全导论13 15
·(1)网络分级目前还是一个自愿采用的分级系统 各个网站的管理团队如果采用了网络分级标签 那么他们就要为他们标记的内容承担责任。 而且有些网站,为了提高点击率,以获得经济利 益,拒绝网络分级标签的使用,即使勉强采用, 也会打擦边球,甚至故意标记错误。所以,网站 运营者必须有很高的社会责任感,这个方法才可 能有效。 另外,只是杜绝服务端并不能从根本上解决问题 。 在浏览器端,更大的问题在于“网络实名制的实 施,只有该规则的实施,才能避免不同浏览级别 之间的用户混乱。比如,一个青少年注册账号谎 称他是一个成年人,这样他就能看到一般限制级 别的网页内容 信息安全导论13 16
• (1)网络分级目前还是一个自愿采用的分级系统, 各个网站的管理团队如果采用了网络分级标签, 那么他们就要为他们标记的内容承担责任。 • 而且有些网站,为了提高点击率,以获得经济利 益,拒绝网络分级标签的使用,即使勉强采用, 也会打擦边球,甚至故意标记错误。所以,网站 运营者必须有很高的社会责任感,这个方法才可 能有效。 • 另外,只是杜绝服务端并不能从根本上解决问题。 在浏览器端,更大的问题在于“网络实名制”的实 施,只有该规则的实施,才能避免不同浏览级别 之间的用户混乱。比如,一个青少年注册账号谎 称他是一个成年人,这样他就能看到一般限制级 别的网页内容。 信息安全导论13 16