cooling搜索

酷灵输入法 |

关于我们

首页

敏感词过滤

　　Cooling Filter 能够通过机器学习或预先设定的规则，判定自然语言中是否包含敏感内容。支持敏感词列表、向量机、经典后验概率，及语义分析等几种方式的过滤方法。

敏感词列表

　　用户通过预先设定的一组敏感词，作为过滤条件。即只要文章中出现了敏感词，该文章即被过滤。这种方式的优势是简单高效，是唯一不需要学习的方法，当语境简单，缺乏上下文环境时，非常有效。但缺点也很明显，机器不能区别分章的感情色彩与任何倾向性。

向量机

　　分析文章包含的特征，将待征作为向量，并组合在一起成为一个向量空间。在使用前需要预先准备大量包含了敏感内容的文章供机器学习，建立敏感特征向量空间。未知文章到来后，都要建立自己的特征向量空间，并通过同敏感特征向量空间进行比较，得出是否包含敏感内容的概率。这种方法的优势是以一组特征，通过相似度进行比较，不以一个词决定文章是否敏感。缺点是比较的时候随样本空间的大小呈线性增长。

经典后验概率

　　在使用前需要预先准备大量包含了敏感内容的文章供机器学习，计算不同特征出现在敏感内容中的概率。对未知文章的判定，需要计算多个特征是否敏感的后验概率，当此概率超过一定的阈值后，即认为内容敏感。优点是判定速度非常地快，仅次于敏感词列表，比较适合样本领域比较集中且样本量不大的情况。缺点是只能对已知特征进行判定，而无法对末知情况作出预测。

语义分析

　　通过理解文章的含义，来判定是否包含敏感内容。这种方法需要对大量的样本进行长时间的学习，样本包含的内容越全，机器建立的语义模型越准确。这种方法的优势是，不仅对特征进行分析，更对特征存在的上下文语境进行分析，能够有效地区分出词的感情色彩，得出最准确的结果。缺点也很明显，对样本的准确性要求非常地高，机器学习的时间非常长，对末知文章的预测速度要比敏感词列表的方式低，经典后验概率要慢。