|
| Cooling Filter 能够通过机器学习或预先设定的规则,判定自然语言中是否包含敏感内容。支持敏感词列表、向量机、经典后验概率,及语义分析等几种方式的过滤方法。 |
| 敏感词列表 |
| 用户通过预先设定的一组敏感词,作为过滤条件。即只要文章中出现了敏感词,该文章即被过滤。这种方式的优势是简单高效,是唯一不需要学习的方法,当语境简单,缺乏上下文环境时,非常有效。但缺点也很明显,机器不能区别分章的感情色彩与任何倾向性。 |
| 向量机 |
| 分析文章包含的特征,将待征作为向量,并组合在一起成为一个向量空间。在使用前需要预先准备大量包含了敏感内容的文章供机器学习,建立敏感特征向量空间。未知文章到来后,都要建立自己的特征向量空间,并通过同敏感特征向量空间进行比较,得出是否包含敏感内容的概率。这种方法的优势是以一组特征,通过相似度进行比较,不以一个词决定文章是否敏感。缺点是比较的时候随样本空间的大小呈线性增长。 |
| 经典后验概率 |
| 在使用前需要预先准备大量包含了敏感内容的文章供机器学习,计算不同特征出现在敏感内容中的概率。对未知文章的判定,需要计算多个特征是否敏感的后验概率,当此概率超过一定的阈值后,即认为内容敏感。优点是判定速度非常地快,仅次于敏感词列表,比较适合样本领域比较集中且样本量不大的情况。缺点是只能对已知特征进行判定,而无法对末知情况作出预测。 |
| 语义分析 |
| 通过理解文章的含义,来判定是否包含敏感内容。这种方法需要对大量的样本进行长时间的学习,样本包含的内容越全,机器建立的语义模型越准确。这种方法的优势是,不仅对特征进行分析,更对特征存在的上下文语境进行分析,能够有效地区分出词的感情色彩,得出最准确的结果。缺点也很明显,对样本的准确性要求非常地高,机器学习的时间非常长,对末知文章的预测速度要比敏感词列表的方式低,经典后验概率要慢。 |