互联网信息采集
要建立一个高效的情报系统,最首要的任务是提高网络资源的抓取速度与效率,这样才能跟得上互联网信息增长的速度,网络爬虫在情报系统中就承担着这么一个角色。 在非结构化数据方面,网络爬虫包含了完整的 HTTP/1.1,FTP,HTML/4,XML,RDF 的实现,能够识别与分析各类互联网文本。在结构化数据方面,网络爬虫能够支持对 Oracle,SQL Server,DB2,MySQL 等主流关系型数据的抓取与分析。
情报系统借助于酷灵搜索引擎的网络爬虫(spider),具备专业强大的互联网信息采集能力:
- 快速高效的非结构化数据分析与抓取,保证了向互联网探索的能力。
- 强大的实时抓取能力,有效的增强了对包含大量民众评论的评论性站点的抓取能力。
- 支持多种语言,以及各种文本格式。
- 高效的索引机制,保证对海量数据的快速检索能力。
- 高性能,高可用以及可扩展的分布式运行与存贮技术,保证了互联网级的海量信息的存贮能力。
情报系统在传统搜索之上,加强了最能体现互联网情报的BBS搜索。在情报系统中,BBS的回复,代表了广大民众对于某些事件的看法,是情报系统中最重要的原始数据,也是情报分析与政府信息库的重要基础数据。因此,为了满足情报系统的需求,酷灵搜索引擎的网络爬虫(spider)加强了对于BBS的抓取能力,这些体现在:
- 提供对BBS发帖和回复的抓取,网络爬虫将普通网页与BBS发贴区别对待。对于普通网页通常抓取的时间间隔会在一个月左右,但对于BBS发贴甚至在几分钟的间隔内就会触发一次。
- 提供对BBS发贴的等级评定。由于BBS的发贴量巨大,如果对所有发贴都要求在几分钟进行再次抓取,将会需要大量网络爬虫连接到BBS,这将对BBS产生非常大的压力。因此,情报系统将对不同发贴进行分级,就象互联网搜索引擎对网页打分一样,对于热门贴,这个打分就会变高,这个打分越高,网络爬虫的抓取频率就越高,反正如果这个分越低,网络爬虫的抓取频率就会越低。通过这种方式,大大提升了BBS回复的抓取效率。
- 提供对BBS贴子的分页合并功能。众所周知,一些热门贴子由于回复量巨大,因此会自动将同一贴子分到不同页面中去。因此,网络爬虫也提供了模式识别以及聚类算法,识别属于同一贴子的不同分页,并将不同分页进行合并。
- 提供对BBS回复的自动识别。在BBS中,发贴、回复、广告都是网页的一部分,因此,情报系统提供了自动识别算法,能够将爬虫抓取到的网页中的回复进行自动提取。如果网页比较特殊,也支持用户以自定义的方式,实现回复信息的提取。
- 提供对BBS发贴、回复者信息的记录。网络爬虫可以识别信息发布者在网站上的公开信息,这些信息包括:IP,用户名,性别,年龄,职业等。这些信息将能更大程度提升情报系统的数据分析能力,同时也能为情报监管部门,提供更详细的资料。
最后,情报系统提供了更完善、细致的自定义采集策略:
- 配置若干数据源,这些数据源可以是新闻门户、博客、BBS等。不同数据源,可以同时抓取,提升抓取速度。其中BBS的抓取,
- 指定对不同数据源的抓取频率(提升抓取的实时性,频率越频繁,则实时性越高)、网络爬虫数量(提升抓取的速度,爬虫数量越多,则抓取速度越快)。
- 网页过滤规则。通过正则表达式、过滤没有意义的网页(如广告等),提升网络爬虫的抓取。如果规则过于复杂,也可能通过二次开发插件,实现过滤功能。
最后,由于情报系统不同于一般传统意义上的搜索引擎,情报系统需要在有限的资源条件下,实现更细分、更精确、更详细、更完整、更实时的搜索要求。因此在下表中,列出了情报系统与互联网搜索产品的优势比较:
|
| 优势比较 |
情报系统采集方式 |
互联网搜索采集方式 |
| 论坛搜索 |
确保对论坛每一篇发贴的抓取 |
无法保证对论坛每一篇发贴的抓取 |
| 论坛回复搜索 |
确保每一条回复都将被抓取并保存 |
无此功能。 |
| 实时性 |
确保指定站点的信息在小时级别内被抓取 |
指定站点的信息在天级别内被抓取 |
| 动态网页抓取 |
经过配置,有价值的动态网页都将被抓取 |
绝大多数动态网页都无法正常抓取 |
| 结果展示 |
所有符合条件的数据都将被展示。 |
所有搜索结果都被限制在了70页之内,通常还包含了大量重复信息。 |
| 自定义信息源 |
提供用户通过配置预设信息源。 |
无此功能。 |
| 自定义抓取行为 |
通过配置或二次开发,可提供更精确的内容分析功能。 |
无此功能。 |
|
情报信息门户
情报信息门户将互联网上采集的信息,通过语义分析及数据分析后,建立的模型以网页(包括WAP)的形式,展现给使用者。从用户的角度来看,情报信息门户将所有的功能都整合在了一起,以统一、友好的方式进行展现。
展现的内容包括:
- 热点事件列表;
- 热点事件多层次分析;
- 热点事件摘要;
- 热点词跟踪;
- 突发事件告警;
- 敏感词监管;
- 情报信息检索;
- 情报信息报表;
- 情报信息报告下载;
- 自定义情报分析;
- 情报BI子系统入口;
- 管理维护;
同时,为了保证情报系统的数据安全性与访问控制
- 对于所有情报系统用户,提供通过外网供接入的服务;
- 对于情报系统管理机构,各类相关政府机构,提供不同访问权限的互联网登陆入口;
- 对于其它系统提供访问接口,供其它系统调用,并融合到整个政府信息化系统中;
- 对内部管理机构,提供内门户的平台入口。
热点事件发现
随着网络信息的高速发展,越来越多的热点信息会遍及网络。酷灵情报分析系统能够第一时间发现一周的热点话题,同时把所有关于这个话题在网络上发布的信息全部聚集在一起显示给用户。
互联网情报信息量巨大,对此类信息的及时采集学习,对有效分析至关重要。酷灵情报分析系统,借助于底层成熟的酷灵搜索引擎,具备极高的采集信息效率,让用户可以更快,更早的了解突发事件,并对数据进行分析,帮助用户能够及时了解各种突发状况,获得分析信息,采取解决措施。
下图来自于情报分析系统,展示了某特定时间段内,依照回复量排出的互联网热门事件。同样,转贴数量、访问量等多种条件都可以成为排序的依据。
热点事件多层次分析
情报分析系统会对用户对热点话题的评论进行倾向性分析.所谓“倾向性”就是不同用户对同一个话题的态度和看法,可能是积极的,也可能是消极的。情报分析就是将所有用户的看采集,统计并分析,最后得出用户对此话题倾向面的结论。
每个热点话题必定会有其之后的转变趋势,任何事件,用户也会关心其之后的运行趋势。情报分析所支持的趋势分析,就是通过对关键字,摘要,话题相关信息的有效提取和统计,得出最后的分析结论。帮助情报监管部门,更好的跟踪和了解信息。
下图来自于酷灵情报分析系统,展示了一周最热门事件2010年10月20到2011年4月23日的舆论关注度。关注方面包括:民众支持度,民众反对度,信息发布量,信息回复量和民众意见趋势。这些关注方面可以按照用户的需要自行选择。
下图来自于酷灵情报分析系统,展示了一周最热门的几大事件在5天内的舆论信息关注度,并显示其对比关系。蓝色的表示事件,绿色的表示"徐若瑄"事件,红色表示"大S"事件。
下图来自于酷灵情报分析系统,展示了同一热门事件在不同媒体的舆论关注度,并显示其对比关系。其中绿色表示“天涯”,红色表示“新浪bbs“。
热点事件摘要
当今主流的搜索,比如google,都会对信息进行自动摘要,方便用户浏览信息的大致内容。这个技术在情报系统一样被支持,Cooling情报分析系统有其强大的语义分析能力,可以通过热点词与关键词的摘要,简而易懂的概括了整篇文章最主要的思想。
下图来自于情报系统,展示了对特定事件的关键词摘要,以及各个角度的评论摘要。
|
| 事件名称 |
药家鑫杀人案 |
| 事件关键词 |
药家鑫
药家鑫杀人案
激情杀人
更多 |
| 负面评论摘要 |
1. 药家鑫这么一个案子消耗了如此大的法律资源。我国的法律如此落后!
2. 药家鑫去警察局根本不是自首,是想去灭警察,他觉得警察特别麻烦。
3. 国内的富B太多了,出门经常被他们弄得堵住了,真晦气。
4. 上联:药死药活药家鑫,求下联
更多 |
| 正面评论摘要 |
1. 药家鑫师妹李颖微博:“我要是他(药家鑫)我也捅”
更多 |
|
突发事件告警
随着互联网用户的不断增多以及WEB 2.0新模式的出现,用户对网络的依赖越来越高,许多突发事件在发生后的几分钟内,就会用网民在第一时间发布到各大论坛,其速度远超过了专业新闻媒体的记者。
情报系统中,情报管理部门可以预设定突发事件的定义,定义的方式有两种:
- 最简单的方式是,情报管理部门设置突发事件的关键字信息,如(XX市,火灾)。如新闻中出现些类关键字信息,即被定义为突发事件;
- 提供学习样本(如提供火灾的新闻),机器通过语义学习后。如类似新闻再次出现,则被定义为突发事件;
借助于情报系统的网络爬虫极高的采集信息效率,一个突发事件在几分钟内即可被发现。将有助于情报监管部门,更快,更早的了解突发事件,并采取及时的应对措施。
敏感词监管
为了方便用户对包含敏感词的评论的查看,酷灵情报分析系统通过的信息语义分析,将敏感词组织成词网展现给用户。用户通过点击某个敏感词可以查看这个敏感词所在的评论,网站和作者等属性,并进入原始网站进行查看。
下图来自于酷灵情报分析系统,展示了所有敏感词,并展示了点击“上海大火”这个敏感词所出现的信息列表。标题为一个链接,用户点击,系统会自动跳转到此标题所对应的原始网站。
信息检索
情报系统,可以通过底层的酷灵搜索引擎,提供对所有抓取到的情报信息进行全方位的数据检索。情报系统提供的信息检索功能如下:
- 包含特定关键字的网页搜索。用户在输入一个或多个关键字后,能够罗列出在情报系统中,所有包含这些关键字的网页。
- 指定时间范围搜索。用户可以指定只搜索某个时间段(以天为单位)内的网页。
- 相似度排序。所有搜索结果,都将按照与用户搜索关键词的相似度进行打分,最后按照分数从高到低进行排序。
- 指定信息源搜索。用户可以指定只罗列某个特定信息源中符合条件的网页。
- 指定信息源类型搜索。用户可以指定只罗列某种类型的信息源(如BBS,新闻等)中符合条件的网页。
外部搜索引擎整合
情报系统将通过外部互联网搜索引擎提供的开放API,支持将百度、google的搜索结果进行融合,进而完善整个搜索的范围。
热点词跟踪
往往许多热点话题都会产生与此话题相关的热点词,用户也对这些热点词和词与词之间的联系较为关心。酷灵情报分析系统通过的信息语义分析,将相关的热点词组织成词网展现给用户。
下图来自于酷灵情报分析系统,展示了以公安这个热点词为中心,相关热点词组成的词网。词与词之间的间隔,表示了两个词之间的相关度。
下图来自于酷灵情报分析系统,展示了出现公安这个词的所有事件在网上的分布比例。
自定义情报分析
政府部门对情报的需求千变万化,为了满足每个用户对情报分析系统的需求,酷灵情报分析系统提供自定义分析平台。用户可以通过自己定义所要查看的信息内容,纵轴和衡轴的坐标值,生成自己所感兴趣的情报分析趋势图。
下图来自于酷灵情报分析系统,展示了自定义情报分析系统的自定义平台。

舆情BI入口 BI工具是终端用户查询和报告的工具。BI可以挖掘大量的数据,建立数据仓库,分析数据之间的关系。为了方便用户对数据仓库的查看,酷灵情报分析系统开设了情报BI自定义窗口,用户可以自己定义BI中数据格式,查看自己所需要的原始数据。
下图来自于酷灵情报分析系统,展示了情报BI入口平台。

下图来自于酷灵情报分析系统,展示了BI里原始数据结构和内容。

情报分析报告
情报分析报告与情报分析门户一样,也是一种情报信息的展现方式。与情报分析门户不同的是,情报分析报告最终是以Word或PDF文档的形式展示,并在情报信息门户上提供下载。
多渠道信息快速推送
由于情报系统对实时性的要求非常之高,因为在互联网上新闻的传递速度是非常的迅速。如果一个敏感事件出现后,没有在第一时间做出响应,在互联网上将造成非常广泛与严重的影响。因此、为了保证突发、敏感事件被情报系统发现后,能够得到及时的响应,情报系统可以在外部系统的支持下,实现以下多种信息推送方式:
- 短信/彩信;情报系统将记录情报监管联系人的移动联系方式,并在第一时间,通过短信/彩信网关,将重要信息发送到移动设备之上。
- 邮件;情报系统将记录情报监管联系人的电子邮件,并在第一时间,将信息发送到联系人的邮箱中。
|