信息采集产品模块(Spider)

Spider是埃帕Cooling搜索引擎的非结构与结构化数据的抓取与分析模块,也被称为"网络爬虫"或"网络蜘蛛"。

Spider已经被用于埃帕酷灵舆情服务平台,目前采集的数据源包括:

  • 近万个新闻类站点,覆盖所有大型门户网站和代表性地方门户,涉及财经、汽车、互联网、社会、科技等众多行业;
  • 近千个人气bbs,如百度贴吧、天涯、宽带山、中关村在线、东方财富、搜房网等,并可跟踪贴子的更新;
  • 新浪、腾讯、网易、搜狐四大微博平台,包括用户信息,转发、评论数据的抓取;
  • 开心网、人人网等社交网站;
  • 优酷、土豆等社频网站;
功能
抓取数据源

在非结构化数据方面,Spider包含了完整的HTTP/1.1规范的实现,能够识别并分析HTML,XML,RDF,OFFICE,PDF,Text等各类格式的文件

在结构化数据方面,Spider能够支持对Oracle,SQL Server,DB2,MySQL等主流关系型数据的抓取与分析。

抓取规则

Spider使用正则表达式实现了简单而高效的URL过滤,保证将大量无效的URL进行过滤,并提升抓取效率。

抓取策略

Spider支持深度优先、广度优先和最佳优先三种抓取策略。

数据抽取

Spider能够对常见的新闻类数据(正文、标题、发布时间、作者、来源)实现自动抽取。其它特定数据能够通过配置xpath实现定制抽取。

页面脚本支持

Spider能够通过webkit与IE的内核,实现页面脚本的支持,保证爬虫抓取到的页面与浏览器上展示的完全一致。

分布式爬虫

Spider采用高效的分布式任务调度算法(同时也遵循礼貌原则),可通过增加服务器来覆盖更多的数据源。同时,动态增加或删除节点,对集群无影响。

自动登陆

Spider通过认证管理器维护特点站点的认证信息,实现自动登陆功能,实现了对于某些需要授权进行访问的网页的采集。

联系埃帕
上海埃帕信息科技有限公司
021-33848989
021-33848989 转 818
contact@ape-tech.com
上海市浦东新区东方路2981号东方金融园4C

地址:上海市浦东新区东方路2981号东方金融园4C

版权所有 © 2010 上海埃帕信息科技有限公司

TEL:021-33848989 FAX:021-33848989 转 818

E-mail:contact@ape-tech.com http://www.ape-tech.com