首页 案例分析 企业信息聚合与搜索案例 上海日报新闻采集推送平台
上海日报新闻采集推送平台
用户简介

上海日报诞生于1999年10月1日,是中国第一份地方性英文报纸,并由国内最大的报业集团文汇新闻联合报业集团出版发行。目前是上海地区最具影响力的英文大报,在中国经济发展活跃的长三角地区和华东地区和华东地区都有深远的辐射力。《上海日报》是一张将敏锐的新闻视角、成熟的新闻价值、打起的办报风格和完善的服务咨询完美结合的英文大报,目前日刊,每期48页,有效发行量110.000份。

项目背景

上海日报的服务对象主要是在上海工作和生活的外籍人士和每年两百多万的 入境客人,但其实际读者中约一半为国内高级白领和专业人士。上海日报每周一至周六出版,每天20个版面,包括城市新闻,国内新闻,国际新闻,体育新闻,商业报道及特色版面。目标读者也包括8万旅居中国的外籍人士,每年2百万海外旅游者,以及大量的中国专业读者。如此多的新闻类别,如此专业的阅读人群,导致上海日报必须将新闻的类别定的十分细致,如此才能满足行业专业领域阅读者的阅读需求。所以日报的编辑们急需一套能够把互联网中需要的新闻采集过来然后根据特定的规则自动分好类以便于他们每天在工作中能够及时的把有用的新闻放入到新闻板块中,这样能大大降低编辑们的工作量。

项目简介

建立以支撑用户订阅业务为首要目的的运营平台,系统将能够通过多种新闻源,融汇整合分类各类新闻,构建完整的新闻库。便捷高效地为用户提供齐全的服务,充分体现个性化服务的特色。

系统主要功能如下:

用户管理

用户可以通过注册登录并且可以根据自己的喜欢设定想看的分类新闻和指定的关键词的新闻。用户还可以通过订阅的方法把自己来获取想要的新闻。

分类管理

管理各个分类的种类、属性,各个分类之间的级别关系。管理各个分类之间的层次关系等信息。并配合当前时事进行分类的管理。

数据采集

新闻采集模块是整个新闻系统的数据入口,各种新闻、图片、文档等的采集录入都通过此模块完成,采集的源头包括:SHD、路透、新华、AP、Bloomberg等。采集的内容包括文章标题、文章内容、图片等。采集手段是否完善对整个系统能否成功起着非常重要的作用。知识采集录入的方式多样,可在网络接口程序从其他系统中获取采集数据,也可以而直接从本地上传文件,支持xml、dbf、mdb、xls、txt等格式文件的导入。

数据接口获取

用户可以在这个模块中设置新闻采集的信息、规格、关键字等信息来搜索新闻,当用户输入若干信息后,系统通过网络接口程序按照用户规定的格式搜索出需要的新闻。并提供自动导入条件,导出结果列表功能。采集的源头包括:SHD、路透、新华、AP、Bloomberg等。采集的内容包括文章标题、文章内容、图片等

系统提供与各业务系统的接口,为这些系统提供文件归档的接口,并能与业务系统进行无缝集成,以保证为各个相关系统产生的数据自动导入到新闻平台。具体实现时,需要各系统开发商协调配合。

对于接收到的文件,管理员可以在系统中对其进行浏览访问,也可以对其进行增删,或者进行要素编辑。接收到的文件一般都放在临时库中,通过管理员的添加后,方可以进行正式发布,形成新闻标题,放在浏览库中。

新闻分类

将原本的大类例如:经济,体育等细化成更小的单元,例如:微观经济,宏观经济等。使用户搜索到的内容更符合自己的理想标准。Cooling搜索根据上海日报的客户对行业细致化的要求。将经济分成29个小行业,体育分成32个小分类,另外还有旅游,天气,科技这些细小分类12个。如此一来,用户可以随心所欲的订阅他们想要了解的个性化新闻。并且新入的新闻会进行数据分检

当新闻采集模块收集若干新闻后,就需要数据分检模块对这些新闻进行分检。分检前可以设置条件。可以设置分类、标题、作者、时间、内容、关键字、来源等信息的自动识别。

  • 可对采集的网页进行基于内容的自动分类,不需人工干预。
  • 基于统计学原理设计,通过在大量语料库上的机器自动学习方法生成分类模板,采用先进的支持向量机和相似性检索相结合的分类方法。
  • 自动分类准确率达到85%以上。
  • 提供智能分类训练工具,可根据用户提供的分类语料库进行学习,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板。
  • 支持多级分类。包括提供支持多级分类的分类训练器,以及对网页实施多级分类操作。
  • 支持中英文混合检索,中文实现按词检索。
  • 提供二次检索功能。

信息推送

爬虫每天从上海日报定制的信息源中爬取当日的全部信息,经过系统的分析将海量的新闻划入准确的分类中。日日更新事实推送。读者就可以阅读到当天最新的新闻信息。

APE优势与价值

APE通过自身的产品帮助上海日报获取到更多的新闻量并且根据日报的需求把所有的新闻准确归类使得上海日报在新闻获取上更加简便,大大降低了日报工作人员的工作量并提升了工作效率

新闻自动采集

酷灵搜索的spider(网络爬虫) 可以从互联网抓取海量的信息,并且提供非结构化信息的有效存储。酷灵搜索支持多种信息源,包括:互联网,关系型数据库,定制信息源等。用户可以指定信息源,系统会自动实时进行信息采集。为了更准确地将新闻分类就必须扩大机器学习量,让机器"见多识广"。机器就像一个孩子,认知的越多分类也就越准确。所以,酷灵搜索的spider提供千万级的互联网信息抓取和存储。

新闻自动分类

机器通过自动学习样本文章,建立知识模型。酷灵搜索根据上海日报的定制,创建了包含76个行业分类的行业库,用户可依据个人喜好或根据行业需要,定制分类信息。机器从 大量信息中,通过语义级搜索,真正有价值的信息并对获得的信息按照Cooling自己的行业目录进行自动分类。酷灵搜索独有的自定义数据挖掘模型,分析用户行为与各类信息,按照用户需求的变动,不断完善行业目录,使分类更符合用户的实际需要。

相关资料查询

往往一则信息很难全面的覆盖新闻的方方面面。举例来说,一个用户看到一篇新闻报道"世博园区80%已经建设完毕"之后还想了解关于世博的更多信息,比如:2010世博召开所在的具体地址,世博的历史等等。酷灵搜索考虑到用户深层需求,在保证新闻分类的准确性的同时提供给用户相关资料查询功能,为用户搜索出与新闻相关的信息,为用户提供更多有用的信息,使搜索变得更方便。

联系埃帕
上海埃帕信息科技有限公司
021-33848989
021-33848989 转 818
contact@ape-tech.com
上海市浦东新区东方路2981号东方金融园4C

地址:上海市浦东新区东方路2981号东方金融园4C

版权所有 © 2010 上海埃帕信息科技有限公司

TEL:021-33848989 FAX:021-33848989 转 818

E-mail:contact@ape-tech.com http://www.ape-tech.com