酷灵输入法 | 关于我们
 
 
   
通用爬虫
首页 > 功能 > 通用爬虫
  企业信息化系统中往往存在各类异构数据源,这些数据源中的信息多种多样,往往会包含结构化数据、半结构数据以及非结构化数据在内的多种格式。通用爬虫能够整合这些数据源中以不同方式保存的信息。
数据多样
目前支持的数据源有
● 关系型数据库  ● 文档数据库  ● 本地文件系统  ● 网络文件系统  ● Web服务器  ● FTP服务器
完全可配置
  Cooling Search 自带图形化配置工具。可以新建搜索,新建索引组,并对索引和索引组进行管理,可以对索引组选择运行时间,并且查看和下载日志。随时随地监控整个系统的运行过程。
新建索引组中的步骤
新建索引中的步骤
 
支持的格式
  Cooling Search 支持多种关系型数据库、文档、传输协议和编码方式。下表为 Cooling Search 目前所支持的文档格式,传输协议和编码方式。
序号 属性名 描述
1 文档格式 html、htm、asp、jsp、php、pdf、doc、xsl、txt、ppt、不带文件后缀名、xml、aspx、rar、zip、tar、tar.gz、gz
2 传输协议 http、ftp、file只访问本地文件
3 关系型数据库 Oracle、MySql、SqlServer
4 编码方式 ASCII, ISO-8859-{1,2,3,4,5,7,9,10,13,14,15,16}, KOI8-R, KOI8-U, KOI8-RU, CP{1250,1251,1252,1253,1254,1257}, CP{850,866,1131}, Mac{Roman,CentralEurope,Iceland,Croatian,Romania}, Mac{Cyrillic,Ukraine,Greek,Turkish}, Macintosh
ISO-8859-{6,8}, CP{1255,1256}, CP862, Mac{Hebrew,Arabic}, EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP, ISO-2022-JP-2, ISO-2022-JP-1, EUC-CN, HZ, GBK, CP936, GB18030, EUC-TW, BIG5, CP950, BIG5-HKSCS, BIG5-HKSCS:2001, BIG5-HKSCS:1999, ISO-2022-CN, ISO-2022-CN-EXT, EUC-KR, CP949, ISO-2022-KR, JOHAB,ARMSCII-8,Georgian-Academy, Georgian-PS, KOI8-T, PT154, RK1048, ISO-8859-11, TIS-620, CP874, MacThai,MuleLao-1, CP1133,VISCII, TCVN, CP1258,HP-ROMAN8, NEXTSTEP, UTF-8
  UCS-2, UCS-2BE, UCS-2LE
  UCS-4, UCS-4BE, UCS-4LE
  UTF-16, UTF-16BE, UTF-16LE
  UTF-32, UTF-32BE, UTF-32LE
  UTF-7
C99, JAVA ,UCS-2-INTERNAL, UCS-4-INTERNAL,CP{437,737,775,852,853,855,857,858,860,861,863,865,869,1125},CP864,EUC-JISX0213, Shift_JISX0213, ISO-2022-JP-3,BIG5-2003 (experimental), TDS565,ATARIST, RISCOS-LATIN1)
地址:上海市浦东新区峨山路77号金牛大厦12楼
TEL:021-33848989 FAX:021-33848989 转 818 E-mail:contact@ape-tech.com http://www.ape-tech.com
版权所有 © 2010 上海埃帕信息科技有限公司