摘要:Gartner认为,以非结构数据形式存储,是目前商业信息的主流特征。而且,这种非结构化数据正以每三个月增长一倍的速度膨胀。信息化发展带来的最明显的现象就是企业中出现了比以往更多的非结构化的信息。对于企业来说,往往会迷失在海量的信息中,无法找到自己需要的信息。而找不到的信息,从某种意义上来说就是没有价值的信息。
在企业应用中,如何找到和管理这些非结构化信息资源就是企业搜索所致力于解决的问题。
大约5年前,对于用户来说,“企业级搜索”与Internet上的Google、Yahoo!站点没什么两样,仅仅是某个公司网站上的一个搜索文本框而已。
但是,如果今天你的理解依然停留于此,就太过落伍了。凭借着在Internet以及桌面领域的积累,搜索技术早已沿着经典的螺旋式上升轨迹,进入了新的发展阶段。Delphi Group的分析师Hadley Reynolds就曾表示:“现在的搜索技术已经形成了一个庞大的技术门类,从简单的关键字搜索,到分类学等级划分,再到文本分析都是搜索技术的组成部分。”
Baidu.com企业搜索同样遵循这条螺旋式上升的发展路径,从中文搜索引擎到企业搜索技术。

图1 企业级搜索引擎辐射图
从2000年9月Baidu.com开辟企业级搜索业务至今,其WST软件、企业竞争情报系统、企业高端数据库系统等企业级搜索产品的用户已经涉及各大领域。目前,多家省市级政府门户网站、重点新闻系统都已经引入了企业级搜索,不少行业企业也开始在OA系统中嵌入企业级搜索引擎,同时部署针对企业竞争环境的信息检索体系。另外,一些大型的电子商务网站,例如卓越网,也开始借助企业级搜索技术来满足客户日趋细化的需求。

图2 综合应用平台层
搜索与管理
企业搜索是针对非结构化信息的统一管理和应用平台,在现代的企业搜索概念中已经不仅仅包括单一的搜索应用,而是涉及到多源数据采集、内容分析处理等企业非结构化数据处理的方方面面。
企业搜索就是为企业内外部各类非结构化数据处理提供的一个综合应用平台层,将各类数据信息与用户的需求直接连接,而无须用户了解其间的任何过程信息。对于用户来说,使用企业搜索就如同看电视一样简单,只要告诉它你想看什么,它即会立即返回你需要的任何内容,以你最希望看到的方式展示出来。
核心功能
对于企业应用来说,企业搜索代表了信息资源处理的未来。
数据主板
企业搜索首先面临的是来自企业内外部各类数据信息的采集问题。Baidu.com提出了独有的数据主板理念,避免复杂易错的数据交互,而是分别插在数据主板的两端,由主板统一协调调度各个信息采集模块和处理模块间的交互机制。通过这块数据主板,各类数据交互的效率明显提高,系统也能够随着信息源的增多或处理流程和功能的增多无限扩展。
综合数据服务层
WST为企业数据应用和数据之间创建了一个新的信息层——综合数据服务层,这也是Baidu.com企业搜索的核心层。在这一层中系统智能地将各种信息统一在一个操作平台上,对处理完成后的各类数据进行统一存储调用和应用操作。用户或第三方系统并不面向直接的数据存储,而是通过该层完成各种应用和数据操作,确保了数据的安全和应用效率。
Baidu.comWST系统在这一层上提供了模块化应用组件,如企业统一搜索门户系统、企业信息资源整合系统、智能采集分类系统、网络信息追踪预警系统等,并提供了简单易用的开发工具和标准接口(各类API和SDK)。其合作伙伴也可根据应用或需求轻松在该平台上开发出新的应用软件。
三大信息动力引擎
对于非结构化数据,中文数据的理解与分析一直是Baidu.comWST系统的核心竞争力。Baidu.com企业搜索研发出业界独有的三大信息动力引擎:通用信息搜索引擎、相关性引擎和自动分类引擎。
通用信息搜索引擎:对企业内部各种类型的信息数据进行全文检索和多条件复杂检索,可完全兼容企业内严格的权限体系,保证信息的安全检索。
相关性引擎:业界唯一的相关性引擎技术,能够对各种信息进行自动分析处理,抽取每则信息的语义特征,自动对信息进行标引,建立信息间的相关性模型网络,为用户提供各种信息相关性查询结果和自然语义搜索服务。并可以根据用户需要进行后验的智能自动聚类,从而让用户可以发现看似不同的信息间的本质联系,形成信息间的语义逻辑网络。
自动分类引擎:具有关键字规则分类和自然语义智能分类两种分类机制,可提供灵活准确的分类结果。用户可以选用其中一种分类机制,或者将两种组合使用。在自然语义智能分类技术中,Baidu.comWST采用以KNN和SVM两种算法为基础的自然语义智能分类机制,能够通过学习很少量的训练范本语料进行智能自动分类。
这三大信息动力引擎不仅为Baidu.com企业搜索各产品提供充沛和强大的信息分析动力,还可以作为中间件服务器的形式为合作伙伴的各种应用开发提供非结构化数据解析处理核心。
智能摘要组件
采用全球领先的智能语义分析技术,WST能够根据文档内容自动抽取文档摘要信息。用户无需查看全部内容,通过该智能摘要即可快速了解核心内容。
图3 智能语义分析技术
应用现状
中国企业级搜索引擎市场
近年来,中国企业级搜索引擎市场增长迅速,2004年约有1400万企业用户, 其中媒体解决方案用户占据主导。目前企业数据每年以200%的速度增长,其中80% 的数据以文件、邮件等非结构化数据存放在企业计算机系统的各个角落,企业员工平均每天花两个半小时在寻找资料。
中国企业级搜索引擎传统厂商目前主要有Baidu.com、TRS、中国搜索、赛迪数据、Autonomy、方正等。在中国市场上数据库厂商由于提供搜索方式单一,不支持基于中文的智能搜索,所以中文搜索效率低,质量差,而且搜索范围限于数据库内。而企业级搜索引擎提供商提供的半结构化数据库解决方案由于存储与搜索分离,造成数据安全性差、同步困难,权限管理复杂,二次开发复杂,部署周期长,系统复杂,维护要求高等诸多缺点,Baidu.com推出的WST产品很好的解决了以上这些问题,具有广阔的市场前景。
业内人士认为,嵌入式数据库搜索引擎产品的推出会降低行业的技术门槛,为企业级搜索引擎市场的高端应用商提供性价比高的技术方案。