8月22日,IBM宣布了通过开源资源提供其非结构化信息管理架构(UIMA)的计划,这种技术支持的全新软件应用主要用来处理文档和其它内容源中的文本信息,目的在于帮助深入了解内容的潜在含义、相互关系及其相关事实。
企业内部和网络上的 “非结构化”信息呈“爆炸之势”,其形式多样,包括文档、图像、注释和注释字段、电子邮件、甚至如视频和音频这样的多媒体等多种样式。然而,支持
软件搜索和识别不同格式数据的技术至今尚未出现。针对这一矛盾,UIMA提供了一种具有标准界面的开放软件框架,以便为任何应用添加非结构化的信息分析能力。这样,客户就能方便地跨数个不同供应商将分析软件工具与端到端的企业应用进行集成。同时,UIMA还提供了各种工具,来加速创建可重新使用的全新分析软件构件,以更好地处理非结构化信息。
UIMA倾注了IBM研究中心四年多的心血,同时也得到了美国国防部中央研究和开发机构国防高级研究计划署(DARPA)的大力支持。为此,DARPA和IBM专门成立了一个由经验丰富的研究人员组成的工作组,以便他们将其非结构化信息管理方面的专业知识贡献给UIMA的进化。
DARPA信息处理技术办公室主任Ronald J. Brachman博士表示:“DARPA始终对那些支持大量人员充分发挥其工作效益的计算基础设施兴趣甚浓。例如,您可以看一下ARPANet和互联网,它们都源自我们办公室。而这样的解决方案只需政府投入少量的资金,就能产生巨大的倍增效应。因此,我们看到了UIMA集中大规模研究团体并大幅度提高其工作效率的潜力。令人高兴的是,我们看到了工作组成员的巨大工作热情和支持力度。特别是,一旦拥有了能够安装文本分析构件的开放源代码框架,将帮助我们为国内的安全团体提供更加先进的解决方案。”
对UIMA做出贡献的机构还包括数家知名大学和某些行业研发机构。其中,一些参加研发工作的大学,如卡内基梅隆大学、哥伦比亚大学、斯坦福大学和麻省安默斯特分校都已经开始采用UIMA开展教学和研究活动。其它正在积极支持和采用UIMA的机构包括科技应用国际公司、BBN科技公司、梅约门诊和MITRE公司。另外,更有超过15家软件供应商今天宣布将以商业化形式广泛采用UIMA。
IBM中国软件开发中心总经理郑妙勤女士指出:“UIMA首次提供了不同知识发现、搜索、商业智能和文本分析软件之间的真正互操作能力,这一创新技术将帮助企业提供具有突破性的解决方案,使其能够采用全新和先进的方法充分利用非结构化信息。”
高级知识发现和商业智能应用能够充分利用UIMA技术,归并先前难以深入理解和充分利用的信息。而且,UIMA能够为开发和提供自然语言处理解决方案提供通用处理机制,以支持更加广泛的企业搜索应用。UIMA能够帮助计算机跨各种人们可用的信息资源进行理解和推理。最终,UIMA将使计算机能够提取更深层次的信息含义,包括定义特定事实之间的相互关系。
目前,UIMA框架已经嵌入了IBM产品中,其中包括第一款基于UIMA标准处理内容的商用软件平台IBM WebSphere Information Integrator OminFind版,以及采用UIMA进行内容处理的IBM WebSphere Portal Server和Lotus Work Place。
UIMA技术即将被提交到开放源代码技术小组,SourceForge网站预期将于2005年底公布其源代码。目前,您可以免费从IBM AlphaWorks网站下载UIMA框架,网址为:alphaworks.ibm.com/tech/uima。