中介层
中介层(Mediation Layer)的主要功能有两方面:一方面对上接受用户通过DOM客户端API向系统提交的或应用程序发出的查询,将其转换成对XML的查询,并将查询结果返回给用户或应用程序;另一方面对下将XML查询分发给各个包装器,并将查询结果通过DTD说明再转换成XML格式。
用户接口层
用户接口层(User Interface Layer)在中介层之上,负责将用户的查询命令提交给中介层,获得并解释查询结果树,并将结果显示给用户。XML DOM(Document Object Model,文档对象模型)是为合法的格式良好的XML文档设计的一套API(Application Programming Interface,应用程序接口),它同时定义了这些文档的逻辑结构,访问及操作方法。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理的表现出来。本地的数据能够以客户配置,使用者选择或其他标准决定的方式动态的表现出来。CSS和XSL为数据的显示提供了公布的机制。
整个系统位于异构数据源和应用程序之间,向下协调各种数据源,向上为访问集成数据的应用提供了统一的模式和访问的通用接口。系统为异构数据源提供高层次的检索服务。
3、基于XML的信息集成的工作过程
下面以用户的一个信息查询为例,简要说明一下信息系统的工作过程:
用户通过DOM向系统提交信息查询命令;
虚拟集中存储器区分各个XML查询命令,并且将其发送到适当的Wrapper包装器上;
Wrapper包装器负责将XML查询转换成本地数据源能识别的语言,并在数据源中进行查询;
查询结果根据DTD说明在转换成XML格式并返回给虚拟集中存储器由虚拟集中存储器返回给DOM;
通过DOM对XML文档的处理,结合XSL技术将查询结果显示给用户。
4、基于XML的信息集成系统的设计
根据基于XML的信息集成的层次结构,下面给出包装器Wrapper组件的设计。
包装器Wrapper组件的设计
信息抽取层的Wrapper组件由两部分组成:Wrapper生成器和Wrapper实例(简称Wrapper)。如图4所示,一个Wrapper位于中介层和一个数据源的中间,它通常为中介层查询异构信息源集合提供一个公共接口。每个Wrapper都要为某个特定的数据源制定相应的接口,这个功能是由Wrapper生成器完成的。

图4 Wrapper生成器和Wrapper
Wrapper生成器用于为查询某个确定的站点或站点集合构建Wrapper.Wrapper的输入是用一种Wrapper规范语言书写的规格说明,包括关于将要为之生成的Wrapper的数据源的元信息,该元信息描述了如何从一个数据源请求服务以及如何抽取和解释从数据源返回的信息。规格说明还必须能够表达以下内容:数据源接口、数据模型、从用户到数据源本地操作的查询映射、数据源的查询能力。通常为一个数据源生成一个有效的Wrapper所必须的信息是使用DTD来描述的。Wrapper生成器的输出是一个可以执行的 Wrapper,该Wrapper能够接受由Wrapper规范语言定义的查询。
下面以数据库为例,给出对应的Wrapper相应的DTD:
数据库
一个关系Wrapper能决定关系模型和DOM对象数据模型之间的映射。关系表的数据模式可以用三层来表示,即表——记录——字段,因此可以很容易采用DTD来描述数据库中关系表的数据模式。
下面以两个关系表Trait(PersonID, Name,BirthDate,Address,IdentifyId) 及 Treatment(TreatID,Drugname,TreatNote,PersonID)为例,他们与XML DTD之间的映射如下:
/*个人特性*/ |
在XML文档与数据库进行双向转化的过程中,除去最上层的根节点外,元素节点对应数据库中的表,属性和元素的类型对应表中的列,若一个元素节点为另一个元素节点的子节点,则用数据库中的主码和外部码建立表之间的关系。在上面的例子中,元素节点Trait和Treatment对应数据库中的表,而PersonID,Name等对应表中的列。由于节点Treatment为节点Trait的子节点,因此用PersonID与Trait建立关联。
DOM客户端API的设计
DOM全称是Document Object Model,是一个文件对象所组成的模型。它不光用于XML,最早是用于HTML的。DOM定义了一组分析元可以显示的标准指令集,通过程序存取HTML或XML的内容,然后通过程序中的对象集合将其显示出来。
我们可以通过创建Document对象,使得应用程序得到对XML文档进行操作的入口。进一步通过直接加载XML文档把创建的这个文档对象同实际的XML文档关联起来。从而将XML文档转换成一个DOM对象模型,为上层提供访问服务。
下面的例子结合VBScript和XML DOM对象来生成XML数据:
<SCRIPT LANGUAGE=VBScript> |
总结
Web环境下的异构数据源的集成,特别是基于XML的数据集成问题已经成为当前计算机领域中一个重要的研究方向。XML具有简单、开放、可扩展性、灵活、自描述性等特点,给Internet注入了新的活力。作为数据表示的一个开放标准,XML为数据集成带来了新的机遇。用XML作为数据交换的中介,给系统的实现带来了极大的灵活性。系统可以屏蔽掉后台的多种数据源,用统一的XML格式的数据呈现给用户。接收数据方根据XML数据的DTD可以对数据进行任意的处理,如分解出其中需要处理的数据或是以不同的样式来显示。通过本系统,可以实现散布在Web上的异构数据源中的数据的无缝集成。

