语义Web浅析
语义Web的研究与展望
一、引言
万维网该改变了人们彼此交流的方式和商业运作的方式。随着万维网的飞速发展和广泛应用,其缺陷也逐渐暴露出来。如搜索引擎智能程度低,搜索出来的结果往往不是用户真正需要的,检索结果是单一的网页等等。互联网的创始人Tim Berners-Lee于2000年12月18日在XML2000会议上正式提出语义Web。语义Web的目标是使得Web上的信息具有计算机可理解的语义,满足智能软件代理对万维网上异构和分布式信息的有效访问和搜索。语义Web不是另外一个Web,它是现有Web的延伸,其中信息被赋予了良定义[1]。
鉴于语义Web的研究价值,国外很多大学、研究机构、大公司都成立了专门的项目组来推动这项技术的发展,W3C组织也成立了专门的工作组来推动语义Web技术的发展。当前语义Web作为信息技术的一个热点,得到了研究者们极大的关注,也得到了许多政府、科研机构以及商业部门的投入,近年来必将达到较大发展。
二、语义网的层次模型
Tim Berners-Lee在2000年提出了最初的语义Web层次模型。进年来,随着语义Web技术的不断发展,该模型被不断细化和扩展,在2006年给出了新的语义Web的层次模型,如图1 [Berners-Lee et al.,2006] [1]所示。
图1 语义Web的层次模型[Berners-Lee et al.,2006]
UNICODE和URI层:UNICODE和URI是语义Web的基础。其中UNICODE(统一资源编码)处理资源的编码,保证使用的是国际通用字符集,以实现语义Web的统一编码。URI是统一资源定位器(URL)的超集,支持语义Web的对象和资源的标识;
XML和命名空间层:用于表示数据的内容和结构;
RDF和RDFS层:用于描述Web上资源及其类型;
本体层:本体层用于描述各种资源之间的联系,采用OWL表示。本体(ontology)揭示了资源以及资源之间复杂和丰富的语义信息,将信息结构和内容分离,对信息做完全形式化的描述,使Web信息具有计算机可理解的语义。
逻辑层:逻辑层主要用于提供公理和推理规则,为智能推理提供基础。可以进一步增强本体语言的表达能力,并允许创作特定领域和应用的描述性知识。
证明层:证明层设计实际的演绎过程以及利用Web语言表示证据,对证据进行验证等。证明注重于提供认证机制,证明层执行逻辑层的规则,并结合信任层的应用机制来评判是否能够信任给定的证明。
信任层:信任层提供信任机制,保证用户Agent在Web上提供个性化服务,以及彼此之间安全可靠的交互,基于可信Agent和其他认证机构,通过使用数字签名和其他知识才能构建信任层。当Agent的操作时安全的,而且用户信任Agent的操作及其提供的服务时,语义Web才能充分发挥其价值。
在Tim Berners-Lee的语义网模型中,作为语法层的XML层,作为数据层的RDF层和作为语义层的Ontology层是语义Web的关键层,用于Web信息的语义,也是现在语义Web研究的热点所在。
因此,语义网的实现需要3大关键技术支持:XML、RDF和Ontology。
三、语义Web关键技术与研究现状
1、XML
XML(可扩展标识语言extensible markup language),其目标是改变Web的基本结构,超越HTML并代之以更强大、更具有扩展性的体系结构,他可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文档的结构可以复杂到任何程度。XML不仅提供对资源内容的标识,也提供资源所具有的结构信息。但仅有XML是不够的,需要提供描述XML资源的元数据,也就是对所描述对象结构或内容所作的规范说明。
1.1、XML简介
XML实在SGML、HTML的基础上发展而来的。首先,XML是一种元标记语言,即开发者可以根据自己的需要定义任何满足XML命名规则的名称作为自己的标记,新创建的标记可在文档类型定义(DTD)中加以描述。另外XML还是一种语义结构化语言,它描述了文档的结构和语义,用户可以很方便地定义自己领域的专用标记,文档的结构也可以是任意的。
1.2、XML文档结构
定义XML文档格式有两种方法:
(1)使用DTD(Document type definition,文档类型定义):DTD允许指定XML文档的基本结构。可以定义XML文档中出现的元素。这些元素出现的次序、它们可以如何相互嵌套以及XML文档结构的其他详细信息。
(2)使用XMLS(XML Schema,XML模式):XMLS可以定义能在DTD中使用的所有文档结构,它还可以定义数据类型和比DTD更复杂的规则。Shema用XML的语法定义XML文档结构,因此易于理解。
1.3、XML的局限性
尽管XML的灵活性使得用户可以快速、容易地描述任意的内容,但由于XML并不能解释它所标记的含义,它不提供任何表示数据语义的手段。例如,XML中的标签嵌套没有预定的含义,大多数处理应用要求这些标记集合能够满足某种标准或者双方的约定。
为实现XML文档的解释或者转换,用户必须将这些语义编码到工具中,而将数据的最终解释留给了特定的应用。不仅如此,由于XML模式只能对XML的语法合法性进行验证,而不能区分XML属性和元素在含义上的不同,因此对同样的信息内容,我们可以将其映射为多种不同的XML结构。例如要表示下述事实:
David Billington讲授离散数学课程。
使用XML,可以得到多种表达方式,以下三种均有可能。
<course name=”离散数学”> <lecturer>David Billington</lecturer> </course> |
<lecturer name=”David Billington”> <teaches>离散数学</teaches> </lecturer> |
<teachingOffering> <lecturer>David Billington</lecturer> <course>离散数学</course> </ teachingOffering> |
这种数据表达的不唯一性意味着,相同的XML文档存在多种不同的解释,而相同的应用也可能对不同的XML作出同样的解释。这种解释上的多对多关系,使得我们在交换XML文档之前,必须对其所使用到的标记的名称、组织格式和含义进行约定,任何对该XML文档的单方面扩展都可能会给数据交换过程带来更多的麻烦,甚至导致失败。然而,这种通过约定来实现信息共享的方式只适用于两两之间的信息交换,却不能满足Web上多个用户或团体大范围的信息共享。假设我们要集成n个应用所产生的XML信息,即便是要集成部分的含义完全一致,但由于它们来自不同的应用,各自的XML模式描述很可能存在着不同(既包括标记命名的不同也包括结构组织上的不一致),所以我们仍然不得不做大量的模式之间的转换,而目的只是为了保证它们在语法的描述结果上保持一致。当然我们可以通过采用一个统一的全局的XML模式来描述所有相关的XML信息,但这显然是不现实的,即便是在一个企业内部,我们也很难建立一个稳定的标准化的企业数据表示模式。
2、RDF
XML所存在的问题是由于XML不具备语义描述的能力。为此,W3C推荐以RDF(rescource description framework,资源描述框架)标准来解决XML语义局限。RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性和易综合等特点。通常同于表达元数据、描述其他Web资源,如XML文件,这些描述包含需要计算机理解的数据,RDF增加语义到文档中而不用假定文档的结构。RDF的目标是为Web资源描述提供一种通用框架,它以一种机器可理解的方式被表示出来,可以方便地进行数据交换,RDF提供了Web数据集成的元数据解决方案。
(1)RDF基本思想
RDF数据模型包括三个基本组成部分:资源(能通过URI引用的任何事物)、属性(被描述资源的特性)和陈述(包括引用资源的指针以及该资源属性和属性值的表达式)。RDF语言主要功能特征所描述的内容包括:
a.Resource:一类特定的信息条目,通常是一个Web站点;资源通常以URL进行标识;
b.Class/Subclass:资源可以被分类,每个类以下都可以有许多小的下位类,由此形成了一个完整的分类系统;
c.Property:连接两个相关资源;
d.Domain/Range:一个Property中的两个资源可以受到限定,一个目标域以及目的文件范围会受到一个特定类的限制;
e.Container:资源集合可组织在Container中。Container包括:“集”元素的“次序”按一定的顺序排列及“其他的选择”。
(2)、RDF Schema
RDF和XML之间的关系非常紧密,事实上,它们之间是互补的:RDF的作用之一是以一种标准化得。具有互操作性的方式来规范XML的语义。RDF Schema是基于XML对RDF的一种实现,它使用一种机器可以理解的体系来定义描述资源的词汇,其功能就像一个字典,可以将其理解为大纲或规范。RDF Schema的作用是:①定义资源及其属性的类别;②定义属性所应用的资源类以及属性值的类型;③定义上述类别声明的语法;④申明一些有其他机构或组织定义的元数据标准的属性类。
XML文档可以通过简单的方式实现对RDF的引用。如图2所示:
<?xml version="1.0"?> <Description xmlns="" about="" s:Author =""/> |
图2 XML对RDF的引用实例
借助RDF,表达同一事实的XML描述就可以转化为统一的RDF称述。上述表述“David Billington讲授离散数学课程”可以表示为RDF模型。如图3所示:
图3:RDF模型
通过在XML中引用RDF,可以将XML的解析过程与解释过程相结合。也就是说,RDF可以帮助解析器在阅读XML的同时,获得XML所要表达的主题和对象,并可以根据它们的关系进行推理,从而做出基于语义的判断。XML的使用可以提高Web数据基于关键词检索的精度,而RDF与XML的结合则可以将Web数据基于关键词的检索更容易地推进到基于对象的检索。其次,由于RDF是以一种建模的方式来描述数据语义的,这使得RDF可以不受具体语法表示的限制。但是RDF仍然需要一种合适的语法格式来实现RDF在Web上的应用。虽然RDF既可以用Notation3来表示,也可以用XML来表示。但是,由于XML已经成为被广泛支持的Web数据表示标准,便于应用的读取,因此将RDF序列化为XML表示可以使RDF获得更好的应用可处理特性,并使得RDF数据可以像XML数据一样的容易使用、传输和存储。
(3)RDF的局限性:
与XML中的标记(tags)类似,RDF中的属性(properties)集也是没有任何限制的。也就是说我们既可以
<rdf:Description about=; <s:Creator>张三</s:Creator> </rdf:Description> |
也可以用
<rdf:Description about=; <s:Author>张三</s: Author > </rdf:Description> |
来表示某个作品的创作者。这就是我们通常所说的同义词现象,即同一个概念可以以不同的词汇来描述。在实际应用中这个词汇并不一定要和词典中的词汇有一定的对应关系,例如英文语法中常见的缩写就属于此种情况。与同义词现象相对应的另一个问题就是一词多意,即同一个词汇在不同的应用背景下可以表示不同的意思。RDF的模型不具备解决这两个问题的能力,而RDF Schema虽然可以为RDF资源的的属性和类型提供词汇表,但是基于RDF的数据语义描述仍然可能存在语义冲突。为了消解语义冲突,我们在描述数据语义的时候可以通过引用Ontology的相关技术,对语义描述结果作进一步的约束。
3、Ontology
本体的概念最初来源于哲学领域,称为本体论、实体论或存在论,是“对世界上客观存在物的系统地描述”。一个本体描述了一个特定研究领域的一个形式化的、共享的概念化模型。具体体现了四个方面的含义:概念化、明确、形式化以及共享。概念化(conceptualization)是指客观世界现象的抽象模型;明确(explicit)是指所使用的概念的类型以及对这些概念使用上的约束都有了明确的定义;形式化(formal)是指精确的数学描述;共享(share)是指本体中反映的知识是其使用者共同认可的。
(1)Ontology的基本组成元素
虽然本体有多种表述,但通常都体现了它的必要条件,Ontology作为知识组织的重要手段应该具有以下要素:
a. 概念(Concept):概念在本体中扮演着非常重要的角色,是人类对现实世界理解的表意符号、是机器操作的主要对象、是数学模型主要的构成元素。本体中,概念又称为类(Class),是相似术语所表达的概念的集合体。
b. 关系(Relation):表示概念之间的联系。如概念之间的二元关系is-a,它形成了概念之间的逻辑层次分类结构。
c. 属性(Property):属性是区分类的标准、具有继承性、具有限制类中的概念和实例的功能。一个属性必须具有相应的属性值,在概念层上没有属性值。
d. 公理(Axiom):即公认的事实,其作用是进行知识推理。
e. 函数(Function):即关系的特定表达形式。函数中规定的映射关系,可以使得推理从一个概念指向另一个概念。
f. 实例(Individul):是本体中的最小的对象。它具有原子性,即不可再分性。类包含实例,而每个实例都有不属于其它实例的属性,这是区分不同实例的唯一标识。
(2) Ontology的分类
目前关于Ontology的研究非常广泛,针对目前各种各样对本体的应用研究,也出现了不同的分类标准,比较有代表性的有以下三种:
1) 根据本体的形式化程度不同,可以把Ontology分为以下四种:
a. 高度非形式化Ontology:指完全采用自然语言进行表示的,如术语列表。
b. 结构非形式化Ontology:指采用结构化的或受限的自然语言进行表示的,其能有效提高Ontology的清晰度,减少二义性。
c. 半形式化Ontology:指采用一种人工定义的形式化语言进行表示的。
d. 严格形式化Ontology:指具有详细的概念项定义、语义关系的形式化定义以及稳固和完整的公理和证明。
2) 根据Ontology的概念主题一般可分为以下五种:
a. 领域Ontology:提供了领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理等。如企业Ontology、医学概念Ontology、生物学Ontology等。
b. 通用Ontology:关注于常识知识的使用。如Cyc公司的Cyc等。
c. 知识Ontology:其研究重点是语言对知识的表达能力,典型的有斯坦福大学知识系统实验室提供的一种称为知识交换格式KIF(Knowledge Interchange Format)的知识描述语言,以及可以在线将各种知识转换为KIF的Ontology服务器。
d. 表示Ontology:是指关于语言、词汇等的Ontology,典型的实例有GUM(Generalized Upper Model)和普林斯顿大学研制的WordNet。
e. 任务Ontology:主要研究可共享的问题求解方法,其研究主题主要包括:通用任务、与任务相关的体系结构、任务方法结构、推理结构和任务结构等。
3) 根据依赖程度则可分为以下四种:
语义Web浅析
语义Web的研究与展望
一、引言
万维网该改变了人们彼此交流的方式和商业运作的方式。随着万维网的飞速发展和广泛应用,其缺陷也逐渐暴露出来。如搜索引擎智能程度低,搜索出来的结果往往不是用户真正需要的,检索结果是单一的网页等等。互联网的创始人Tim Berners-Lee于2000年12月18日在XML2000会议上正式提出语义Web。语义Web的目标是使得Web上的信息具有计算机可理解的语义,满足智能软件代理对万维网上异构和分布式信息的有效访问和搜索。语义Web不是另外一个Web,它是现有Web的延伸,其中信息被赋予了良定义[1]。
鉴于语义Web的研究价值,国外很多大学、研究机构、大公司都成立了专门的项目组来推动这项技术的发展,W3C组织也成立了专门的工作组来推动语义Web技术的发展。当前语义Web作为信息技术的一个热点,得到了研究者们极大的关注,也得到了许多政府、科研机构以及商业部门的投入,近年来必将达到较大发展。
二、语义网的层次模型
Tim Berners-Lee在2000年提出了最初的语义Web层次模型。进年来,随着语义Web技术的不断发展,该模型被不断细化和扩展,在2006年给出了新的语义Web的层次模型,如图1 [Berners-Lee et al.,2006] [1]所示。
图1 语义Web的层次模型[Berners-Lee et al.,2006]
UNICODE和URI层:UNICODE和URI是语义Web的基础。其中UNICODE(统一资源编码)处理资源的编码,保证使用的是国际通用字符集,以实现语义Web的统一编码。URI是统一资源定位器(URL)的超集,支持语义Web的对象和资源的标识;
XML和命名空间层:用于表示数据的内容和结构;
RDF和RDFS层:用于描述Web上资源及其类型;
本体层:本体层用于描述各种资源之间的联系,采用OWL表示。本体(ontology)揭示了资源以及资源之间复杂和丰富的语义信息,将信息结构和内容分离,对信息做完全形式化的描述,使Web信息具有计算机可理解的语义。
逻辑层:逻辑层主要用于提供公理和推理规则,为智能推理提供基础。可以进一步增强本体语言的表达能力,并允许创作特定领域和应用的描述性知识。
证明层:证明层设计实际的演绎过程以及利用Web语言表示证据,对证据进行验证等。证明注重于提供认证机制,证明层执行逻辑层的规则,并结合信任层的应用机制来评判是否能够信任给定的证明。
信任层:信任层提供信任机制,保证用户Agent在Web上提供个性化服务,以及彼此之间安全可靠的交互,基于可信Agent和其他认证机构,通过使用数字签名和其他知识才能构建信任层。当Agent的操作时安全的,而且用户信任Agent的操作及其提供的服务时,语义Web才能充分发挥其价值。
在Tim Berners-Lee的语义网模型中,作为语法层的XML层,作为数据层的RDF层和作为语义层的Ontology层是语义Web的关键层,用于Web信息的语义,也是现在语义Web研究的热点所在。
因此,语义网的实现需要3大关键技术支持:XML、RDF和Ontology。
三、语义Web关键技术与研究现状
1、XML
XML(可扩展标识语言extensible markup language),其目标是改变Web的基本结构,超越HTML并代之以更强大、更具有扩展性的体系结构,他可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文档的结构可以复杂到任何程度。XML不仅提供对资源内容的标识,也提供资源所具有的结构信息。但仅有XML是不够的,需要提供描述XML资源的元数据,也就是对所描述对象结构或内容所作的规范说明。
1.1、XML简介
XML实在SGML、HTML的基础上发展而来的。首先,XML是一种元标记语言,即开发者可以根据自己的需要定义任何满足XML命名规则的名称作为自己的标记,新创建的标记可在文档类型定义(DTD)中加以描述。另外XML还是一种语义结构化语言,它描述了文档的结构和语义,用户可以很方便地定义自己领域的专用标记,文档的结构也可以是任意的。
1.2、XML文档结构
定义XML文档格式有两种方法:
(1)使用DTD(Document type definition,文档类型定义):DTD允许指定XML文档的基本结构。可以定义XML文档中出现的元素。这些元素出现的次序、它们可以如何相互嵌套以及XML文档结构的其他详细信息。
(2)使用XMLS(XML Schema,XML模式):XMLS可以定义能在DTD中使用的所有文档结构,它还可以定义数据类型和比DTD更复杂的规则。Shema用XML的语法定义XML文档结构,因此易于理解。
1.3、XML的局限性
尽管XML的灵活性使得用户可以快速、容易地描述任意的内容,但由于XML并不能解释它所标记的含义,它不提供任何表示数据语义的手段。例如,XML中的标签嵌套没有预定的含义,大多数处理应用要求这些标记集合能够满足某种标准或者双方的约定。
为实现XML文档的解释或者转换,用户必须将这些语义编码到工具中,而将数据的最终解释留给了特定的应用。不仅如此,由于XML模式只能对XML的语法合法性进行验证,而不能区分XML属性和元素在含义上的不同,因此对同样的信息内容,我们可以将其映射为多种不同的XML结构。例如要表示下述事实:
David Billington讲授离散数学课程。
使用XML,可以得到多种表达方式,以下三种均有可能。
<course name=”离散数学”> <lecturer>David Billington</lecturer> </course> |
<lecturer name=”David Billington”> <teaches>离散数学</teaches> </lecturer> |
<teachingOffering> <lecturer>David Billington</lecturer> <course>离散数学</course> </ teachingOffering> |
这种数据表达的不唯一性意味着,相同的XML文档存在多种不同的解释,而相同的应用也可能对不同的XML作出同样的解释。这种解释上的多对多关系,使得我们在交换XML文档之前,必须对其所使用到的标记的名称、组织格式和含义进行约定,任何对该XML文档的单方面扩展都可能会给数据交换过程带来更多的麻烦,甚至导致失败。然而,这种通过约定来实现信息共享的方式只适用于两两之间的信息交换,却不能满足Web上多个用户或团体大范围的信息共享。假设我们要集成n个应用所产生的XML信息,即便是要集成部分的含义完全一致,但由于它们来自不同的应用,各自的XML模式描述很可能存在着不同(既包括标记命名的不同也包括结构组织上的不一致),所以我们仍然不得不做大量的模式之间的转换,而目的只是为了保证它们在语法的描述结果上保持一致。当然我们可以通过采用一个统一的全局的XML模式来描述所有相关的XML信息,但这显然是不现实的,即便是在一个企业内部,我们也很难建立一个稳定的标准化的企业数据表示模式。
2、RDF
XML所存在的问题是由于XML不具备语义描述的能力。为此,W3C推荐以RDF(rescource description framework,资源描述框架)标准来解决XML语义局限。RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性和易综合等特点。通常同于表达元数据、描述其他Web资源,如XML文件,这些描述包含需要计算机理解的数据,RDF增加语义到文档中而不用假定文档的结构。RDF的目标是为Web资源描述提供一种通用框架,它以一种机器可理解的方式被表示出来,可以方便地进行数据交换,RDF提供了Web数据集成的元数据解决方案。
(1)RDF基本思想
RDF数据模型包括三个基本组成部分:资源(能通过URI引用的任何事物)、属性(被描述资源的特性)和陈述(包括引用资源的指针以及该资源属性和属性值的表达式)。RDF语言主要功能特征所描述的内容包括:
a.Resource:一类特定的信息条目,通常是一个Web站点;资源通常以URL进行标识;
b.Class/Subclass:资源可以被分类,每个类以下都可以有许多小的下位类,由此形成了一个完整的分类系统;
c.Property:连接两个相关资源;
d.Domain/Range:一个Property中的两个资源可以受到限定,一个目标域以及目的文件范围会受到一个特定类的限制;
e.Container:资源集合可组织在Container中。Container包括:“集”元素的“次序”按一定的顺序排列及“其他的选择”。
(2)、RDF Schema
RDF和XML之间的关系非常紧密,事实上,它们之间是互补的:RDF的作用之一是以一种标准化得。具有互操作性的方式来规范XML的语义。RDF Schema是基于XML对RDF的一种实现,它使用一种机器可以理解的体系来定义描述资源的词汇,其功能就像一个字典,可以将其理解为大纲或规范。RDF Schema的作用是:①定义资源及其属性的类别;②定义属性所应用的资源类以及属性值的类型;③定义上述类别声明的语法;④申明一些有其他机构或组织定义的元数据标准的属性类。
XML文档可以通过简单的方式实现对RDF的引用。如图2所示:
<?xml version="1.0"?> <Description xmlns="" about="" s:Author =""/> |
图2 XML对RDF的引用实例
借助RDF,表达同一事实的XML描述就可以转化为统一的RDF称述。上述表述“David Billington讲授离散数学课程”可以表示为RDF模型。如图3所示:
图3:RDF模型
通过在XML中引用RDF,可以将XML的解析过程与解释过程相结合。也就是说,RDF可以帮助解析器在阅读XML的同时,获得XML所要表达的主题和对象,并可以根据它们的关系进行推理,从而做出基于语义的判断。XML的使用可以提高Web数据基于关键词检索的精度,而RDF与XML的结合则可以将Web数据基于关键词的检索更容易地推进到基于对象的检索。其次,由于RDF是以一种建模的方式来描述数据语义的,这使得RDF可以不受具体语法表示的限制。但是RDF仍然需要一种合适的语法格式来实现RDF在Web上的应用。虽然RDF既可以用Notation3来表示,也可以用XML来表示。但是,由于XML已经成为被广泛支持的Web数据表示标准,便于应用的读取,因此将RDF序列化为XML表示可以使RDF获得更好的应用可处理特性,并使得RDF数据可以像XML数据一样的容易使用、传输和存储。
(3)RDF的局限性:
与XML中的标记(tags)类似,RDF中的属性(properties)集也是没有任何限制的。也就是说我们既可以
<rdf:Description about=; <s:Creator>张三</s:Creator> </rdf:Description> |
也可以用
<rdf:Description about=; <s:Author>张三</s: Author > </rdf:Description> |
来表示某个作品的创作者。这就是我们通常所说的同义词现象,即同一个概念可以以不同的词汇来描述。在实际应用中这个词汇并不一定要和词典中的词汇有一定的对应关系,例如英文语法中常见的缩写就属于此种情况。与同义词现象相对应的另一个问题就是一词多意,即同一个词汇在不同的应用背景下可以表示不同的意思。RDF的模型不具备解决这两个问题的能力,而RDF Schema虽然可以为RDF资源的的属性和类型提供词汇表,但是基于RDF的数据语义描述仍然可能存在语义冲突。为了消解语义冲突,我们在描述数据语义的时候可以通过引用Ontology的相关技术,对语义描述结果作进一步的约束。
3、Ontology
本体的概念最初来源于哲学领域,称为本体论、实体论或存在论,是“对世界上客观存在物的系统地描述”。一个本体描述了一个特定研究领域的一个形式化的、共享的概念化模型。具体体现了四个方面的含义:概念化、明确、形式化以及共享。概念化(conceptualization)是指客观世界现象的抽象模型;明确(explicit)是指所使用的概念的类型以及对这些概念使用上的约束都有了明确的定义;形式化(formal)是指精确的数学描述;共享(share)是指本体中反映的知识是其使用者共同认可的。
(1)Ontology的基本组成元素
虽然本体有多种表述,但通常都体现了它的必要条件,Ontology作为知识组织的重要手段应该具有以下要素:
a. 概念(Concept):概念在本体中扮演着非常重要的角色,是人类对现实世界理解的表意符号、是机器操作的主要对象、是数学模型主要的构成元素。本体中,概念又称为类(Class),是相似术语所表达的概念的集合体。
b. 关系(Relation):表示概念之间的联系。如概念之间的二元关系is-a,它形成了概念之间的逻辑层次分类结构。
c. 属性(Property):属性是区分类的标准、具有继承性、具有限制类中的概念和实例的功能。一个属性必须具有相应的属性值,在概念层上没有属性值。
d. 公理(Axiom):即公认的事实,其作用是进行知识推理。
e. 函数(Function):即关系的特定表达形式。函数中规定的映射关系,可以使得推理从一个概念指向另一个概念。
f. 实例(Individul):是本体中的最小的对象。它具有原子性,即不可再分性。类包含实例,而每个实例都有不属于其它实例的属性,这是区分不同实例的唯一标识。
(2) Ontology的分类
目前关于Ontology的研究非常广泛,针对目前各种各样对本体的应用研究,也出现了不同的分类标准,比较有代表性的有以下三种:
1) 根据本体的形式化程度不同,可以把Ontology分为以下四种:
a. 高度非形式化Ontology:指完全采用自然语言进行表示的,如术语列表。
b. 结构非形式化Ontology:指采用结构化的或受限的自然语言进行表示的,其能有效提高Ontology的清晰度,减少二义性。
c. 半形式化Ontology:指采用一种人工定义的形式化语言进行表示的。
d. 严格形式化Ontology:指具有详细的概念项定义、语义关系的形式化定义以及稳固和完整的公理和证明。
2) 根据Ontology的概念主题一般可分为以下五种:
a. 领域Ontology:提供了领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理等。如企业Ontology、医学概念Ontology、生物学Ontology等。
b. 通用Ontology:关注于常识知识的使用。如Cyc公司的Cyc等。
c. 知识Ontology:其研究重点是语言对知识的表达能力,典型的有斯坦福大学知识系统实验室提供的一种称为知识交换格式KIF(Knowledge Interchange Format)的知识描述语言,以及可以在线将各种知识转换为KIF的Ontology服务器。
d. 表示Ontology:是指关于语言、词汇等的Ontology,典型的实例有GUM(Generalized Upper Model)和普林斯顿大学研制的WordNet。
e. 任务Ontology:主要研究可共享的问题求解方法,其研究主题主要包括:通用任务、与任务相关的体系结构、任务方法结构、推理结构和任务结构等。
3) 根据依赖程度则可分为以下四种: