您所在的位置: 首页  >>  学术与研究  >>  网络信息资源的知识检索研究
 
网络信息资源的知识检索研究
[发表日期:2010-09-21 浏览次数:5854次] 打印本页

以计算机技术、通信技术和网络技术为代表的现代信息技术的飞速发展,改善了信息检索技术的软硬件环境,促进了信息检索理论与实践的发展,同时也给信息检索带来了新的挑战。网络信息资源纷繁复杂、类型多样,如何从海量的网络信息资源中快速、准确、高效的检索到所需信息,是现阶段值得关注的问题。用户对信息的需求、利用与信息量的急剧增长之间的矛盾,尚未得到很好的解决。而知识检索能适应用户的现实信息需求及其发展变化。

1 从信息检索到知识检索

信息检索,是指从信息集合中发现、查出所需信息的活动与过程,包括信息的存储、组织、表现、查询、存取等各个方面。信息检索作为一门学科,其历史可追溯到20世纪中期。在此之前,信息存储和传播主要以纸质介质为载体,信息检索活动也围绕着文献的获取和控制展开。20世纪50年代,计算机技术开始得到实际应用,“情报检索”也开始与IT技术紧密结合,从而产生了现代意义的“信息检索”。随着通信技术与计算机技术的紧密结合,信息载体类型的多样化及传播手段的改进,情报检索研究和文献检索研究逐渐归入信息检索研究这一具有兼容性的概念。信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。

在网络环境中,信息种类纷繁复杂,大多数信息资源已不再只以结构性资料(各种类型的数据库)来存取,而是以半结构化(XML文件,LOG文件)或非结构化资料(例如MS Word、Excel文件、PDF、WPS,Exchange、Lotus Notes等应用系统中的资料,以及附件,甚至于图片,OCR文件等等)的方式进行存取。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容。信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。

进入80年代以后,许多商业检索系统都开始大力推行并发展全文检索技术。与其他检索技术相比,全文检索的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是文献线索。尽管全文检索技术得到了多年的发展和广泛应用,但也仍然存在着不少的弊端和局限性,表现在:不能灵活处理多元化的数据;无法及时、有效的同步更新的数据;难以和其他应用系统整合。全文检索解决了一般非结构化文字信息内容的查询问题,有效解决了关系数据库管理系统不能很好查询非结构化信息的问题。但是全文检索的效果需要进一步提高,其适应不同应用的能力还需要改进,其核心是发展知识检索。

随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出,人们便开始创新信息检索的方法与技术,适应网络化、智能化以及个性化的需要。知识检索的产生与发展一方面来源于用户对知识检索的需求,另一方面则来源于信息检索理论与实践的发展与完善。知识检索的发展应该能够有效解决结构化数据和非结构化数据的混合检索,以及XML半结构化内容的检索。智能化知识检索也将是知识检索的发展方向,高级的智能化知识检索应该更加注重文本挖掘的功能,提供主题词典、广义同义词检索、拼音检索、同音检索,以及基于内容的相似性检索和智能代理等功能。

2 信息检索与知识检索的比较

信息检索是指从序化的信息集合中查找出符合需求的信息,它是信息组织的逆过程。而知识检索,就是综合运用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理与多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源(文本、图像、视频、声音等),并能准确精选用户需要的结果。信息检索与知识检索,犹如信息与知识,两者既相互联系,又存在着本质区别,下面分别从检索语言、检索模型、资源组织方式、搜索方式、检索效率等方面加以比较。

2.1 检索语言

检索语言是描述信息的内容与形式的工具,也是用户表达检索提问的语言。信息检索系统中一般将关键词作为描述信息和用户提问的基本单元,尤其是在网络信息资源检索中,大多数搜索引擎都提供按关键词搜索的功能,因为关键词是最简单的自然语言,是实现主题检索的重要途径,而且简单易用。但是关键词不能充分表达概念之间的语义关系,通常难以满足用户的信息需求。

在知识检索系统中,除提供关键词实现主题检索外,还结合自然处理语言和知识表示语言,表示各种结构化、半结构化和非结构化信息,提供多途径和多功能的检索。自然语言,也就是人们日常使用的各种通俗语言。自然语言处理技术是提高检索效率的有效途径之一。自然语言理解是计算机科学在人工智能方面的一个极富挑战性的课题,其任务是建立一种能够给出像人那样的理解、分析并回答自然语言的结果的计算机模型。从实用性的角度来说,我们所需要的是计算机能实现基本的人机会话、寓意理解或自动文摘等语言信息处理功能。这其中要利用汉语分词技术、短语分词技术、同义词处理技术等。

2.2 搜索方式

网络信息资源的信息检索是基于“信息”的搜索。目前因特网上的信息检索方式主要有两种:关键词搜索和目录搜索。通过关键词搜索通常会返回大量的冗余信息,而目录搜索方式则需要用户花费大量的时间进行子目录的浏览,在该过程中仍然存在大量的、与用户意图无关的无效链接。在网络信息资源的检索过程中,搜索引擎的使用相对比较广泛,但存在以下问题:①用户在提出检索请求制定检索策略时,对表达其信息需求的关键词常常感到困惑,如何帮助用户分析、表达其信息需求是目前系统所欠缺的;②搜索引擎通过映射收集信息,造成资源浪费且容易引起网络信息堵塞;③Internet上信息资源具有分散、多结构、多服务类型的特点,搜索引擎很难收集到全部信息;④目前网络带宽的限制,使得检索结果返回的时间较长,有时因为服务器太忙,搜索引擎无法与之连接;⑤用户的反馈信息不能及时地调整检索策略,改善信息检索的性能;⑥Internet上的信息源是动态变化的,搜索引擎无法作出调整,使用户及时得到有关的信息;⑦由于缺乏内容相关性信息,搜索引擎无法保证返回资源的可靠性,致使返回大量的无效信息,甚至还可能会遗漏重要的文档,同时无法体现用户个性化的信息需求等等。

网络信息资源的知识检索是基于“知识”的搜索,即利用机器学习、人工智能等,模拟或扩展人的认识思维,提高信息内容的相关性。知识检索具有明显的优势:①检索机制和界面的设计均体现“面向用户”的思想,即用户可以根据自己的需求及其变化,灵活地选择理想的检索策略与技术;②知识检索能主动学习用户的知识,主动向用户提供个性化的服务;③综合应用各种分析、处理和智能技术,既能满足用户的现实信息需求,又能向用户提供潜在内容知识,全面提高检索效率。

2.3 检索模型

信息检索在其发展过程中,形成了一些成熟的模型。它们依据不同的理论,对检索元素进行不同的描述。常用的数学模型一般有布尔检索模型、向量空间模型、概率检索模型以及模糊集合模型。目前Internet网上信息检索模型多采用布尔检索模型和向量空间模型。布尔检索模型基于布尔逻辑,利用关键词来描述信息,用户用关键词的逻辑组配来表达信息需求,检索系统采用精确的关键词匹配,返回检索结果。这种模型容易实现,被大多数检索系统使用,但检索结果与用户的检索技能有很大的关系。向量空间模型基于统计理论,将检索系统中存储的信息与提问信息用空间中的向量表示,用相似统计方法计算信息向量与提问向量之间的相关性。可将相似计算结果用于检索结果的排序输出。

知识检索模型集成各类知识对象和信息对象,融合各种智能与非智能理论、方法与技术,实现知识检索,例如基于知识结构的检索、基于知识内容的检索、基于专家启发式的知识检索、基于知识导航的智能浏览检索和分布式多维检索。。知识检索常用的检索模型有分类检索模型、多维认知检索模型、分布式检索模型等。分类检索模型利用事物之间最本质的关系来组织资源对象,具有语义继承性,揭示资源对象的等级关系、参照关系等,充分表达用户的多维组合需求信息。多维认知检索模型的理论基础是人工神经网络,它模拟人脑的结构,将信息资源组织为语义网络结构,利用学习机制和动态反馈技术,不断完善检索结果。分布式检索模型综合利用多种技术,评价信息资源与用户需求的相关性,在相关性高的知识库或数据库中执行检索,然后输出与用户需求相关、有效的检索结果。

2.4 信息资源组织方式

信息组织是信息检索与利用的基础,而信息检索与利用则是信息组织的目的,两者是互逆的过程。用户信息检索的一般过程是:用户将自己的信息需求以一定的形式表示出来,形成检索提问式,信息检索系统将用户的检索提问式与经过序化的信息集合进行匹配,并将检索结果返回给用户,用户可以根据该结果来调整检索策略,进一步获取相关信息资源。网络信息资源检索与利用的前提,是通过标引等方式对网络信息资源加以描述,并按一定的规则和方法进行序化,形成有序的信息集合。与网络信息资源检索相对应的组织方式是信息组织,网络一次信息资源的组织方法有超文本方法、自由文本方法和主页方法等,网络二次信息的组织方式主要有搜索引擎方法和主题树方法两种。

要实现快速高效的知识检索,首先是对知识进行合理的分类与组织,然后利用高效的检索手段与检索方法,找到与需求相匹配的知识资源。与网络信息资源检索相对应的组织方式是知识组织,主要的知识组织方法有:知识分类、语义网络、动态控制等。知识组织是高级的逻辑组织形式,信息组织不能充分表示信息元素的语义和语义关系,而知识组织能表示信息元素的逻辑关系、语义关系等。

2.5 检索效率

目前评价检索系统性能或质量的主要指标有:查全率和查准率。查全率指系统在实施某一检索作业时。检出相关文献的能力,用公式可表示为:查全率=检索出的相关文献/文献库中相关文献总数;查准率指系统在实施某一检索作业时,拒绝不相关文献的能力,用公式可表示为:查准率=检索出的相关文献量/检索出的文献总量。对于网络信息资源的信息检索而言,不能查找所有的数据类型,对基于内容的提问不能给出精确的回答,因此查全率和查准率不高。知识检索能综合运用多种处理方法和技术,挖掘提问的深层含义,精确的表达用户的需求,返回具有高度相关性的检索结果,因此既有较高的查全率和查准率。另外,检索时间可以作为衡量信息检索效率的标准之一,但是作为衡量知识检索系统检索效率的指标意义不大。因为传统的搜索引擎是对信息相关性的搜索,搜索引擎通常要检查文档的每一页,而知识检索更强调内容的相关性,这样检索相关知识的能力作为衡量其检索效率的指标更具有实际意义。

3 知识检索实现方法

网络信息资源的知识检索可以分成以下两步:首先利用知识站点搜索引擎找到知识站点库,而后利用知识条搜索引擎,根据用户的需求,从站点中的知识库提取相关知识条。与该两级检索策略相对应的检索方法是:首先利用“加权关键词匹配定位法”定位知识站点,然后在“动态约束性概念网络”的基础上,从所定位的站点中找到所需的具体知识。

3.1 加权关键词匹配定位

加权关键词匹配定位的基本思想是由用户根据检索的预期期望,给关键词赋予一定的权值,以表明关键词之间的相对重要程度,而后由检索系统将该加权关键词与站点属性描述的关键词进行匹配,返回综合评价高的知识站点信息。

加权关键词匹配定位的基本实现过程包括以下几个方面:①建立关键词库,用关键词来描述各知识站点的属性;②关键词的提取与确定,既可以采取由检索系统从语义段中自动提取的方式,也可以由用户自行输入关键词,检索系统根据所提取或输入的关键词在关键词库中进行查找,如果未找到,则返回与所提取或输入的关键词相近的词组,如果找到符合条件的关键词,则返回给用户一个包含这些关键词的列表;③用户为所返回列表中的每一个关键词指定权值,并提交给检索系统;④检索系统根据加权关键词匹配计算模型,计算各站点与加权关键词的匹配程度,返回给用户匹配程度高的若干网站信息,由用户从所返回的结果中自行定位到所需站点。

在完成知识站点的定位后,接下来的问题是如何从站点的知识库中快速、有效地提取能满足自身需求的知识模块,该问题的解决可以通过概念约束驱动检索来实现。

3.2 概念约束驱动

传统的信息检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。因为关键词检索的主要技术是机械匹配,依据的是字符的外部特征,并非它们所表达的内在含义即概念。概念约束驱动检索方法的理论基础是神经网络和语义网络,将概念看成是最基本、最重要的知识元素,以概念之间的关联作为概念网络节点的链,并在关联链上设置动态控制条件,通过在约束条件和知识库之间进行匹配,帮助用户获取最相关的检索结果。

概念指的是将所感知的事物的本质与属性抽象出来,应用一定的字、词或词组等描述元素加以概括的结果。由于同一概念元素可能存在一个或多个同义的描述元素,同一描述元素在不同的语言环境中显示不同的语义,从约束出发检索知识需对概念进行细化和明晰。概念约束驱动检索方法首先要依据概念知识的类属原则,将概念进行分层和聚类。概念分层和聚类的坏直接影响到知识检索系统的性能以及检索结果的准确性。概念的聚类是将某些具有相同属性的概念聚集,形成各种概念类,必须保证概念类目设置的唯一性。概念的分层主要指的是将哪些概念放在同一层,哪些概念放在不同层,并明确各层次概念之间的关系。概念的分层同样要遵循一定的原则,通常可以将相互之间耦合作用强的概念放在不同层次,将相互之间耦合作用弱的概念放在同一层次,而区分概念之间耦合作用强弱的原则是概念之间不存在包容关系,这样会使同层概念存在明显的差异化。

根据上述分层原则,每一概念类都会形成树型分层结构,在这个层次结构中有概念父节点和概念子节点,父节点和子节点表达的是概念之间的纵向层次关系,即从属关系,包括整体与部分,属种关系等。这种纵向层次关系可以是多重的从属关系。也就是说每个概念子节点会有一个或多个概念父节点,这些父节点既可以是同一概念类,也可以是不同概念类,这样可以在概念按类集中的基础上,清晰的表达概念之间的交替关系,有效地缓解概念分类中集中与分散的矛盾。从横向上看,分属于不同概念类但处于同一层次的概念节点,可以根据自身的属性连接成关联网络,这种横向网络能有效揭示概念之间的相互关系。

在概念分层和聚类基础上所形成的概念网络,需设置概念关联的控制条件,它相当于概念激活开关,约束概念激活的行为。当用户进入知识系统后,需确定相应的概念需要满足的约束,当用户的提问或输入内容与控制条件基本符合时,控制开关就会连通,知识检索系统就回给出与约束相匹配的结果。控制条件的引入,使概念网络呈现动态性的变化,它可以根据不同的用户、不同的要求以及不同的学科领域等实际情况,设置适应不同应用环境的控制条件,使知识检索结果的相关度更加符合用户的要求。各激活控制条件包含的是与各概念节点相关的各种知识,包括各学科领域专业知识、常识性知识、用户检索意图知识以及用户背景知识等。

4 知识检索的发展

知识检索是传统信息检索的发展,随着人工智能、系统信息管理等相关高新技术的运用,提供个性化、智能化的主动信息服务也将是知识检索的发展方向。智能检索常常被误导,比如检索“华人”,包含“中华人民共和国”的内容不被检索出来,检索“电脑”,可以把包含“计算机”的内容检索出来,这些是智能检索的初级阶段,智能化知识检索应该更加注重文本挖掘的功能,我们认为现阶段一个智能型检索系统至少应该包含如下一些功能:①具有大规模实例描述的汉语分词排歧知识库;②具有主题词典、广义同义词检索、拼音检索、同音检索等功能;③具有基于内容的相似性检索功能,具有自动分类(自动聚类)和自动摘要功能,具有知识压缩和去重功能;④具有文本挖掘功能,比如对数字的理解,新词学习等;⑤智能代理,自动和自助式检索。实现个性化、智能化的知识检索需要解决以下问题。

4.1 自然语言的优化

知识检索有赖于语言学工程的突破,以及自然语言处理的技术应用。自然语言指作者所使用的书面语言,包括自由词、关键词和出现在文献题名、摘要、正文或参考文献中的具有一定实质意义的词语。自然语言在网络检索中得到了广泛的应用,但是自然语言中存在着大量的同义词、近义词以及一词多义、同形异义等现象,知识检索需要对自然语言进行优化处理,包括:①歧义信息的处理,如“苹果”,究竟是指水果还是电脑品牌,通过歧义知识描述库、全文索引、用户检索上下文分析,结合用户相关性反馈等技术,准确地反馈给用户最需要的信息;②利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”时,与“电脑”相关的信息也能检索出来;③在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。

4.2 知识挖掘

知识检索需要更加注重内容挖掘的功能。目前知识挖掘主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。

4.3 自动化的学习与反馈机制

自动化的学习与反馈机制实现知识检索技术升华的基石。相关反馈技术是研究用户知识和用户模型的一项重要技术,其基本思想是通过用户与检索系统之间的反复交互,逐步了解用户的需求,不断反馈学习形成新的检索式和检索结果,更新和完善用户模型,逐步提高检索结果的相关性。将相关反馈技术应用于知识检索领域,可以提高系统的智能化程度,有助于进行有针对性的个性化服务,对检索效率有较大的影响。

 
上一篇:详解云存储中的虚拟化技术构成及应用   2010-09-25
下一篇:简论多媒体教学软件界面设计中色彩的处理    2010-09-19
南京师范大学现代教育技术中心版权所有
Copyright 2005 NJNU METC All Rights Reserved
地址:南京市宁海路122号南京师范大学田家炳教育书院北楼 | 邮编:210097 | 电话:83598787