全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点,在此不做详述。
全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW[1]的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。图1.1展示了上述全文检索系统的结构与功能。
在上图中,我们看到:全文检索系统中最为关键的部分是全文检索引擎,各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度,根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。另一个方面,一个优异的全文检索引擎,在做到效率优化的同时,还需要具有开放的体系结构,以方便程序员对整个系统进行优化改造,或者是添加原有系统没有的功能。比如在当今多语言处理的环境下,有时需要给全文检索系统添加处理某种语言或者文本格式的功能,比如在英文系统中添加中文处理功能,在纯文本系统中添加XML[2]或者HTML[3]格式的文本处理功能,系统的开放性和扩充性就十分的重要。
分享到:
相关推荐
第一节 全文检索系统与Lucene简介··· 3 一、 什么是全文检索与全文检索系统?··· 3 二、 什么是Lucene?··· 4 三、 Lucene的应用、特点及优势··· 4 四、 本文的重点问题与cLucene项目··· 5 第二...
基于Lucene的全文检索系统研究与开发基于Lucene的全文检索系统研究与开发基于Lucene的全文检索系统研究与开发
全文自动检索系统中的快速检索与索引文件压缩算法
基于struts2的全文检索系统,实现了文件上传和下载,并实现对上传的文件进行检索。
基于Lucene的全文检索系统,对本地文件的全文检索,方便搜索自己的文档
于Lucene的全文检索系统的研究与应用
分布式全文检索系统SolrCloud简介
全文检索系统(Lucene)LuceneDemoSrc.rar 很好的入门学习资料
lucene文档检索系统,java源码,可执行程序,支持pdf,doc,xls,ppt,html,txt。
最新全文检索系统开源lucene资料大全 pdf格式
HTML基于Web的数据库加密与密文检索系统源码HTML基于Web的数据库加密与密文检索系统源码HTML基于Web的数据库加密与密文检索系统源码HTML基于Web的数据库加密与密文检索系统源码HTML基于Web的数据库加密与密文检索...
本文主要是研究了全文检索技术的基本原理以及Lucene的架构和工作原理,并介绍了基于Lucene的实时全文检索引擎的设计实现过程。并提供了一个基于Web的简单实现。最后通过实验的方式,对实现的实时全文检索引擎的性能...
本项目采用了TRS信息发布和检索系统作为整个系统数据和检索的核心。结合TRS关系数据库检索引擎和TRS电子出版数据处理工具可以做到检索一切数据源,实现了单站点、多站点、以及所有48 个站点的检索功能,还可以将用户...
XML全文检索系统论文XML全文检索系统论文关于xml检索问题的论文。。
Lucene全文检索案例Lucene全文检索案例Lucene全文检索案例Lucene全文检索案例
全文检索系统
信息检索系统的相关知识 信息检索系统 统
solr在window下的配置,solr(全文检索系统),solr是lucene的升华版,把数据库的数据导入到solr中,减少了数据库的压力,solr搜索代替并优化了like模糊查询,并且有中文分词器
解决了全文检索中关于分词算法(正、反向最大分词匹配)的关于分词中存在子分词,查询子分词时索引匹配不上的问题(改进正、反向最大分词匹配,增加了关于子分词切分的算法),经过测试,现在对“自由查询”的结果很...
基于云计算的电子病历全文检索系统.pdf