日期:2011-03-21 00:21:00 来源:本站整理
<b>Oracle9i的全文检索技术</b>[Oracle防范]
本文“<b>Oracle9i的全文检索技术</b>[Oracle防范]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
1 Oracle Text的体系架构
下图是Oracle Text的体系架构.
图1 Oracle Text的体系架构
以上面的体系架构图为底子,Oracle Text 索引文档时所利用的主要逻辑步骤以下:
(1)数据存储逻辑搜索表的全部行,并读取列中的数据.普通,这只是列数据,但有些数据存储利用列数据作为文档数据的指针.比方,URL_DATASTORE 将列数据作为 URL 利用.
(2)过滤器提取文档数据并将其转换为文本表示方法.存储二进制文档 (如 Word 或 Acrobat 文件) 时需求这样做.过滤器的输出没必如果纯文本格局 -- 它可以是 XML 或 HTML 之类的文本格局.
(3)分段器提取过滤器的输出信息,并将其转换为纯文本.包含 XML 和 HTML 在内的差别文本格局有差别的分段器.转换为纯文本触及检测重要文档段标志、移去不可见的信息和文本重新格局化.
(4)词法解析器提取分段器中的纯文本,并将其拆分为不持续的标志.既存在空白字符脱离语言利用的词法解析器,也存在分段复杂的亚洲语言利用的专门词法解析器.
(5)索引引擎提取词法解析器中的全部标志、文档段在分段器中的偏移量以及被称为非索引字的低信息含量字列表,并构建反向索引.倒排索引存储标志和含有这些标志的文档.
以上是“<b>Oracle9i的全文检索技术</b>[Oracle防范]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:
本文地址: | 与您的QQ/BBS好友分享! |
评论内容只代表网友观点,与本站立场无关!
评论摘要(共 0 条,得分 0 分,平均 0 分)
查看完整评论