毕业设计网
毕业设计论文 | 毕业设计任务书 | 计算机外文翻译 | 文献综述 | 机械模具类 | 课程设计 |

WEB搜索引擎分析设计与实现

随着互联网的高速发展,信息在海量的增长。用户想要寻找到一些有用的知识非常困难,于是搜索引擎应运而生,满足广大用户的需要,现在人们已经把搜索引擎当做日常学习、工作、休闲不可缺少的一个工具。大家都知道用搜索引擎可以快速地找到自己所要的资料或信息,那么搜索引擎是怎么工作的呢?本文将会对这个问题进行解答。
本文首先介绍了基于Internet的搜索引擎的系统结构以及主流搜索引擎的工作原理,并利用目前流行的Heritrix+Lucene框架,分析、设计、实现了“SoEdu”搜索引擎。论文中附上了搜索引擎的实现代码,并配上贴图,力图使本文生动,容易理解。
关键词:搜索引擎 索引 Heritrix Lucene
(1)管理人员接口子系统:管理人员登陆后可以控制利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中,对与每个网页文件进行去噪处理,创建唯一的一个XML文件,里面包含该提取的该网页相应的信息(包括网页所在URL、网页内容、网页标题、网页抓取时间)。
(2)索引子系统:由索引器对收集回来的XML文件进行分析,对标题和内容同时创建索引。
(3)检索子系统:当用户输入关键词搜索后,分解搜索请求,由检索子系统从网页索引数据库中找到符合该关键词的所有相关网页。
(4)用户接口子系统:完成与用户的交互,提供友好的交互界面。包括搜索关键字输入,搜索结构分页显示,搜索统计和输入提示等功能。

网络蜘蛛(爬虫)从互联网上抓取网页,把网页送入“网页数据集”,反复循环直到把所有的网页抓取完成。
系统从“网页数据集”中得到文本信息,送入“文本索引”模块建立索引。
索引库以页面评级的分数与词的相关度建立索引库。
“用户”通过提交查询请求给“查询服务器”,服务器在“索引数据库”中进行相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过“查询服务器”按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给“用户”。

以上是一部分介绍,如需要完整的资料或者如不符合您的要求,请联系技术人员qq:242219979咨询

上一篇:基于matlab的FIR数字滤波器设计
下一篇:windows server 2003 组建校园网


版权所有 毕业设计网联系qq:242219979 © 2007-2022