毕业设计网
JSP,JAVA | python | nodejs | android,安卓 | PHP | 微信小程序 |

基于python的爬虫研究和功能实现

作为搜索引擎技术核心元素之一,自1993年初 Matthew Gray’s Wandered 在麻省理工学院开发出有史记载的第一个网络爬虫以来,爬虫技术历经20多年的发展,技术已日趋多样。为满足不同用户多种多样的需求,创建开发了类型众多的爬虫系统。随着社会与互联网的发展,互联网上的某一方向的相关数据体量已经达到了天文数字的地步。过去最朴素的人工收集数据的策略面对当今大体量的数据环境,其效率相当低下,所以诞生了爬虫相关技术以应对当今数据收集的效率问题。研究爬虫技术有助于在将来的工作中产生帮助,是大数据技术的基础。

爬虫研究现状:
网络爬虫即 Spider,跟随网络出现而应运而生。1993 年,第一个网络爬虫即 Matthew Gray 的 Wanderer 初露头角。国际万维网的前两届会议上开始有了介绍网络 爬虫的相关文献[9-11],但那时没有现在面临的互联网内海量数据内容,整个技术涉及面 相对狭窄。在一个商业竞争激烈的社会,成熟的网络爬虫技术并没被公开,Google Crawler、Internet Crawler 以及 Mercator 例外。
(二)课题研究的主要内容
1.对网络爬虫相关技术知识的学习。
2.对网络爬虫相关技术的文献的研究。
3.对行业内网络爬虫的使用范围相关情况进行了解。
4.了解网络爬虫与隐私的相关法律条款。
5.利用现有技术实现一个免登陆、多目标爬取数据,同时针对爬取的数据进行了初步的筛选过滤,可去掉多余信息的网络爬虫软件。

(三)拟解决的主要问题和最终目标
1.学习Python编程语言并熟练运用
2.学习网络爬虫基础知识
3.编写一个有基础网络爬虫功能的通用型网络爬虫
4.利用现有技术实现一个免登陆、多目标爬取数据,同时针对爬取的数据进行了初步的筛选过滤,可去掉多余信息的网络爬虫软件。
    5.完成相关论文的撰写。

(四)拟采用的研究方法或技术方案
研究方法:
1.调查法:了解网络爬虫的软件的业务范围与业务逻辑并对其进行研究。
2.观察法:观察软件运行的结果,检查软件有误逻辑上的缺陷与错误。
3.实验法:对比自己开发的爬虫程序与网络上开源的爬虫程序之间的速度,效率与空间占用的大小。确定改进方向。
4.文献研究法:通过查阅文献了解各种开发语言的优势与劣势,确定适合自己的程序开发环境。

技术方案:
1. 学习,复习爬虫相关技术知识,查阅资料,规划方向。
2. 对系统进行整体设计,确定各个子模块的功能需求,确定软件开发环境。
3. 完成开发环境搭建,规划软件开发模块和顺序,开发工作启动。
4. 完成软件各个模块的开发,并进行测试。

(五)课题预期结论或过程中的特色、创新点
 创新点:爬虫具有对爬取数据的特征分析的功能,并可以爬取指定特征的数据。

以上是一部分介绍,如需要完整的资料或者如不符合您的要求,请联系技术人员qq:242219979咨询

上一篇:基于MUI的手机商店app-hbuilderx
下一篇:基于Web的旅行社管理系统


版权所有 毕业设计网联系qq:242219979 © 2007-2022