基于python的爬虫研究和功能实现

作为搜索引擎技术核心元素之一，自1993年初 Matthew Gray’s Wandered 在麻省理工学院开发出有史记载的第一个网络爬虫以来，爬虫技术历经20多年的发展，技术已日趋多样。为满足不同用户多种多样的需求，创建开发了类型众多的爬虫系统。随着社会与互联网的发展，互联网上的某一方向的相关数据体量已经达到了天文数字的地步。过去最朴素的人工收集数据的策略面对当今大体量的数据环境，其效率相当低下，所以诞生了爬虫相关技术以应对当今数据收集的效率问题。研究爬虫技术有助于在将来的工作中产生帮助，是大数据技术的基础。

爬虫研究现状：
网络爬虫即 Spider，跟随网络出现而应运而生。1993 年，第一个网络爬虫即 Matthew Gray 的 Wanderer 初露头角。国际万维网的前两届会议上开始有了介绍网络爬虫的相关文献[9-11],但那时没有现在面临的互联网内海量数据内容，整个技术涉及面相对狭窄。在一个商业竞争激烈的社会，成熟的网络爬虫技术并没被公开，Google Crawler、Internet Crawler 以及 Mercator 例外。
（二）课题研究的主要内容
1.对网络爬虫相关技术知识的学习。
2.对网络爬虫相关技术的文献的研究。
3.对行业内网络爬虫的使用范围相关情况进行了解。
4.了解网络爬虫与隐私的相关法律条款。
5.利用现有技术实现一个免登陆、多目标爬取数据，同时针对爬取的数据进行了初步的筛选过滤，可去掉多余信息的网络爬虫软件。

（三）拟解决的主要问题和最终目标
1.学习Python编程语言并熟练运用
2.学习网络爬虫基础知识
3.编写一个有基础网络爬虫功能的通用型网络爬虫
4.利用现有技术实现一个免登陆、多目标爬取数据，同时针对爬取的数据进行了初步的筛选过滤，可去掉多余信息的网络爬虫软件。
5.完成相关论文的撰写。

（四）拟采用的研究方法或技术方案
研究方法：
1.调查法：了解网络爬虫的软件的业务范围与业务逻辑并对其进行研究。
2.观察法：观察软件运行的结果，检查软件有误逻辑上的缺陷与错误。
3.实验法：对比自己开发的爬虫程序与网络上开源的爬虫程序之间的速度，效率与空间占用的大小。确定改进方向。
4.文献研究法：通过查阅文献了解各种开发语言的优势与劣势，确定适合自己的程序开发环境。

技术方案：
1. 学习，复习爬虫相关技术知识，查阅资料，规划方向。
2. 对系统进行整体设计，确定各个子模块的功能需求，确定软件开发环境。
3. 完成开发环境搭建，规划软件开发模块和顺序，开发工作启动。
4. 完成软件各个模块的开发，并进行测试。

（五）课题预期结论或过程中的特色、创新点
创新点：爬虫具有对爬取数据的特征分析的功能，并可以爬取指定特征的数据。

以上是一部分介绍,如需要完整的资料或者如不符合您的要求,请联系技术人员qq:242219979咨询

上一篇：基于MUI的手机商店app-hbuilderx
下一篇：基于Web的旅行社管理系统

最新文章

排行榜

相关文章

基于python的爬虫研究和功能实现