互联网论坛监测系统所需要包括的两个独立的平台:数据获取/存储平台和数据报告生成平台。其实这两个平台都是起到方便客户查找的功能。
数据获取和存储平台:
接入互联网,对定点网站、论坛进行数据深入挖掘,基于发帖人、发帖时间、主题及正文进行分类检索与统计,对目标站点的信息提取率达到90%;专项针对目标论坛的信息发布进行内容获取,对目标论坛分组,基于论坛组进行高效的轮询式全文获取;采用纯文本方式存储,以最大限度节约空间。
数据报告生成平台:
以海量信息为基础,自动聚成目标论坛当前热点,并发布信息快照、生成数据报告。
系统还应该需要:
定点网站深入挖掘
·网络终端浏览行为智能模拟
·目标站点信息提取率达到90%
·专项针对论坛发布内容获取
·目标论坛分组,基于论坛组的高效轮询式全文获取
此功能主要能够很快的建立目标论坛网站的目录,并根据需要定点某个网站。在这个定点网站中利用搜索,提取所需的信息。
数据挖掘
·关注热点查询
·发帖人、发帖时间、主题及正文的分类检索与统计
此功能进一步对某个网站进行信息的有针对性的很具体的搜索,达到信息的快速获取。
信息聚类生成数据报告
·以海量信息为基础
·自动聚成目标论坛当前热点
·热点发帖信息快照
此功能是从论坛中的所有信息,自动筛选其热点信息供查找和阅读。
3系统功能分析
- 数据包捕获功能
论坛内容监测要实现抓包,就离不开Libpcap调用抓包库函数。所以先介绍Libpcap:
Libpcap接口支持基于BSD数据包过滤器(BPF: BerkeleyPaeket Filter)的数据过滤机制。Libpcap库只支持BPF接口的内核过滤。如果主机上没有BPF机制,则所有的数据包都必须读取到用户空间后,再在Libpcap库中进行过滤处理,这样就会增加额外的处理负担,导致性能的下降。
系统由网络接口卡、BPF和Libpcap组成。网卡部分监视共享网络中的所有包,BPF用过滤条件匹配监视到的包,若匹配成功则将之从网卡驱动的缓冲区复制到核心区。
核心缓冲区分为两部分:存储缓冲区和复制缓冲区。存储缓冲区用于容纳过滤匹配成功后的数据包,复制缓冲区用于将包从核心缓冲区复制到用户缓冲区。当存储缓冲区满而复制缓冲区空时,BPF将两者交换。这样的设计使用户程序不需与网卡驱动程序交互。
Libpcap完成了如下工作:
·向用户程序提供抽象接口
·根据用户要求生成过滤指令
·管理用户缓冲区(用户程序不可见)
·负责用户程序与内核的交互
以上是一部分介绍,如需要完整的资料或者如不符合您的要求,请联系技术人员qq:242219979咨询
上一篇:asp小型公司人事管理系统
下一篇:asp电子论坛系统