毕业设计网
毕业设计论文 | 毕业设计任务书 | 计算机外文翻译 | 文献综述 | 机械模具类 | 课程设计 |

神经网络的垃圾邮件分类系统

研究的内容:
神经网络算法:交叉覆盖
1 交叉覆盖算法是神经网络算法的一种,它利用了M-P神经元的几何模型,考虑到了网络结构的优化问题。
2:它处理邮件分类过程大致如下:
核心:(一)训练样本集的建立 :.神经网络的输入是电子邮件的特征向量。可以将电子邮件的属性看成是一种特殊的文本信息,用向量的空间模型为基础进行处理后给出特征向量。
     (二) 网络训练与识别算法:得到电子邮件的特征向量后形成样本集,利用覆盖算法,让机器去总结样本的相似与差异之处。构造相应的交叉覆盖网络,从而去处理新的样本集。这样就可以区分合法邮件与垃圾邮件。
     (三)样本X的覆盖过程:(1)求学习样本 X中样本的最大模 r(i)并将 X中的点投影        到中心在原点 、半径为 r的球面上 
(2) 取类别号 i=1,构造覆盖 C(i).
(3) 若 X(i)中没有尚未覆盖的点 训练结束。否则, 任取 X(i)中尚未被覆盖的一点 a(i)
(4) 按W=max{a(i)   X}计算以a(i)为中心,W为临界值的覆盖C{a(i)}
(5) 求C{a(i)}所覆盖的点的重心, 并将其映射到球面上 ,设投影点为a(ii),按(2)式计算其阈值W’,得球形领域C{a’(i)}
(6)若C{a’(i)}覆盖的点数大于C{a(i)}所覆盖的点数,则令a(ii)->a(i),W’->W返回(5),否则转向(7)
(7)求a(ii)的平移点a(ii)’ ,并求对应的球形领域C{a(ii)’},若C{a(ii)’}覆盖的点数大于C{a’(i)}
覆盖的点数,转(5),否则, 得 C(i)的一个覆盖 ;若 i<k,则 i+1 ->i, 转(3),否则 ,训练结束


大致过程:新收到的电子邮件-->提取文本属性-->训练样本集-->得到特征向量-->覆盖算法-->构造过滤器-->区分合法邮件和垃圾邮件

研究方法:
系统架构:基于java语言,Eclipse,或者myeclipse编译环境下,对接收到的邮件进行分析,将它转化成html代码的形式。根据html语言的特点对其进行特征提取,完成邮件预处理的过程,运用神经网络算法,建立分类器模型,从而区分合理邮件与垃圾邮件。
         
关键技术:1:熟悉java,html语言,Eclipse软件的应用。
          2:电子邮件的组织结构,工作原理,传输协议。
          3:交叉覆盖算法。
          4:建立过滤器模型。

功能模块:  邮件接收和邮件分类。
 


研究条件:
   主要是在自己的电脑上,学习java ,html语言,学习电子邮件的组织结构,工作原理,传输协议。利用图书馆中的资源以及网络上的资源,研究交叉覆盖算法的本质,应用到邮件分类中。


研究进度安排:
论文题目下发——寒假期间   阅读参考文献、查阅相关资料。
1 ——4周   准备开题报告 
 5 ——7周    学习html,java,电子邮件原理,为接下来模块功能的实现做准备
8 —— 9周   根据要求完成各个子模块的划分,详细分析他们所实现的逻辑功能
             
10——12周  学习交叉覆盖算法。
13——14周  应用神经网络算法,实现基于java的邮件分类系统的实现
15——16周  整理论文,准备答辩。

以上是一部分介绍,如需要完整的资料或者如不符合您的要求,请联系技术人员qq:242219979咨询

上一篇:jsp高校社团联合会信息系统
下一篇:基于PHP的SPOC在线课程平台设计


版权所有 毕业设计网联系qq:242219979 © 2007-2022