python实现基于朴素贝叶斯的垃圾分类算法_Python

一、模型方法

本工程采用的模型方法为朴素贝叶斯分类算法，它的核心算法思想基于概率论。我们称之为“朴素”，是因为整个形式化过程只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策理论的一部分，所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。假设现在我们有一个数据集，它由两类数据组成，数据分布如下图所示。

python实现基于朴素贝叶斯的垃圾分类算法

我们现在用p1(x,y)表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：

如果 p1(x,y) > p2(x,y)，那么类别为1。

如果 p2(x,y) > p1(x,y)，那么类别为2。

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

在本工程中我们可以使用条件概率来进行分类。其条件概率公式如下：

python实现基于朴素贝叶斯的垃圾分类算法

二、系统设计

python实现基于朴素贝叶斯的垃圾分类算法

数据的收集及保存

邮件的收集来源于网上，保存在email文件夹中。其中email分两个子文件，一个为ham文件夹（保存非垃圾邮件），另一个为spam文件夹（保存垃圾邮件）。ham与spam中各保存25各邮件，保存格式为x.txt(x为1到25)。

训练集和测试集的选取

由于收集的邮件个数有限，故选取80%的邮件作为训练集，其方式为随机选取。剩余20%邮件作为测试集。

特征向量构建

特征向量的构建分为两种，一个为对训练集的特征向量构建。一个为测试集的特征向量构建。对于训练集特征向量只需要分为两类，因为邮件只分为垃圾邮件和非垃圾邮件。特征向量分为对训练集中所有垃圾邮件中构成的特征向量（记做w）和训练集中所有非垃圾邮件构成特征向量（记做w'）。对于w的计算实际就是统计所有训练集中垃圾邮件中的每个单词的出现情况，出现则次数加1。其计数初值为1，按照正常情况应为0，因为用的朴素贝叶斯算法，假设所有词都互相独立，就有p(w|ci) = p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)。所以当第i个单词wi在其特征向量中没有出现，则有p(wi|ci) =0,这就导致了p(w|ci)导致结果的不正确性。所以我们索性将所有单词默认出现1遍，所以从1开始计数。对于w'的计算和w的计算方法相同，这里就不在赘述。

对于测试集的特征向量构建就是对每个邮件中单词出现的次数进行统计，其单词表可以来源于50个邮件中的所有单词。对于每一个邮件中单词如果出现就加1，其计数初值为0。每个测试集的邮件都需构建特征向量。其特征向量在python中可用列表表示。

构建贝叶斯分类器

对于分类器的训练其目的训练三个参数为p1Vect(w中每个单词出现的概率构成的特征向量)、p0Vect(w'中每个单词出现的概率构成的特征向量)和pAbusive(训练集中垃圾邮件的概率)。对于p1Vect、p0Vect计算可能会造成下溢出，这是由于太多很小的数相乘造成的。当计算乘积p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)时，由于大部分因子都非常小，所以程序会下溢出或者得到不正确的答案。一种解决办法是对乘积取自然对数。在代数中有ln(a*b) = ln(a)+ln(b)，于是通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。图1给出函数f(x)与ln(f(x))的曲线。检查这两条曲线，就会发现它们在相同区域内同时增加或者减少，并且在相同点上取到极值。它们的取值虽然不同，但不影响最终结果。

python实现基于朴素贝叶斯的垃圾分类算法