AI red teamer (人工智能红队)系列06-人工智能基础-朴素贝叶斯
朴素贝叶斯
朴素贝叶斯是一种用于分类任务的概率算法。它基于贝叶斯定理,这是概率论中的一个基本概念,描述了基于先验知识和观察到的证据来描述事件概率。朴素贝叶斯因其简单性、效率以及在实际场景中出奇的好性能,在诸如垃圾邮件过滤和情感分析等任务中非常受欢迎。
贝叶斯定理
在深入了解 朴素贝叶斯
之前,让我们先了解一下它的核心概念:贝叶斯定理
。该定理提供了一种根据新证据更新我们对某一事件的信念的方法。它允许我们在另一个事件已经发生的情况下计算该事件的概率。
数学上表示为
P(A|B) = [P(B|A) * P(A)] / P(B)
P(A|B)
:在事件A
已经发生的情况下,事件B
发生的后验概率。P(B|A)
:在事件A
已经发生的情况下,事件B
发生的可能性。P(A)
:事件A
发生的先验概率。P(B)
:事件B
发生的先验概率。
假设我们想知道某人在某种疾病(A
)检测呈阳性(B
)的情况下患病的概率。贝叶斯定理
允许我们使用患有该疾病的先验概率(P(A)
)、该人患有该疾病时检测呈阳性的可能性(P(B|A)
)和检测呈阳性的总概率(P(B)
)来计算该概率。
假设我们有以下信息:
- 该疾病在人群中的发病率为 1%,因此
P(A) = 0.01
。 - 该测试的准确率为 95%,也就是说,如果有人患病,95% 的情况下测试结果呈阳性,因此
P(B|A) = 0.95
。 - 检测的假阳性率为 5%,也就是说,如果一个人没有患病,他的检测结果也会有 5% 呈阳性。
- 检测呈阳性的概率,
P(B)
,可以用总概率定律来计算。
首先,让我们计算 P(B)
:
P(B) = P(B|A) * P(A) + P(B|¬A) * P(¬A)
P(¬A)
:不患病的概率,即1 - P(A)= 0.99
。P(B|¬A)
:在患者未患病的情况下,检测结果呈阳性的概率,即假阳性率,0.05
。
现在,将数值代入:
P(B) = (0.95 * 0.01) + (0.05 * 0.99)
= 0.0095 + 0.0495
= 0.059
接下来,我们使用贝叶斯定理求出 P(A|B)
:
P(A|B) = [P(B|A) * P(A)] / P(B)
= (0.95 * 0.01) / 0.059
= 0.0095 / 0.059
≈ 0.161
因此,如果某人的检测结果呈阳性,那么他患病的概率约为 16.1%。
本例演示了贝叶斯定理
如何用于根据新证据更新我们对事件可能性的信念。在本例中,尽管检测结果相当准确,但疾病的低流行率意味着检测结果呈阳性表明疾病实际存在的概率仍然相对较低。
朴素贝叶斯工作原理
朴素贝叶斯
分类器利用贝叶斯定理
来预测一个数据点在其特征条件下属于某个特定类别的概率。为此,它会 "天真 "地假设特征之间的条件独立性。这意味着,在我们知道类别标签的情况下,它假设一个特征的存在或不存在不会影响任何其他特征的存在或不存在。
让我们来分析一下如何实际操作:
计算先验概率
:算法首先计算每个类别的先验概率。这是在考虑数据特征之前,数据点属于某一特定类别的概率。例如,在垃圾邮件检测场景中,一封邮件是垃圾邮件的概率可能是 0.2(20%),而不是垃圾邮件的概率是 0.8(80%)。
计算可能性:
接下来,算法会计算在每个类别中观察到每个特征的可能性。这包括确定在数据点属于特定类别的情况下看到特定特征值的概率。例如,如果一封邮件是垃圾邮件,那么在邮件中看到 "免费 "一词的可能性有多大?如果不是垃圾邮件,看到 "会议 "一词的可能性有多大?
应用贝叶斯定理:
对于一个新数据点,算法会使用 贝叶斯定理
将先验概率和似然结合起来,计算出该数据点属于每个类别的 后验概率
。后验概率
是在考虑了新信息(观察到的特征)后,事件(在本例中,数据点属于某个类别)的更新概率。这表示在考虑观察到的特征后,对类别标签的修正信念。
预测类别:
最后,算法会将数据点分配给后验概率最高的类别。
尽管在现实数据中,这种特征独立性的假设往往被违反(例如,“免费”和“伟哥”这样的词在垃圾邮件中确实更可能同时出现),但在实际应用中,朴素贝叶斯通常表现得相当出色。
朴素贝叶斯分类器的类型
朴素贝叶斯
的具体实现取决于特征类型及其假定分布:
- 高斯朴素贝叶斯:当特征是连续的并且假设遵循高斯分布(钟形曲线)时使用。例如,如果根据客户的年龄和收入预测客户是否会购买产品,可以使用高斯朴素贝叶斯,假设年龄和收入是正态分布的。
- 多项式朴素贝叶斯:适用于离散特征,常用于文本分类。例如,在垃圾邮件过滤中,像“免费”或“金钱”这样的词的频率可能是特征,多项式朴素贝叶斯将建模这些词出现在垃圾邮件和非垃圾邮件中的概率。
- 伯努利朴素贝叶斯:这种类型用于二元特征,其中特征要么存在,要么不存在。在文档分类中,一个特征可能是特定单词是否存在于文档中。伯努利朴素贝叶斯将模拟每个类别的存在或不存在概率。
选择使用哪种类型的 朴素贝叶斯
取决于数据的性质和要解决的具体问题。
数据假设
虽然朴素贝叶斯相对稳健,但了解一些数据假设还是有帮助的:
特征独立性:
如前所述,核心假设是给定类的特征是有条件独立的。数据分布:
朴素贝叶斯 分类器(高斯、多项式、伯努利)的选择取决于假定的特征分布。足够的训练数据:
尽管 朴素贝叶斯 可以使用有限的数据,但拥有足够的数据来准确估计概率是非常重要的。
Comments NOTHING