线性代数大师贝叶斯重出江湖,python中的朴素贝叶斯还那么难吗?
本教程将使您了解如何使用 Python 的 Scikit-learn 包构建和评估朴素贝叶斯分类器。
假设您是产品经理,您想将客户评论分为正面和负面类别。 或者作为贷款经理,您想确定哪些贷款申请人是安全的还是有风险的? 作为医疗保健分析师,您希望预测哪些患者可能患有糖尿病。 所有示例都存在对评论、贷款申请人和患者进行分类的相同问题。
朴素贝叶斯是最直接、最快速的分类算法,适用于大量数据。 朴素贝叶斯分类器成功地用于各种应用,例如垃圾邮件过滤、文本分类、情感分析和推荐系统。 它使用贝叶斯概率定理来预测未知类。
在本教程中,您将了解以下所有内容: 分类工作流程 什么是朴素贝叶斯分类器? 朴素贝叶斯分类器如何工作? Scikit-learn 中的分类器构建 零概率问题 它的优点和缺点 1 分类工作流程
无论何时执行分类,第一步都是了解问题并识别潜在的特征和标签。 特征是影响标签结果的那些特征或属性。 例如,在贷款分配的情况下,银行经理确定客户的职业、收入、年龄、地点、以前的贷款历史、交易历史和信用评分。 这些特征被称为帮助模型对客户进行分类的特征。
分类有两个阶段,学习阶段和评估阶段。 在学习阶段,分类器在给定的数据集上训练其模型,在评估阶段,它测试分类器的性能。 性能是根据各种参数进行评估的,例如准确度、误差、精度和召回率。
2 什么是朴素贝叶斯分类器?
朴素贝叶斯是一种基于贝叶斯定理的统计分类技术。 它是最简单的监督学习算法之一。 朴素贝叶斯分类器是一种快速、准确和可靠的算法。 朴素贝叶斯分类器在大型数据集上具有很高的准确性和速度。
朴素贝叶斯分类器假设类中特定特征的效果独立于其他特征 。 例如,贷款申请人是否可取取决于他/她的收入、以前的贷款和交易历史、年龄和位置。 即使这些特征相互依赖,这些特征仍然被独立考虑 。 这个假设简化了计算,这就是为什么它被认为是"朴素"的。 这种假设称为类条件独立 。
P(h):假设 h 为真的概率(无论数据如何)。 这称为 h 的先验概率。 P(D):数据的概率(无论假设如何)。 这被称为先验概率。 P(h|D):给定数据 D 的假设 h 的概率。这称为后验概率。 P(D|h):假设 h 为真,数据 D 的概率。 这称为后验概率。 3 朴素贝叶斯分类器如何工作?
此节涉及大量线性代数与概率的知识,对理论研究有高要求的读者可参考更专业的书籍,只关心如何应用的读者可以跳过此节。我也只关心应用,因此,咱们一起跳过此节吧。留个标题只为结构完整性。哈哈哈 希望数学老师原谅我
4 Scikit-learn 中的分类器构建 4.1 朴素贝叶斯分类器
1)定义数据集
在此示例中,您可以使用具有三列的虚拟数据集:天气、温度和是否出去玩。 前两个是特征(天气、温度),另一个是标签。
2)编码特征
首先,您需要将这些字符串标签转换为数字。 例如:"Overcast", "Rainy", "Sunny" as 0, 1, 2。这称为标签编码。 Scikit-learn 提供了 LabelEncoder 库,用于对标签进行编码,其值在 0 到 1 之间,小于离散类的数量。
同样,您也可以对 temp 和 play 列进行编码。
现在将这两个特征(天气和温度)组合在一个变量(元组列表)中。
3)生成模型
在以下步骤中使用朴素贝叶斯分类器生成模型: 创建朴素贝叶斯分类器 将数据集拟合到分类器上 执行预测
这里,1 表示玩家可以"出去玩"。 4.2 具有多个标签的朴素贝叶斯
到目前为止,您已经学习了使用二进制标签的朴素贝叶斯分类。 现在您将了解朴素贝叶斯中的多类分类。 这被称为多项朴素贝叶斯分类。 例如,如果您想对有关技术、娱乐、政治或体育的新闻文章进行分类。
在模型构建部分,您可以使用葡萄酒数据集,这是一个非常著名的多类分类问题。 "这个数据集是对在意大利同一地区种植但来自三种不同品种的葡萄酒进行化学分析的结果。"
数据集包含 13 个特征(酒精、苹果酸、灰分、alcalinity_of_ash、镁、总酚、黄酮类化合物、非黄酮类酚、原花青素、颜色强度、色调、od280/od315_of_diluted_wines、脯氨酸)和葡萄酒品种类型。 该数据有3种酒类Class_0、Class_1和Class_3。 在这里,您可以建立一个模型来对葡萄酒的类型进行分类。
该数据集在 scikit-learn 库中可用。
1)加载数据
让我们首先从 scikit-learn 数据集中加载所需的 wine 数据集。
2)探索数据
您可以打印目标和特征名称,以确保您拥有正确的数据集,如下所示:
稍微探索一下您的数据总是不会错的,这样您就知道自己在处理什么。 在这里,您可以看到打印了数据集的前五行,以及整个数据集的目标变量。
3)拆分数据
首先,您将列分为因变量和自变量(或特征和标签)。 然后将这些变量拆分为训练集和测试集。
4)生成模型
拆分后,您将在训练集上生成一个随机森林模型,并对测试集特征进行预测。
5)评估模型
模型生成后,使用实际值和预测值检查准确性。
5 零概率问题
假设数据集中没有风险贷款的元组,在这种情况下,后验概率为零,模型无法做出预测。 这个问题被称为零概率,因为特定类的出现为零。
此类问题的解决方案是拉普拉斯校正(Laplacian correction)或拉普拉斯变换(Laplace Transformation)。 拉普拉斯校正是平滑技术之一。 在这里,您可以假设数据集足够大,每个类添加一行不会对估计的概率产生影响。 这将克服概率值为零的问题。
例如:假设对于有风险的类贷款,数据库中有 1000 个训练元组。 在这个数据库中,收入列有 0 个元组代表低收入,990 个元组代表中等收入,10 个元组代表高收入。 在没有拉普拉斯校正的情况下,这些事件的概率为 0、0.990(来自 990/1000)和 0.010(来自 10/1000)
现在,对给定的数据集应用拉普拉斯校正。 让我们为每个收入-价值对再添加 1 个元组。 这些事件的概率:
6 优点 它不仅是一种简单的方法,而且是一种快速准确的预测方法。 朴素贝叶斯的计算成本非常低。 它可以有效地处理大型数据集。 与连续变量相比,它在离散响应变量的情况下表现良好。 它可以用于多类预测问题。 它在文本分析问题的情况下也表现良好。 当独立性假设成立时,朴素贝叶斯分类器与其他模型(如逻辑回归)相比表现更好。 7 缺点独立特征的假设。 在实践中,模型几乎不可能得到一组完全独立的预测变量。 如果没有特定类的训练元组,这将导致后验概率为零。 在这种情况下,模型无法做出预测。 这个问题被称为零概率/频率问题。 8 结论
在本教程中,您了解了朴素贝叶斯算法、它的工作原理、朴素贝叶斯假设、问题、实现、优点和缺点。 在此过程中,您还学习了 scikit-learn 中二元和多项类的模型构建和评估。
朴素贝叶斯是最直接和最有效的算法。 尽管机器学习在过去几年取得了重大进展,但它已经证明了它的价值。 它已成功部署在从文本分析到推荐引擎的许多应用程序中。
兵马未动粮草先行,特斯拉正偷偷下着一盘大棋妖镍涨幅不断,电池原材料价格也跟着附和,一唱一和伴随着政府补贴的逐渐退坡,一场在车企间无声的战争就此打响各行各业,越领先的公司就越追求效率和掌控力。一直专注于如何快人一步保障自己的
电子行业深度智能化与电动化方兴未艾,汽车电子全面成长特斯拉是软件定义汽车的先导者也是电动车智能车的全球领导者,在其软件服务体系中以FSD自动驾驶选装包OTA付费升级包高级车联网服务为核心,收费模式除了一次性前装收费,还另外包含订阅服
对新能源赛道的一点感悟说说去年行情的起源,锂电在去年二季度起爆,二季度,三季度,四季度,基金连续性增仓,到去年第四季度为止,锂电超越了白酒,成了基金第一重仓行业这是开盘啦的基金持仓统计数据,APP里面也
三月新能源车销量广汽埃安20,317台,同比189,一季度44874台,同比154。26小鹏15414台,同比202,一季度34561台,同比260哪吒12026台,同比270,一季度30152台
怎么还有中年人把互联网公司当成自己家不宜高调作者肖芳编辑文姝琪最近,很多遭遇裁员的互联网大厂朋友和我诉苦,大家的心态无非几种1还不能接受自己被裁的事实。慌张焦虑,情绪崩溃,怨天尤人,甚至有一部分人采取极端的方式和公司对抗。2
Luna,一场400亿美元央行梦出品虎嗅科技组作者周舟头图视觉中国随着Luna几近归零,一场币圈史诗级多空大战终于告一段落。当我们打扫战场,这才发现币圈金融战争所展现出的残酷细节LUNA2000亿元的市值,两天内
同城货运钱途有点愁配图来自Canva可画随着互联网浪潮席卷各个行业,同城货运领域也在极短的时间内聚集了大量的新玩家。一时间同城货运市场的竞争变得空前激烈,但最后成功突围活下来的也就只有货拉拉快狗打车
谈谈国轩高科01国轩高科年报简评21年营业收入103。6亿元,同比增长54归母净利润为1亿元,同比降低32扣非净利润为3。4亿元,同比下滑45毛利率为18。61,同比下滑6。62个百分点。又是
iOS16系统界面曝光!期待的功能都有了,这确定没借鉴安卓?不可否认的是,很多用户选择iPhone手机,很大一部分原因都是因为系统,更极致的交互体验更健全的隐私安全保护等,让不少果粉引以为傲。当然也有很多有想法的用户,总会提出各种自己对iO
助听器该带什么样子的好?根据本人听力情况验配助听器,如果听力损失很重,耳道是油性耳垢有中耳炎,建议选配耳背式。如果听力不是很差而又较为介意外观的话,耳道没问题的话建议选配耳内机。您好这个要取决于听力情况和
现代战争有哪些发展,变化与进步?现代战争理论,已发生了深刻的变革,传统的3C概念,核威摄核保护战略,进攻防守概念,集团人海概念,都将受到颠复性的更新换代。战争阶段分为a,冷兵器时代。b,热兵器时代。c,核武时代。