范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

线性代数大师贝叶斯重出江湖,python中的朴素贝叶斯还那么难吗?

  本教程将使您了解如何使用 Python 的 Scikit-learn 包构建和评估朴素贝叶斯分类器。
  假设您是产品经理,您想将客户评论分为正面和负面类别。 或者作为贷款经理,您想确定哪些贷款申请人是安全的还是有风险的? 作为医疗保健分析师,您希望预测哪些患者可能患有糖尿病。 所有示例都存在对评论、贷款申请人和患者进行分类的相同问题。
  朴素贝叶斯是最直接、最快速的分类算法,适用于大量数据。 朴素贝叶斯分类器成功地用于各种应用,例如垃圾邮件过滤、文本分类、情感分析和推荐系统。 它使用贝叶斯概率定理来预测未知类。
  在本教程中,您将了解以下所有内容:  分类工作流程  什么是朴素贝叶斯分类器?  朴素贝叶斯分类器如何工作?  Scikit-learn 中的分类器构建  零概率问题  它的优点和缺点  1 分类工作流程
  无论何时执行分类,第一步都是了解问题并识别潜在的特征和标签。 特征是影响标签结果的那些特征或属性。 例如,在贷款分配的情况下,银行经理确定客户的职业、收入、年龄、地点、以前的贷款历史、交易历史和信用评分。 这些特征被称为帮助模型对客户进行分类的特征。
  分类有两个阶段,学习阶段和评估阶段。 在学习阶段,分类器在给定的数据集上训练其模型,在评估阶段,它测试分类器的性能。 性能是根据各种参数进行评估的,例如准确度、误差、精度和召回率。
  2 什么是朴素贝叶斯分类器?
  朴素贝叶斯是一种基于贝叶斯定理的统计分类技术。 它是最简单的监督学习算法之一。 朴素贝叶斯分类器是一种快速、准确和可靠的算法。 朴素贝叶斯分类器在大型数据集上具有很高的准确性和速度。
  朴素贝叶斯分类器假设类中特定特征的效果独立于其他特征 。 例如,贷款申请人是否可取取决于他/她的收入、以前的贷款和交易历史、年龄和位置。 即使这些特征相互依赖,这些特征仍然被独立考虑 。 这个假设简化了计算,这就是为什么它被认为是"朴素"的。 这种假设称为类条件独立 。
  P(h):假设 h 为真的概率(无论数据如何)。 这称为 h 的先验概率。  P(D):数据的概率(无论假设如何)。 这被称为先验概率。  P(h|D):给定数据 D 的假设 h 的概率。这称为后验概率。  P(D|h):假设 h 为真,数据 D 的概率。 这称为后验概率。   3 朴素贝叶斯分类器如何工作?
  此节涉及大量线性代数与概率的知识,对理论研究有高要求的读者可参考更专业的书籍,只关心如何应用的读者可以跳过此节。我也只关心应用,因此,咱们一起跳过此节吧。留个标题只为结构完整性。哈哈哈 希望数学老师原谅我
  4 Scikit-learn     中的分类器构建      4.1 朴素贝叶斯分类器
  1)定义数据集
  在此示例中,您可以使用具有三列的虚拟数据集:天气、温度和是否出去玩。 前两个是特征(天气、温度),另一个是标签。
  2)编码特征
  首先,您需要将这些字符串标签转换为数字。 例如:"Overcast", "Rainy", "Sunny" as 0, 1, 2。这称为标签编码。 Scikit-learn 提供了 LabelEncoder 库,用于对标签进行编码,其值在 0 到 1 之间,小于离散类的数量。
  同样,您也可以对 temp 和 play 列进行编码。
  现在将这两个特征(天气和温度)组合在一个变量(元组列表)中。
  3)生成模型
  在以下步骤中使用朴素贝叶斯分类器生成模型:  创建朴素贝叶斯分类器  将数据集拟合到分类器上  执行预测
  这里,1 表示玩家可以"出去玩"。  4.2 具有多个标签的朴素贝叶斯
  到目前为止,您已经学习了使用二进制标签的朴素贝叶斯分类。 现在您将了解朴素贝叶斯中的多类分类。 这被称为多项朴素贝叶斯分类。 例如,如果您想对有关技术、娱乐、政治或体育的新闻文章进行分类。
  在模型构建部分,您可以使用葡萄酒数据集,这是一个非常著名的多类分类问题。 "这个数据集是对在意大利同一地区种植但来自三种不同品种的葡萄酒进行化学分析的结果。"
  数据集包含 13 个特征(酒精、苹果酸、灰分、alcalinity_of_ash、镁、总酚、黄酮类化合物、非黄酮类酚、原花青素、颜色强度、色调、od280/od315_of_diluted_wines、脯氨酸)和葡萄酒品种类型。 该数据有3种酒类Class_0、Class_1和Class_3。 在这里,您可以建立一个模型来对葡萄酒的类型进行分类。
  该数据集在 scikit-learn 库中可用。
  1)加载数据
  让我们首先从 scikit-learn 数据集中加载所需的 wine 数据集。
  2)探索数据
  您可以打印目标和特征名称,以确保您拥有正确的数据集,如下所示:
  稍微探索一下您的数据总是不会错的,这样您就知道自己在处理什么。 在这里,您可以看到打印了数据集的前五行,以及整个数据集的目标变量。
  3)拆分数据
  首先,您将列分为因变量和自变量(或特征和标签)。 然后将这些变量拆分为训练集和测试集。
  4)生成模型
  拆分后,您将在训练集上生成一个随机森林模型,并对测试集特征进行预测。
  5)评估模型
  模型生成后,使用实际值和预测值检查准确性。
  5 零概率问题
  假设数据集中没有风险贷款的元组,在这种情况下,后验概率为零,模型无法做出预测。 这个问题被称为零概率,因为特定类的出现为零。
  此类问题的解决方案是拉普拉斯校正(Laplacian correction)或拉普拉斯变换(Laplace Transformation)。 拉普拉斯校正是平滑技术之一。 在这里,您可以假设数据集足够大,每个类添加一行不会对估计的概率产生影响。 这将克服概率值为零的问题。
  例如:假设对于有风险的类贷款,数据库中有 1000 个训练元组。 在这个数据库中,收入列有 0 个元组代表低收入,990 个元组代表中等收入,10 个元组代表高收入。 在没有拉普拉斯校正的情况下,这些事件的概率为 0、0.990(来自 990/1000)和 0.010(来自 10/1000)
  现在,对给定的数据集应用拉普拉斯校正。 让我们为每个收入-价值对再添加 1 个元组。 这些事件的概率:
  6 优点      它不仅是一种简单的方法,而且是一种快速准确的预测方法。  朴素贝叶斯的计算成本非常低。  它可以有效地处理大型数据集。  与连续变量相比,它在离散响应变量的情况下表现良好。  它可以用于多类预测问题。  它在文本分析问题的情况下也表现良好。  当独立性假设成立时,朴素贝叶斯分类器与其他模型(如逻辑回归)相比表现更好。  7 缺点独立特征的假设。 在实践中,模型几乎不可能得到一组完全独立的预测变量。  如果没有特定类的训练元组,这将导致后验概率为零。 在这种情况下,模型无法做出预测。 这个问题被称为零概率/频率问题。  8 结论
  在本教程中,您了解了朴素贝叶斯算法、它的工作原理、朴素贝叶斯假设、问题、实现、优点和缺点。 在此过程中,您还学习了 scikit-learn 中二元和多项类的模型构建和评估。
  朴素贝叶斯是最直接和最有效的算法。 尽管机器学习在过去几年取得了重大进展,但它已经证明了它的价值。 它已成功部署在从文本分析到推荐引擎的许多应用程序中。

苏宁双十一母婴榜单大变样惠氏登顶帮宝适赶超花王苏宁红孩子X新丝路少儿型秀大赛晋级赛,即将于11月10日在北京上海南京等7座城市拉开序幕,苏宁红孩子的关注度近期急速上升。母婴市场同时迎来双十一冲刺,如果不囤点货,实在太亏了,毕竟定制男友魏大勋空降苏宁817发烧夜引众粉丝直呼老公苏宁818发烧购物节在8月17日晚间迎来了最燃时刻。在当晚9点半,817头号买家发烧夜火热开场,众多明星空降苏宁燃客城,上演了一场电商与流量明星IP带货直播与娱乐互动等元素深度融合让你的肾上腺素飙升生化危机7什么笔记本电脑能玩?有一款游戏,笔者在玩的时候往往会将音量调到最小,将家里的灯光调到最大,它就是生化危机7。虽然这不是最恐怖的游戏,但压抑的暗色调的氛围第一人称视角控制以及突然崩出的怪物往往都会让人肾3杯奶茶焕一个月的面膜囤货到手软你以为购物只是拼大脑,拼手速的智慧交锋,操作对垒?那你的想法未免太简单。如今的购物不再局限于之前的智慧交锋还有操作对垒,而是我们开始在购物的同时让自己的生活越来越好,让自己的状态焕OPPOfindx3和iQOO7相比较,该如何选择?如果非要在这两款手机中选择一款手机进行购买,小芳我个人会更加倾向于OPPOFindx3这款手机会更多一些。不过大家在实际的购买手机的过程当中,因为看重的东西是不一样的,那么做出的最招商港口2021年上半年归母净利润16。8亿元,同比大涨1。6倍8月30日晚间,招商港口(001872。SZ)披露了2021年半年报。上半年,公司实现营业收入73。4亿元,同比增长23。1实现归母净利润16。8亿元,同比大幅增长165。2,业绩左辉的死深度反思钱与命,最后的离去的情形不忍再看金钱,是世界上最具诱惑力的东西,同时它也最富争议性。在市场经济下的今天,钱虽不是万能的,但没钱却是万万不能的。有人用身体换钱,有人用坐牢换钱,有人用生命换钱。但不个管你怎么去换,象手机玻璃大王周群飞坚守真爱嫁司机老公你知道你用的手机屏谁造的吗?你知道一个湖南打工妹变身超级富豪的湖南辣妹子周群飞吗?你知道她发达后依然嫁给她公司以前货车司机郑俊龙吗?在如此物欲横流的社飞,蓝思科技老板周群飞似一股清财报各不同长城长安在赚钱,比亚迪却在募钱随着2021年渐渐结尾,各车企的季度财报也随之披露。近日,长城汽车公布了第三季度财报。总的来说,长城汽车第三季度表现稳定。账面上,长城汽车共计营收907。97亿元,相比去年同期的6外观动感内饰时尚2020款丰田汉兰达官图发布近日,丰田汽车发布了一组2020款丰田汉兰达的官方图片,新车大胆而独特的设计水平提高了一个新水平,不仅提升了所有品质,同时又采用了引人注目的新设计方向,将强大的SUV外观与精致的细惊现天价停车费我们该拿起法律武器向一切违法讨要公道停车场惊现天价停车费,河南郑州某地停车3小时竟然收费2740元,事后物业声称一旦调查结果和他们所猜想的一样,女车主将面临10倍罚款,这究竟是怎么回事呢?据了解,温女士在一大厦附近上
兵马未动粮草先行,特斯拉正偷偷下着一盘大棋妖镍涨幅不断,电池原材料价格也跟着附和,一唱一和伴随着政府补贴的逐渐退坡,一场在车企间无声的战争就此打响各行各业,越领先的公司就越追求效率和掌控力。一直专注于如何快人一步保障自己的电子行业深度智能化与电动化方兴未艾,汽车电子全面成长特斯拉是软件定义汽车的先导者也是电动车智能车的全球领导者,在其软件服务体系中以FSD自动驾驶选装包OTA付费升级包高级车联网服务为核心,收费模式除了一次性前装收费,还另外包含订阅服对新能源赛道的一点感悟说说去年行情的起源,锂电在去年二季度起爆,二季度,三季度,四季度,基金连续性增仓,到去年第四季度为止,锂电超越了白酒,成了基金第一重仓行业这是开盘啦的基金持仓统计数据,APP里面也三月新能源车销量广汽埃安20,317台,同比189,一季度44874台,同比154。26小鹏15414台,同比202,一季度34561台,同比260哪吒12026台,同比270,一季度30152台怎么还有中年人把互联网公司当成自己家不宜高调作者肖芳编辑文姝琪最近,很多遭遇裁员的互联网大厂朋友和我诉苦,大家的心态无非几种1还不能接受自己被裁的事实。慌张焦虑,情绪崩溃,怨天尤人,甚至有一部分人采取极端的方式和公司对抗。2Luna,一场400亿美元央行梦出品虎嗅科技组作者周舟头图视觉中国随着Luna几近归零,一场币圈史诗级多空大战终于告一段落。当我们打扫战场,这才发现币圈金融战争所展现出的残酷细节LUNA2000亿元的市值,两天内同城货运钱途有点愁配图来自Canva可画随着互联网浪潮席卷各个行业,同城货运领域也在极短的时间内聚集了大量的新玩家。一时间同城货运市场的竞争变得空前激烈,但最后成功突围活下来的也就只有货拉拉快狗打车谈谈国轩高科01国轩高科年报简评21年营业收入103。6亿元,同比增长54归母净利润为1亿元,同比降低32扣非净利润为3。4亿元,同比下滑45毛利率为18。61,同比下滑6。62个百分点。又是iOS16系统界面曝光!期待的功能都有了,这确定没借鉴安卓?不可否认的是,很多用户选择iPhone手机,很大一部分原因都是因为系统,更极致的交互体验更健全的隐私安全保护等,让不少果粉引以为傲。当然也有很多有想法的用户,总会提出各种自己对iO助听器该带什么样子的好?根据本人听力情况验配助听器,如果听力损失很重,耳道是油性耳垢有中耳炎,建议选配耳背式。如果听力不是很差而又较为介意外观的话,耳道没问题的话建议选配耳内机。您好这个要取决于听力情况和现代战争有哪些发展,变化与进步?现代战争理论,已发生了深刻的变革,传统的3C概念,核威摄核保护战略,进攻防守概念,集团人海概念,都将受到颠复性的更新换代。战争阶段分为a,冷兵器时代。b,热兵器时代。c,核武时代。