范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

达摩院开源半监督学习框架Dash,刷新多项SOTA

  机器之心专栏
  作者:达摩院
  本文介绍机器学习顶级国际会议 ICML 2021 接收的 long talk (top 3.02%) 论文 "Dash: Semi-Supervised Learning with Dynamic Thresholding"。
  一、研究背景
  监督学习(Supervised Learning)
  我们知道模型训练的目的其实是学习一个预测函数,在数学上,这可以刻画成一个学习从数据 (X) 到标注 (y) 的映射函数。监督学习就是一种最常用的模型训练方法,其效果的提升依赖于大量的且进行了很好标注的训练数据,也就是所谓的大量带标签数据 ((X,y))。但是标注数据往往需要大量的人力物力等等,因此效果提升的同时也会带来成本过高的问题。在实际应用中经常遇到的情况是有少量标注数据和大量未标注数据,由此引出的半监督学习也越来越引起科学工作者的注意。
  半监督学习(Semi-Supervised Learning)
  半监督学习同时对少量标注数据和大量未标注数据进行学习,其目的是借助无标签数据来提高模型的精度。比如 self-training 就是一种很常见的半监督学习方法,其具体流程是对于标注数据 (X, y) 学习数据从 X 到 y 的映射,同时利用学习得到的模型对未标注数据 X 预测出一个伪标签
  ,通过对伪标签数据 (X,
  )进一步进行监督学习来帮助模型进行更好的收敛和精度提高。
  核心解决问题
  现有的半监督学习框架对无标签数据的利用大致可以分为两种,一是全部参与训练,二是用一个固定的阈值卡出置信度较高的样本进行训练 (比如 FixMatch)。由于半监督学习对未标注数据的利用依赖于当前模型预测的伪标签,所以伪标签的正确与否会给模型的训练带来较大的影响,好的预测结果有助于模型的收敛和对新的模式的学习,差的预测结果则会干扰模型的训练。所以我们认为:不是所有的无标签样本都是必须的!
  二、论文 & 代码
  论文链接:https://proceedings.mlr.press/v139/xu21e/xu21e.pdf 代码地址:https://github.com/idstcv/Dash 技术应用:https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
  这篇论文创新性地提出用动态阈值(dynamic threshold)的方式筛选无标签样本进行半监督学习(semi-supervised learning,SSL)的方法,我们改造了半监督学习的训练框架,在训练过程中对无标签样本的选择策略进行了改进,通过动态变化的阈值来选择更有效的无标签样本进行训练。Dash 是一个通用策略,可以轻松与现有的半监督学习方法集成。实验方面,我们在 CIFAR-10, CIFAR-100, STL-10 和 SVHN 等标准数据集上充分验证了其有效性。理论方面,论文从非凸优化的角度证明了 Dash 算法的收敛性质。
  三、方法
  Fixmatch 训练框架
  在引出我们的方法 Dash 之前,我们介绍一下 Google 提出的 FixMatch 算法,一种利用固定阈值选择无标签样本的半监督学习方法。FixMatch 训练框架是之前的 SOTA 解决方案。整个学习框架的重点可以归纳为以下几点:
  fixmatch 的优点是用弱增强数据进行伪标签的预测,增加了伪标签预测的准确性,并在训练过程中用固定的阈值 0.95(对应 loss 为 0.0513) 选取高置信度(阈值大于等于 0.95,也就是 loss 小于等于 0.0513)的预测样本生成伪标签,进一步稳定了训练过程。
  Dash 训练框架
  下图对比了训练过程中的 FixMath 和 Dash 选择的正确样本数和错误样本数随训练进行的变化情况(使用的数据集是 cifar100)。从图中可以很清楚地看到,对比 FixMatch,Dash 可以选取更多正确 label 的样本,同时选择更少的错误 label 的样本,从而最终有助于提高训练模型的精度。
  我们的算法可以总结为如下 Algorithm 1。Dash 是一个通用策略,可以轻松与现有的半监督学习方法集成。为了方便,在本文的实验中我们主要将 Dash 与 FixMatch 集成。更多理论证明详见论文。
  四、结果
  我们在半监督学习常用数据集:CIFAR-10,CIFAR-100,STL-10 和 SVHN 上进行了算法的验证。结果分别如下:
  可以看到我们的方法在多个实验设置上都取得了比 SOTA 更好的结果,其中需要说明的是针对 CIFAR-100 400label 的实验,ReMixMatch 用了 data align 的额外 trick 取得了更好的结果,在 Dash 中加入 data align 的 trick 之后可以取得 43.31% 的错误率,低于 ReMixMatch 44.28% 的错误率。
  五、应用
  实际面向任务域的模型研发过程中,该半监督 Dash 框架经常会被应用到。接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验): https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

莉雅乌兹别克斯坦首都金融中心项目正由上海企业建设,希望能像陆家嘴一样具有国际影响力继去年百年大党老外讲故事百集融媒体产品,境内外播放量突破16亿之后,老外讲故事迎来第二季海外员工看中国。100位不同国度的海外员工,用最接地气的方式,讲述自己在中国央企和上海企业海金融反腐又来袭,天津放松限购了今天A股又跌上了热搜,两市绿化面积达到近90!4200多只下跌,不到600家上涨,43家跌停,涨跌中位数2。62,又是集体大面的一天。这周4个交易日,上证合计跌超4,深成指跌5,创新款奔驰C级正式上市33。1540。73万元配置调整爱卡汽车国内新车原创日前,我们从奔驰官网获悉,新款奔驰C级正式上市,售价区间为33。1540。73万元。作为年度改款车型,新车延续了老款车型的设计,主要针对配置进行调整。详细售价请通俗版人民币贬值汇率破7,对普通人有什么影响?昨天在外汇市场上,人民币对美元汇率跌破7,这对我们普通人有什么影响。很多专家讲得太深奥部分人可能不太看得懂,在这里我们来通俗地讲一下。破7,简单地说就是,前段时间你可以用6。8元人新车定了!9月23日上市,售15万起,别克昂扬到店,1。5T四缸动力文懂车帝原创高帅鹏懂车帝原创产品继8月份在2022成都车展首发亮相后,别克品牌全新紧凑型SUV昂扬实车日前到店。此前该车已宣布开启预售,售价为15万元起,随后这款车将在9月23日宣天药股份(600488。SH)计提固定资产减值准备预计将减少归母净利5128万元智通财经APP讯,天药股份(600488。SH)公告,根据相关文件要求,公司及子公司天津金耀生物科技有限公司(金耀生物)的燃煤锅炉及其附属设施将不再符合运行标准,将于2022年底前施罗德过去一年被误解,我将回湖人让一切重回正轨自由球员后卫丹尼斯施罗德一年264万美元和湖人签约,重回洛杉矶。施罗德更新社媒过去一年感觉不对,我感觉到了被误解,没人知道实情。我将回到这个最伟大的球队,让它重回正轨。我希望湖人球粤媒河北队锁定一个降级名额,广州城亚泰等7队均可能降级直播吧9月17日讯本赛季中超赛程过半,新快报分析了保级形势,认为河北队已经锁定了一个降级名额,而其余两个降级名额的归属,从第11名的长春亚泰到第17名的广州城都有可能。按照本赛季的万科A董监高自愿取消增持计划价格上限证券时报记者黄翔9月16日晚间,万科A(000002)公告,由于近日公司股价长时间高于原定增持价格上限,为了能够继续实施增持计划,增持主体(董事会主席郁亮,监事会主席解冻等)自愿取湖人曾讨论四方交易,试图得到博扬博格达诺维奇和罗齐尔TheAthletic记者JovanBuha和SamAmick联合报道,多位消息人士透露,在多诺万米切尔被交易去骑士之前,湖人和爵士尼克斯黄蜂讨论过四方交易初步方案是博扬博格达诺维习近平会见巴基斯坦总理夏巴兹当地时间16日上午,国家主席习近平在撒马尔罕国宾馆会见巴基斯坦总理夏巴兹。当地时间9月16日上午,国家主席习近平在撒马尔罕国宾馆会见巴基斯坦总理夏巴兹。新华社记者申宏摄习近平指出,