范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

字节跳动下一代AB实验系统思考

  导读: 本文将介绍实验系统所面临的挑战,以及对未来的展望,主要讲解目前实验平台无法解决的一些问题,以及对下一代评估系统的一些想法和运用。
  今天的介绍会围绕以下两点展开:   传统实验系统无法解决的问题   对下一代实验系统的展望
  在互联网业务中经常会使用实验系统去做策略实验,以帮助决策。例如,测试不同的产品 UI 对用户的影响,进而决定使用哪种 UI。在广告业务中通过实验寻找最佳的投放策略以期获得最大收益。诸如此类,实验系统都会客观地给出决策依据,仿佛它是一个高度智能的系统。但实际上,传统的实验系统建立在 19 世纪的科学上,在那个年代没有互联网,没有推荐算法,没有网购平台,传统的实验系统不可能完全解决现今互联网业务中遇到的种种问题。
  实验系统是如何工作的呢? 实验的目标是评估某一个策略的效果,总结来说总是通过干预这个策略相关的变量,测量和收集实验对象的数据,对数据进行分析,最后验证效果是否显著。
  实验系统中三个最关键的环节是:干预、测量和分析 。如果在其中的某一个环节失败了,那么整个流程都是走不下去的,而每个环节都是有可能会失败的。
  分享嘉宾|Rex 火山引擎 A/B测试研发工程师
  编辑整理|李龙杰 酷狗音乐
  出品社区|DataFun
  01
  传统实验方法无法解决的问题   1. 无法干预   实验理论源于医药行业或者生物行业,称为随机控制实验。实验的前提是一定要随机地将实验对象划分为 A、B 两组,并且随机性不应该受任何因素所影响。但在真实的生活中,有非常多的场景是无法实现这种过于理想化的前提的。 在不能做一个清晰有效的随机分流的时候,如何去评估一个策略的效果呢?   比如在短视频平台上投放某位明星的在线演唱会,会不会让用户更加喜欢这个产品呢?传统的实验方法是无法给这个假设做出定论的,因为不可能让一部分用户看演唱会,而不允许另外一部分人不看演唱会。   这个场景下,也不能直接去比较观众与非观众的指标,因为这两类人群有各自的特征,通俗来说,他们是不可比的。   那是否可以直接比较举办前和举办后的指标变化呢?答案是否定的,因为时间是一个最大的混杂,它可能会影响各种各样的东西,比如天气、工作日还是假期,又比如外部发生的新闻,这些被时间影响的同时,也影响着实验指标的因和果。通过时间前后来做比对分析,是难以有说服力的。   再比如,产品准备上线保护未成年人的风控策略,是否可以去进行实验来验证策略效果?答案是否定的,如果故意地让一部分目标用户不要受到这个策略的保护,那么将产生高昂的道德成本。   上述两个场景,与把短视频平台的 UI 变成白色会不会让人更喜欢用 TA,到底有什么区别呢?把UI变成白色这件事情是非常容易的,通过随机抽取 A、B 两组用户,将一组的用户的 UI 变成白色,另一组不做任何处理,然后分别统计两组用户的次留,在线时长等指标,是可以轻而易举地得出结论的。   2. 无法测量   传统实验方法中的测量样本是静态的,而在很多互联网业务场景中,测量样本是会动态变化的,或者发生倾轧效应。如果无法对动态变化所产生的效应进行测量、补偿,那么评估和决策是无从说起的。   例如产品计划在 APP 上线聊天表情包的功能,用户在跟好友聊天的时候,可以发送表情包。在实验环节的时候,假如只能切 1% 的流量来做这个实验的话,要怎么样去评估效果呢?简单实验会导致什么问题?首先,存在样本污染的潜在问题:1% 的实验组的人可以观察并使用这个功能,很可能发生实验组用户发送表情包给对照组用户,而对照组用户本不应该知道有这个功能的存在,而我们也并不能阻止这种行为的发生,如此一来便使得对照组收到了污染。其次,会产生社交氛围的偏差:这里存在两种可能性,当实验组的用户会发现只有他和很少的一部分人才可以使用这个功能的时候,会产生一种特权的感觉,此时他既可能疯狂地给所有人发这个表情包以展示特权感,导致过度地使用这个功能;也有可能他觉得发表情包是为了和好友进行互动,但他发了表情包而他的好友不能发,这个表情包功能的互动价值被削弱了,他也就不愿意使用了,导致过低估计功能的作用,总之这种不完全的社交氛围就会影响他对产品的体验,也会妨碍我们从实验中获得准确的估计   又比如,在供求双方存在资源竞争的场景中,例如电商场景,我们决定对电商的推荐算法做调整,划分 50% 的用户为实验组,大幅度提高某一商品的推荐力度,那么实验组用户看到该商品的可能性就会大幅度提高,因此大部分商品被实验组购买甚至买光。对于对照组的用户而言,因为库存的数量下降,那么推荐排序时该商品的分数被自然拉低,降低了该商品在对照组的曝光度,甚至在局部出现售罄,导致对照组成交下跌,实验组对对照组产生倾轧效应,使实验策略显示一个过于乐观的效果。在做实验时观察指标涨了很多,但上线之后会发现算法策略的效果甚微或者无效。这种情况不仅仅发生在电商场景,也有可能是在直播、信息流等类似于一供一求的场景。   3. 无法分析   互联网公司的实验系统应用是从医药实验、生物实验所借用、改造而来的。但传统实验的分析方法,不能完全适用于互联网的复杂业务场景,有些业务场景的复杂程度已经没有办法通过人力去做分析。   比如,在推荐系统中排序算法的计算公式中存在相当数量的超参数,当只需要调整某 1 个参数的值时,可以给这个参数设置不同的值,然后随机选取若干批用户进行实验,回收指标数据便可以很轻易地得出最优的参数值。但如果参数的数量变成三个、十个、一百个...,那么参数值的组合就出现爆炸性地增长,如果还是按照传统的实验方法进行实验分组测量和分析,那么实验的人力成本和线上流量成本就变得很高昂,以至于完全不可行。   --   02
  对下一代实验系统的展望   1. 一个观察系统   未来的实验系统应该是一个兼容观察的系统,而不仅仅是一个做干预的系统。换而言之,在无法进行干预的场景中,系统也应该要有方法去评估策略效果。 这类方法通常被叫做 观察性研究 ,是经济学和社会学经常去研究的内容。比如经济学家经常关心提高最低工资,拉长社保的最低缴纳年限,对社会可能会造成什么样的影响?这类问题和上述提到的问题有一个共同的特点,就是不能进行干预实验。例如在现实社会中,不可能说只给一部分人提高最低工资,另外一部分人就不管。这类问题在社会学和经济学的研究中,已经发展出了一套相当完善的理论体系。   因此下一代实验平台,如果要做成一个观察系统,很可能会重新走上一代实验平台的老路,从经济学和社会学中去借鉴一些已经成熟的方法,再进行一定程度的标准化和民主化改造和移植。标准化是指通过系统去批量生产合格的分析,而民主化的意思是什么呢?观察性研究方法即使在今天也并不是人人都掌握的,只有少数研究经济学或者社会学背景的人,有可能经常接触并使用这类方法,但是潜在需要这类方法去做评估的业务场景却有很多,一个统一的、人人都能使用的、非专家也可以通过这个系统去完成合格的观察性研究的平台化系统才能满足现实场景的需求。   2. 一个动态系统   越来越多的互动导致很多业务场景已经无法通过静态的角度去测量了, 下一代的实验系统势必要站在动态的角度去进行估计。 比如上述的聊天表情包案例中提到的实验组用户与对照组用户发生互动而导致的样本污染问题,一个比较常见的思路是基于社交关系图数据,将实验组用户和关联的好友全放到同一个池子中,来避免样本污染的情况。但这种思路实际上在应用中有许多问题,比如社交关系不稳定的问题怎么解决,一个成熟的社交网络中又存在多少这种符合要求的"孤岛"?这些问题不解决的话,对效果也会造成非常大的影响。   3. 一个决策系统   在上述算法超参搜索的案例中,如何在多个参数构成的高维空间内找到一个最佳的点,传统方法的关键障碍在于人没有办法利用极为有限的数据,对这个高维空间进行有效的想象、推理和决策。 解决这个问题的思路之一,便是使用系统去代替人进行决策。 一个合理的想法是利用某个数学性质良好,拟合效果灵活的代理模型去近似高维目标,继而使用自动化的策略均衡探索和利用,代替分析人员决策下一步,然后根据收集到的数据不断完善模型,序列式地进行探索,最大化利用资源——这是一个典型的贝叶斯优化框架。目前在一些我们的业务场景中,这种系统代替人去做决策的解决方案已经被证实已经远优于传统人工方法。   今天的分享就到这里,谢谢大家。   |分享嘉宾|   Rex   火山引擎 A/B测试研发工程师   就职于字节跳动实验评估部门,统计科学和应用研究负责人。   |DataFun新媒体矩阵|   |关于DataFun|   专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。

世界十大拥堵城市,第一名的城市连红绿灯都没有大城市往往免不了拥堵的情况,随着搬迁至市中心的人越来越多,一些大城市的扩建速度远远赶不上当地的人口膨胀。今天,我们为你带来了全球最拥堵城市。你去过的最拥堵的地方是哪里呢?第十名雅加回望近代剌杀事件,结果令人唏嘘(下)话中有画202207110015昨天因为安倍晋三被刺身亡,写了这个题目的文章,列举了近代的刺杀林肯伊藤博文载沣肯尼迪岸信介朴正熙事件,受到网友的好评。但也有朋友留言,说历史上还有一唐山女教授将被依法依规严肃处理7月8日安倍晋三演讲中遇刺,立马成为当天各大媒体头条,各个微信群,朋友圈都在讨论,而唐山女教授石某瑛迅速抢占了舆论头条。一大家先来认识一下这位女教授石某瑛今年60岁,唐山师范学院退日媒自民党参院议席数预计超过改选前参考消息网7月10日报道据共同社7月10日报道,共同社的出口调查结果显示,自民党此次参院选举获得的议席数超过改选前(55个议席)基本成定局。此外,出口调查结果还显示,对修改宪法态度杨丞琳连续8年为丈夫庆生,晒牵手照甜蜜告白,李荣浩回应送飞吻7月11日是李荣浩的生日,正式迈入37岁的崭新人生。他发文表示有家人朋友和歌迷的陪伴,人生很满足。如此重要的日子,自然少不了妻子的祝福。杨丞琳早在零点便准时分享了二人的合影,并甜蜜天道小摊贩收两次饭钱,丁元英为什么不与其辩解没想到,十几年前的一部剧天道,在2020年再次火爆全网。于是,我刷完电视剧后,立马又找来了原著小说遥远的救世主,趁热打铁,细细品读了一番。初次读原著小说,就被其文字内容深深吸引。文佛系女王坛蜜另类婚姻如鱼得水,至情至性般体验各种人生滋味坛蜜,因出演数部大热限制级电影而出名。她的眼睛总是微微眯着,像是浑不在意自己的冶艳令无数人着迷。28岁时,她以本名斋藤支静加参加选秀,出道后给自己取艺名坛蜜,这个名字来源于佛教,坛葡萄牙与明朝的战争,第一次让欧洲殖民者遵守规矩,老实了几百年公元1514年,大明正德九年,这一年被视作全球化的开端,也正是一年,一个葡萄牙人远渡重洋,从广州登陆,希望和明朝展开贸易,这是自马可波罗之后有记载的第一个来到中国的欧洲人,他不知道安倍出事第二天!矢野浩二发跳舞视频,评论区被疯狂调侃日本前首相安倍晋三遇刺事件,成为全世界网友的热议话题。中国网友的评论咱就不予置评了。而在中国娱乐圈发展的日本演员矢野浩二,却备受网友关注。矢野浩二发跳舞视频被调侃!显而易见,大家就Summit迎战Ale!FPX迎战LNG,再赢一场就去西部北京时间2022年7月11日,英雄联盟LPL夏季赛第六周第一日即将分别迎来FPX对阵LNGJDG对阵RA这两场比赛。第一场FPXVSLNGFPX首发SummitClidCareLW江苏省军区新招录文职人员入列,请检阅文图祝心润谢宇晖青春无问西东,岁月自成芳华。近日,江苏省军区40余名新招录文职人员集聚空军勤务学院进行岗前培训。新招录文职人员利用周五党团活动时间进行宣誓活动。实现从地方青年到军队
熬夜看球别伤了耳鼻喉来源今晚报今晚报讯(记者刘波)随着世界杯越来越精彩,天津市人民医院耳鼻咽喉科主任杨相立等专家总结近期门急诊接诊相关病例情况,提示广大球迷,一定爱护好自己的耳鼻喉。卡塔尔与中国有5小本草纲目记载过它,满架的小瓜蒌竟是金元宝视频加载中现代快报讯它叫瓜蒌,长得有点儿像南瓜,密密麻麻挂在藤架上,听说它浑身都是宝,本草纲目里都有记载。科研人员正在观察瓜蒌长势为了指导农户种出高产优质的瓜蒌,江苏省农科院经济作西南政法大学以党建引领基层治理,构建学生楼栋育人共同体西南政法大学党委坚持深学笃用习近平新时代中国特色社会主义思想,深入贯彻落实党的二十大精神,立足围绕学生关照学生服务学生,进一步深化细化实化楼栋功能型党组织建设,构建党组织学生楼栋的2022卡塔尔世界杯18决赛C罗替补,葡萄牙起飞现代快报讯(记者王卫)北京时间12月7日凌晨,2022卡塔尔世界杯18决赛最后一场比赛开打,C罗领衔的葡萄牙迎战瑞士队。这场比赛C罗没有首发,葡萄牙却打出了世界杯开赛以来最流畅的进1600亩盐碱地上致富有稻!村民年薪快到账了,日子有奔头朔风渐起,细雨生寒。虽已过收获季,可在滨海新区太平镇太平村,这里的村民依然沉浸在丰收的喜悦里。为啥高兴?自打村里在撂荒的盐碱地种上水稻,每年这时候,总收成就要揭锅了。知道是啥意思不天冷了,这几款汤给宝宝安排起来!好喝又营养2022育儿季头条创作挑战赛天越来越冷了,是不是苦恼着每天不知道给娃煮啥吃的,今天给大家分享几款汤,爸爸妈妈爷爷奶奶们,给孩子安排起来,好喝又营养!海带玉米排骨汤食材海带结玉米排骨演绎成都烟火与时尚的成华,2023年投资机会清单即将揭晓11月23日,位于成都理工大学旁的成都自然博物馆正式开馆试运行。这个西南地区建筑体量最大的自然博物馆,一时间刷屏全网。爱拍照的爱探秘的爱逛展的,爱遛娃的纷纷想要开启一趟家门口的文博社会服务行业2023年度策略优化预期渐明,复苏趋势有望边际向好(报告出品方东方证券)社会服务行业复盘及展望复苏仍存波动,边际向好方向明确股价复盘随疫情和政策预期波动,弱市之下抗跌属性凸显社服板块行情主要受疫情和事件催化下的预期变化影响而波动,交了医保,还有不要买重疾保险吗?重疾保险在哪里可以买?随着生活质量的提高,健康再一次成为话题的中心,不少人都认为购买了社保之后,无需再购买重疾保险了。事实真的是这样吗?咱们一起来看看吧。有社保了还有必要买重疾保险吗?有社保之后还是很有超3800亿元长单在手,硅料巨头宣布继续扩产!联手消费电子巨头,无人驾驶龙头透露开发进展,超百家上市公司获得海外机构关注数据是个宝数据宝炒股少烦恼近10日内,123家公司获得海外机构调研,透露这些重磅信息。昨日盘后,硅料巨头大全能源宣布继续扩产。公司发布关于全资子公司二期10万吨高纯多晶硅项目启动的2023年度个税扣除信息开始确认!有新变化,为你理出来啦转眼间距离2022年结束不到一个月的时间在这里小编郑重提醒下大家在这个月里不要忘了这项操作否则明年你的工资或将受影响2023年度个税专项附加扣除信息确认开始了目前个人所得税APP首