ChatGPT解析及其在金融行业的应用展望
文丨中国农业银行研发中心 耿晓阳 张诚
2022年,AI内容生成(AIGC)被Science杂志评选为2022年十大科学突破之一,这说明AIGC无论是在技术上还是在应用上都极具潜力。以往,AIGC也会在某一领域现象级爆火,但最后总会归于沉寂(如Stable Diffusion绘画生成),其落地应用及产生价值一直是产业界和投资界探寻的方向。ChatGPT的出现使得AIGC强化了内容与生产力的连接,从此AIGC的应用不再仅仅停留于对艺术类产品的表达和抽象,也能有对内容的明确反馈和更类似于人类表达习惯的描述,从而把AIGC从玩具进化为产品,迈出了AIGC大规模推广应用的重要一步。
那么,ChatGPT是什么,ChatGPT有哪些应用,又有哪些局限性呢? 一、ChatGPT是什么
ChatGPT是OpenAI公司发布的一款AI对话机器人,一经发布就爆火网络,自发布之日起短短五天内已积累100万用户,迅速冲上流量高峰。相较以往的对话机器人,ChatGPT能够更好的应对如个性化搜索任务、逻辑解析、写作内容(如图1所示)以及辅助编程(如图2所示)等自然语言(Nature Language Process,NLP)任务,并能够实现相对准确、完整的多轮次对话。
图1 ChatGPT写工作周报
图2 ChatGPT写代码片段
当然,对于一些开放式问题,如复杂逻辑推理、预测趋势等,ChatGPT往往给出"逻辑正确的空话",不能完全解决问题。但是瑕不掩瑜,ChatGPT的成功仍然是AI技术的一次重大突破,这意味着AIGC具备实用价值、能够提升生产力,也意味着AI与现实世界的距离又近了一步。
那么,OpenAI是如何实现这个历史级别的AI产品的呢? 二、ChatGPT的科技与狠活
ChatGPT与它的兄弟模型InstructGPT一样,都是在GPT3.5大规模预研模型的基础上进化而来。GPT是一种生成式的预训练模型,最早由OpenAI团队于2018年发布,比近些年NLP领域大热的Bert还要早上几个月。在经历了数年时间的迭代,GPT系列模型有了突飞猛进的发展,历代GPT模型的简要情况见表1。
表1 历代GPT模型情况
这其中,GPT-1使用无监督预训练与有监督微调相结合的方式,GPT-2与GPT-3则都是纯无监督预训练的方式,相比GPT-2,GPT-3主要是在数据量、参数量方面实现数量级提升。GPT模型应用于不同任务的网络结构如图3所示。
图3 GPT模型应用于不同任务的网络结构
那么,ChatGPT是如何基于GPT-3这样的模型衍生出的呢?OpenAI并未公布ChatGPT的技术细节,从网络公开信息和论文来看,ChatGPT应用带有人工标注反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),使用GPT3.5大规模语言模型作为初始网络结构,使用收集数据增强的InstructGPT进行模型训练,训练过程可以大致分为三个步骤:
1.监督调优预训练模型
在少量标注数据上对预训练模型进行调优,输出有监督策略微调(Supervised Fine Tuning,SFT)模型。
图4 ChatGPT模型训练步骤1-监督调优预训练模型
该步骤可细分为三步:
(1)收集数据形成提示数据集(prompt dataset),内含大量的提示文本用于介绍任务内容,即提问题;
(2)有标注员对提示列表进行标注,即回答问题;
(3)使用这个标注过的prompt dataset微调预训练模型。
关于预训练模型的选择,ChatGPT选择了 GPT-3.5 系列中的预训练模型(text-davinci-003),而不是对原始 GPT-3 模型进行调优。
2.训练奖励模型
标注者们对相对大量的 SFT 模型输出进行投票,这就创建了一个由比较数据组成的新数据集。在此数据集上训练的新模型,被称为奖励模型(Reward Model,RM)。
图5 ChatGPT模型训练步骤1-训练奖励模型
该步骤也可细分为三步:
(1)使用SFT模型预测prompt dataset中的任务,每个prompt任务生成4到9个结果;
(2)标注员对每个prompt的预测结果,按从好到坏顺序进行标注;
(3)用标注结果训练一个RM模型。
3.使用强化学习方法持续优化模型
应用强化学习中的近端策略优化(Proximal Policy Optimization,PPO)技术,进一步优化奖励模型以实现调优SFT模型。
图6 ChatGPT模型训练步骤1-使用强化学习方法持续优化模型
该步骤可细分为五步:
(1)收集数据形成新的prompt dataset;
(2)将PPO策略应用于有监督数据微调过的的预训练模型;
(3)通过模型预测新的prompt dataset,得到数个输出;
(4)使用奖励模型对数个输出进行打分,计算 奖励分值 ( reward );
(5)使用reward对基于PPO策略的模型进行迭代更新。
以上三个步骤中,步骤一只进行一次,步骤二和步骤三持续重复进行,直至最终形成一个成熟稳定的模型。
ChatGPT模型构建过程值得借鉴的有两点:一是在强化学习中使用奖励模型,训练过程更稳定且更快收敛。在传统NLP任务中,对话模型的设计一直是个难点,引入了强化学习后,虽然可以解决对话问题,但如何建模奖励机制又成为了设计难题。ChatGPT采用训练奖励模型并不断迭代的方案,以一个提示词和多个响应值作为训练输入,并输出奖励模型,实现了训练的收敛。
二是使用SFT策略微调模型,有效利用大模型能力,同时避免过拟合。GPT-3用对应的SFT数据集训练16次完整数据集,每一次都是一个输入对应一个输出,对比奖励模型,给与奖励或者惩罚,但是这样训练的过拟合程度较高,甚至在第一次完整数据集训练后已经存在过拟合现象。ChatGPT在GPT-3基础上进行了优化,每个输入对应多个输出,人工进行输出结果排序,这样就能够让训练过程更接近人类思维模式,也有效避免了过拟合。三、ChatGPT的局限性分析
当然,就像前文提到的,ChatGPT也并非完美无缺,仍有一定的优化空间,笔者将从技术角度尝试进行初步分析。
1.不可信性
对于AI对话生成模型而言,可解释性很重要,尤其是在推理、反馈等场合更需要严谨可追溯的解答,但是ChatGPT并没有针对问题来源做解释说明,这会导致其答案在部分场景中不可信,在部分领域的应用中受限。
2.诱导立场
可能是由于提示学习的原因,ChatGPT 在对话中对提问词的内容比较敏感,容易被提示词诱导,若初始提示或问题存在歧义或者伦理、道德层面的瑕疵,则模型会按照当前理解给出答案而不是反馈和纠正问题,这可能会导致ChatGPT强大的能力被用于一些非法、违规的场景,带来不必要的损失。
3.信息误判
ChatGPT的热启动虽然在大部分内容生成中能够给出大体上完整的答案,但是一部分回答会存在事实性错误,同时为了使得答案看起来更完整,ChatGPT会根据提示词生成冗余的内容用以修饰。在辅助决策的场景中,这种错误回答被淹没在大量冗余修饰之中,更不容易被察觉,这导致的信息误判也限制了ChatGPT应用于类似场景。
4.迭代成本
ChatGPT虽然具备内容生成能力,但是由于其本身是基于"大模型+人工标注训练"的模式进行内容输出,当采纳新的信息时,需要对大模型进行重新训练,这将导致模型迭代训练成本过高,也间接导致ChatGPT对于新知识的学习更新存在一定时间区间的断档,这尤其限制了其在实时搜索领域的进一步发展。 四、ChatGPT带来的启示
ChatGPT引起轰动的原因是因为人们惊讶于它远超前辈的泛用性和大幅度提升的回答问题的能力,但这背后的影响其实远远不止这些:
1.有可能带来NLP研究范式的变革
ChatGPT迅速走红的背后,可以说是GPT类自回归类语言模型的一次翻身仗。NLP领域近些年来另一热门的模型当属Bert。Bert与GPT都是基于Transformer思想产生的大型预训练模型,但二者之间存在不少差异,简单来说,Bert是双向语言模型,更多应用于自然语言理解任务,而GPT则是自回归语言模型(即从左到右单向语言模型),更多应用于自然语言生成任务。
ChatGPT所表现出的强大能力有理由让人相信,自回归语言模型一样能达到甚至赶超双向语言模型的路线,甚至在未来统一理解、生成两类任务的技术路线也未可知。
2. 大型语言模型 (Large Language Model, LLM )交互接口的革新
ChatGPT最突出的特点可以概括为:能力强大,善解人意。"能力强大"归功于其依托的GPT3.5,巨量语料、算力的结晶使模型蕴含的知识几乎覆盖了各个领域。而"善解人意"则有可能要归功于其训练过程中加入的人工标注数据。这些人工标注数据向GPT3.5注入了"人类偏好"知识,从而能够理解人的命令,这是它"善解人意"的关键。
ChatGPT的最大贡献在于它几乎实现了理想的LLM交互接口,让LLM适配人的习惯命令表达方式,而不是反过来让人去适配LLM,这大大提升了LLM的易用性和用户体验,而这必将启发后续的LLM模型,继续在易用人机接口方面做进一步的工作,让LLM更听话。
3. LLM技术体系将囊括NLP外更多领域
理想的LLM模型所能完成的任务,不应局限于NLP领域,而应该是领域无关的通用人工智能模型,它现在在某一两个领域做得好,不代表只能做这些任务。ChatGPT的出现证明了通用人工智能(Artificial General Intelligence,AGI)是有可行性的。
ChatGPT除了能以流畅的对话形式解决各种NLP任务外,也具备强大的代码能力,可以预见,之后越来越多的研究领域也会逐步纳入LLM体系中,成为通用人工智能的一部分。这个方向方兴未艾,未来可期。 五、ChatGPT的应用展望
ChatGPT使用了当下先进的AI框架,具备较高的成熟度,是AI技术发展浪潮中产生的优秀产品。但是正如前文分析,ChatGPT也有其自身的局限性。农业银行基于大数据体系、AI平台所提供的"数据+AI"能力,结合ChatGPT的相关技术,同时设法规避ChatGPT的固有问题,逐步赋能场景,有着巨大的想象空间。
1.营销自动化
综合使用AIGC技术,结合现有的个性化推荐、实时计算能力以及AutoML等技术,可以解决线上线下协同营销过程中的自动化断点问题,实现营销策略自动生成和迭代、自动AB实验、渠道自动分流,并实现自动生成营销话术、广告头图等运营内容,从而实现完整的自动化营销闭环。
2.风险识别
基于ChatGPT背后的GPT等LLM模型技术,可实现对关键要素提取、资料自动化审核、风险点提示等风控领域的业务流程,提升风控相关业务的自动化水平。
3.个性化搜索引擎
以GPT生成式问答为主体,结合现有的NLP、搜索引擎、知识图谱和个性化推荐等AI能力,综合考虑用户的提示词标注、知识结构、用户习惯等进行应对用户对应问题的内容生成和展示,并可以给出索引URL,这样既能解决现有检索引擎的准确性、个性化难题,又能弥补GPT的可信、更新问题,在技术上形成互补,在用户使用过程中实现完整的、一致的搜索体验。
4.增强知识图谱
使用GPT生成技术,结合知识图谱技术,可从当前实体关系图中生成扩展图,在知识图谱引擎原有的隐性集团识别、深度链扩散、子图筛选等能力基础上,扩展出更高维度、更大范围的隐性关系识别,能够提升风险识别、反欺诈的识别范围和准确程度。
5.内容创作
基于ChatGPT技术,结合农业银行行内语料进行适应性训练,可面向资讯、产品、广告提供便捷且高质量的内容生成能力,既能提升内容运营的效率,又能帮助用户更快地获取、理解和分析复杂的信息,从而进一步提升用户运营转化率。
6.辅助编程
相对于Copilot,ChatGPT类似技术的迭代反馈能力更为强大,能够通过提示、辅助、补充等方式生成部分代码,能够在简单逻辑代码实施中有效减少重复劳动,在复杂架构设计中铺垫微创新的基础,如应用得当,会提升开发效率和交付质量。
7.智能客服
AI生成的对话可以快速应用于问题解答、营销话术等,能够提升问题解答的准确程度、给出相对靠谱的回答,并能结合个性化推荐系统的应用给出用户的营销线索,实现更标准、更贴心的用户服务。
ChatGPT乘风而来,农业银行在探索AI新技术、追逐AI新应用的脚步也从未停歇。就在近期,农业银行正在探索基于生成式大模型,结合金融领域相关文本语料,通过AI平台-NLP智能服务引擎提供特定业务场景下的文本生成、文本理解服务,近期该服务的alpha版本也即将在AI平台的AI商店上线,面向种子用户开放试用。
下一步,NLP智能服务引擎计划收集更多的银行业内相关的语料数据,基于大模型不断迭代优化出更具专业特色、更符合场景需求的自然语言理解与自然语言生成模型,让更多人乘上这辆急速前进、不断进化的AI快车。
随着AI技术的深入发展和应用,定会不断诞生类似于ChatGPT的爆款产品,这类产品成功的逻辑是伴随人工智能技术的发展和创新,绑定具体场景应用,以满足用户的认知和期待。农业银行遵循这一规律,在AI技术创新、AI应用创新方面不断探索,以用带建,螺旋上升,在数字化转型的浪潮中,以数据为基础要素,以AI为重要抓手,逐步赋能总分行场景应用,让大家了解AI,用上AI,用好AI,充分挖掘数据和AI的价值,让数据和AI在银行业务经营管理活动中起到更加基础和重要的作用。
文章来源于微信公众号"我们的开心"
42,大逆转!狂轰18脚控球74,曼城拒绝冷门,悄然升至第2名文彬少侃球(首发)英超第4轮比赛,曼城队对阵水晶宫队,这场比赛备受外界关注,大家更多关注的是曼城队的表现,作为英超卫冕冠军豪门,曼城队本赛季开局阶段的表现也非常不错,尽管上轮比赛,
夜读丨有一种力量,叫做坚持。作者丨鸢尾花主播丨竹子人生一世,一直在坚持。坚持养成一种习惯,坚持去做一件事,坚持去爱一个人,坚持让自己变得更好,等等。这些坚持,就像是生活中的日常,不经意之间,早已成了生活中的
消失的身影那是个无聊的下午,她已经累了。跟着自己的腿延着这条街进出了好多个店,也想不出买什么也不关心都是卖什么的,甚至忘了为什么会来这里。走着呢,就行了。好慢她觉得自己,呵呵不年轻了呢,没人
割包皮是性虐待?韩综播出未成年做包皮手术场景,观众因此吵翻天未成年做包皮手术等同于性虐待性剥削?这两天韩国观众因为这件事吵翻了在本月17日播出的KBS2TV综艺做家务的男人们2中,前棒球选手现棒球教练洪性炘的初中生儿子洪和哲(音)同朋友们一
杨洁篪主持中俄第十七轮战略安全磋商杨洁篪主持中俄第十七轮战略安全磋商财联社9月19日电,中共中央政治局委员中央外事工作委员会办公室主任杨洁篪在福建同俄罗斯联邦安全会议秘书帕特鲁舍夫共同主持中俄第十七轮战略安全磋商,
辽宁锋线付豪恋情曝光与女友秀恩爱亲密拥抱引网友围观近日,辽宁前锋付豪恋情被曝光,付豪女友在个人社媒上晒出两人亲密恋爱照,两人相拥在一起,显得非常恩爱。而付豪与女友这一波秀恩爱,也吸引到大批网友的围观。作为男篮极具实力的锋线球员,付
不丹王后也来了!布丽吉特戴眼镜穿运动鞋很酷,吉尔也不输当地时间9月19日上午11点,已故英国女王伊丽莎白二世的葬礼将在伦敦威斯敏斯特教堂举行。在女王葬礼前夕,许多宾客已经抵达,其中包括美国总统夫妇还有法国总统夫妇,他们都在抵达伦敦的第
全球销售60亿!正大天晴进军强生重磅单抗药物9月16日,据CDE官网,正大天晴的3。3类新药达雷妥尤单抗注射液临床申请获受理,是国内第2家申报该西安杨森制药60亿单抗药物临床的药企。2021年1月,NMPA正式批准了复宏汉霖
德媒卢卡斯将因伤休战数周,这可能影响世界杯备战直播吧9月19日讯在上周拜仁主场20战胜巴萨的比赛中,后防大将卢卡斯埃尔南德斯内收肌受伤。德媒慕尼黑日报表示,长达数周的因伤休战可能影响他的世界杯备战。根据拜仁官方的说法,卢卡斯是
阿莱格里out登上推特热搜,尤文球迷期待图赫尔上任直播吧9月19日讯据每日邮报的消息,在尤文客场01不敌蒙扎后,尤文球迷在社交网络发泄着对主教练阿莱格里的不满,并要求他下课,而尤文球迷普遍希望图赫尔能成为他们的新主帅。在01不敌蒙
每体输拜仁后皮克在更衣室抱怨出场少,哈维回应称其会踢得更少直播吧9月19日讯每日体育报消息,哈维与皮克近期关系紧张。每体先是盘点了此前几年,皮克对外的发言我们跌到了谷底,如果需要我离开换取新鲜血液来到球队,那么我就会离开如果科曼明天告诉我