范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

并购优塾人工智能系列,NLP自然语言处理产业链跟踪梳理笔记

  微信公众号:并购优塾(moneyC2C)首发,更多文章可微信关注我们的公众号:并购优塾产业链地图
  微软曾表示"自然语言是人工智能皇冠上的明珠"。
  自然语言处理(NLP,Natural Language Processing) 是计算机科学领域与人工智能领域中的一个重要方向,它是用计算机来处理、理解以及运用人类各种语言,又常被称为计算语言学。语言是人类区别于其他动物的重要标志。没有语言,人类的思维也就无从谈起,因此,自然语言处理一定程度上决定了人工智能的高度和境界。
  12月1日,美国人工智能研究公司OpenAI推出人工智能聊天原型Chat-GPT,上线五天全球用户数量已突破百万,赚足了眼球。ChatGPT是一种专注于对话生成的语言模型,它能够根据用户的文本输入,产生相应的智能回答,主要运用的技术就是NLP。有人将ChatGPT比喻为"搜索引擎+社交软件"的结合体,能够在实时互动的过程中获得问题的合理答案。
  那么,国内在NLP领域的研究进度和商业化情况如何?有哪些参与者?行业竞争的重点和难点在哪里?
  带着这些问题,我们来看NLP这条产业链。
  这条产业链各环节,包括:
  1)上游:基础层 ——包括数据处理 (数据清洗、标注、整理及分类) 、算力基础设施 (主要为GPU芯片、AI定制芯片,以及相关传感器等) 。芯片代表厂商有英伟达、高通(GPU)、英特尔(FPGA)、谷歌、寒武纪等;云计算服务商代表有微软、亚马逊、阿里巴巴、百度等;
  可运用于自然语言处理训练的数据集不断丰富,多数是由学术及研究机构承担建设的公共数据集,比如维基百科语料库、斯坦福大学问答数据集等。
  2) 中游:技术层 ——在数据及算力的基础上,进行相关算法研发,满足基础技术需求。按照细分场景,可分为:计算机视觉、语音识别、自然语言处理等领域,分别对应人类的视觉、听觉和阅读能力。
  3) 下游:各行业应用场景 ——是将技术层的基础技术与具体场景需求相融合,以解决实际的问题 (如帮助企业提升运营效率或优化用户体验,帮助公安部门实现摄像头自动识别等) 。具体包括:教育、医疗、安防、娱乐、汽车(自动驾驶)、智慧城市、工业自动化、企业数字化等具体场景。
  图:产业链结构
  来源:并购优塾
  从产业链上的参与者近期的增长情况来看:
  1)科大讯飞(安徽,合肥)—— 2022年三季报,实现营业收入126.6亿元,同比增长16.5%;实现归母净利润4.2亿元,同比增长-42.33%。
  2)拓尔思(北京市)—— 2022年三季报,实现营业收入6.37亿元,同比增长4.95%;实现归母净利润1.04亿元,同比增长4.49%。
  从机构对产业链景气度的预期情况来看:
  图:机构一致预期
  来源:Wind
  (一)
  我们先看各家的收入结构(2021年年报)。从收入总额来看:科大讯飞(183.14亿元)> 拓尔思(10.3亿元)。
  一、科大讯飞—— 2021年,收入183.14亿元,其中34.03%来自教育领域(62.32亿元),22.14%来自智慧城市(40.55亿元),33.2%来自开放平台及消费者业务(60.81亿元),2.45%来自汽车领域(4.49亿元),5.01%来自政法业务(9.18亿元),1.07%来自智能服务(1.97亿元)。
  图:科大讯飞收入结构
  来源:并购优塾
  科大讯飞的主要服务场景包括教育领域、消费者业务和智能开放平台。智能语音产品及服务包括听见会议系统及APP,讯飞输入法等。
  图:科大讯飞业务全景图
  来源:信达证券
  二、 拓尔思—— 2021年,收入10.3亿元,50.13%来自数据、软件及服务(5.16亿元),17.56%来自人工智能产品(1.81亿元),13.86%来自软件销售(1.43亿元),18.45%来自其他业务(1.9亿元)。
  拓尔思前身易宝北信成立于1993年,由中国香港易宝、北信工程(北京信息科技大学)合资创办,根据客户需求提供大数据分析、门户网站搜索、舆情服务等,主要客户为各级机关、媒体等。具体来看:
  图:拓尔思收入结构
  来源:并购优塾
  1) 人工智能产品及服务: 专注语义智能识别(NLP)领域,比如:利用自然语言处理技术加速处理开源情报中不断增长的非结构化文本,利用人工智能等新兴技术识别开源情报中的伪造信息以确保数据和情报的真实性等。当前,其主要为防务、公安、政务、金融场景下的终端用户提供AI相关服务。
  2)大数据产品及服务业务: 主要为金融、制造、能源等企业客户,机关,互联网和传媒出版等主要行业提供大数据产品及服务 (大数据管理系统、网络信息雷达系统、智能媒体融合平台、专利和知识产权数据库等)。
  从数据资源化的角度,其具备完全自主研发的大数据基础平台,可提供采集、清洗、标注、管理等完整的数据闭环服务,具体产品包括海蜘分布式采集系统、海汇社交视频采集系统、海聚数据融合系统、海贝搜索数据库等。
  拥有来自境内外、各行各业的公开数据资产总量超1200亿,形成200多个行业知识库,并已具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,日均亿级数据获取能力。
  3)数据安全领域: 子公司天行网安主要提供数据安全传输、交换产品及服务。
  图:拓尔思产品矩阵
  来源:年报
  从商业模式来看,科大讯飞和拓尔思均具备TO G属性(科大讯飞属于TO G+TO C属性)。而从AI相关业务类型来看,二者主营业务有所差异,科大讯飞以智能语音业务为主,而拓尔思以AI(NLP)+大数据服务业务为主。
  对相关的智能语音产业链,前段时间我们做过研究,详见优塾产业链报告库(扫描文末二维码可订阅)。
  (二)
  理清了业务构成,我们再来看过去10个季度的利润增长情况。
  图:归母净利润增长(%)
  来源:并购优塾
  1)科大讯飞在2020Q1归母净利润大幅下滑,主要原因是卫生事件导致的市场销售以及现场交付工作限制,较大程度上延缓了一季度项目的实施、交付、验收等相关工作的进度,从而拖累了收入实现。
  2)科大讯飞在2022上半年归母净利润大幅下滑,主要是其持有的三人行、寒武纪等资产波动导致公允价值变动收益较上年同期减2.73亿所致。
  3)拓尔思2021年归母净利润下滑,主要受资产剥离影响。当年其收入不再包含成都子公司2020年的配套商业房产项目收入、和原控股子公司耐特康赛的互联网营销收入,收入同比下降21.44%,归母净利润2.45亿元,同比下降23% (不考虑资产剥离因素影响,主营业务利润实际同比增长33.28%) 。
  然后,我们拉近视角,看看近期情况:
  一、 科大讯飞 ——2022年三季报,实现营业收入126.6亿元,同比增长16.5%;实现归母净利润4.2亿元,同比增长-42.33%。
  2022年Q3,实现归母净利润1.42亿元,同比增长-54.17%,环比增长-15.03%。
  图:近8个季度收入、利润增长情况
  来源:并购优塾、Wind
  归母净利润的下滑,主要由于持股的三人行、寒武纪等金融资产因股价波动导致公允价值变动收益金额减少所致。
  2022年上半年数据来看,教育、政务、医疗场景是其业绩增长的主要驱动力,教育产品和服务实现营业收入22.05亿元,同比增长27.38%;医疗业务实现营业收入1.40亿元,同比增长 40.17%;数字机关行业应用实现营业收入4.44 亿元,同比增长66.01%。
  二、拓尔思 ——2022年三季报,实现营业收入6.37亿元,同比增长4.95%;实现归母净利润1.04亿元,同比增长4.49%。2022年Q3,实现归母净利润0.29亿元,同比增长-34.56%,环比增长-45.71%。
  收入增长缓慢,主要是主业大数据软件产品及服务受卫生事件等因素影响,项目交付推迟,收入下滑;但是,其基于语义智能的人工智能软件产品和服务收入同比增长88.99%,占总收入比重达19.81%。
  利润下降,主要是可转债利息增加,且研发费用等增加。
  图:近8个季度收入、利润增长情况
  来源:并购优塾、Wind
  2022年上半年,拓尔思与知识产权出版社签订《战略合作协议》,依托公司在AI、大数据、搜索引擎等领域的先进技术,以及知识产权出版社在专利信息服务应用场景及专利大数据等方面优势,拓展专利智能检索、专利分析、生物多样性基因库建设、国家十大战略行业知识产权数据库、能源和金融等领域。
  综合来看,由于二者业务类型差异较大,导致收入增长的驱动力有所不同。科大讯飞主要受下游教育、智慧城市(政务)等场景驱动,而拓尔思主要由下游G端客户对于大数据服务、NLP技术需求驱动。
  (三)
  接下来,我们看一下各家现金流质量。
  一、净现比:
  两家净现比都比较高,拓尔思2020年净现比下降,主要是当年确认成都子公司西部总部基地配套商业用房销售净利,预收款减少。
  图:净现比
  来源:并购优塾
  二、 CAPEX与经营活动现金流量净额: 二者近几年的经营活动现金流整体基本覆盖CAPEX。
  图:经营活动现金流VS CAPEX
  来源:并购优塾
  (四)
  看完各家的增长趋势之后,我们来看他们的利润率及费用率情况。
  一、毛利率:
  受主营业务差异影响,二者毛利率差异较大。其中,拓尔思(语义智能,大数据)的毛利率在55%-65%之间,而科大讯飞 (以语音智能为主,包含语义智能、计算机视觉、以及录音笔、翻译笔、学习机等硬件产品) 毛利率在45%左右。
  2021年以来,拓尔思的毛利率有所抬升,主要原因是毛利率较高的人工智能及软件相关业务收入占比提升所致 (毛利率73.75%,同比增长51.95%) 。
  图:毛利率对比
  来源:并购优塾
  二、净利率:
  二者净利率水平主要由毛利率水平所决定。拓尔思净利率水平波动较大,主要由于其业务2G属性较强,收入主要集中在四季度确认,而费用端开支较为刚性。
  图:净利率对比
  来源:并购优塾
  二、 期间费用率:
  科大讯飞在研发投入(研发费用率)方面力度高于拓尔思。其财务费用率在2021年下半年上升较快,主要由于利息支出的提升(短期借款、应付债券占比提升),并且利息收入下降。
  图:期间费用率对比
  来源:并购优塾
  四、投资回报率:
  2021年,二者ROE、ROIC水平接近。
  拓尔思销售净利率较高,主要由于毛利率较高(NLP、大数据服务软件属性较强,叠加2G业务属性)。
  科大讯飞总资产周转率较高,主要由于存货周转率较高,拓尔思有部分地产业务;此外,其应付款项占比较高,导致经营杠杆较高 (权益乘数较高) 。
  图:投资回报率对比
  来源:并购优塾
  接下来,我们来重点研究一下行业需求和空间。
  (五)
  由于行业无法拆分,我们主要采用增速法预测。
  一、什么是自然语言处理?
  自然语言处理,是通过构建算法使计算机自动分析、表征人类自然语言的学科。
  从运行模式来看,自然语言处理,是计算机理解( 理解自然语言文本的思想和意图 )和生成自然语言( 计算机用自然语言文本表述思想和意图 )的过程,也就是让计算机具有识别、分析、理解和生成语言文本(包括字、词、句和篇章)的能力。
  与语音识别领域通过声波形态的数据化转换成文字信息不同,人类的语言是一个复杂系统,不同情境下的不同词语可能对应着不同的含义,因此自然语言处理的任务往往涉及到语言的理解能力。
  而语言理解,是一个递进的过程,从词法分析→句法分析→语义分析→语用语境分析,层层递进,因此,NLP技术复杂程度要高于智能语音领域。
  二、NLP的需求及应用场景有哪些?
  根据弗罗斯特沙利文数据,截至2018年,自然语言处理市场营收规模仅为20.6亿元人民币,预计2021年达到75.6亿元,但自然语言处理技术商业化仍不够成熟,部分已实现商业化应用的自然语言处理技术相关产品,主要依托于软硬件产品的商业场景而存在,比如智能家居设备、智能机器人、智能助手等。
  随着AI产业的深入发展,自然语言处理需求不断提升,众多类型智能应用需要NLP技术来实现。其中:
  1) 文本领域 —— 搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用 。
  以金融领域为例,资讯信息极为丰富(如涉及标的公司重大新闻、公告、财务状况,金融产品信息、宏观经济状况、政策法规变化、社交媒体评论等),数据量庞大,这种情况下,舆情分析应用可以对海量数据自动摘要、归纳、缩简和抽取,为投研人员提供高效的信息展示。
  在法律领域,自然语言处理应用可帮助法律从业人员进行案例搜索、判决预测、法律文书自动生成、法律文本翻译等,实现事件预处理,缩短案件处理时间。医疗领域,病历的辅助录入、医学资料的检索与分析、辅助诊断等医疗步骤可由相关自然语言处理应用辅助进行。
  2) 语音领域 —— 语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用,均需自然语言处理技术理解或生成自然语言 。
  随着智能设备数量增长以及行业智能化业务处理水平要求的提高,自然语言处理市场有望得到进一步拓展,自然语言处理市场营收规模有望在2019-2023年间以48.2%的年复合增速实现快速增长,达到150.7亿元。
  图:自然语言处理市场规模 来源:头豹研究院
  但是,注意,从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然需要更长期的努力,从而进一步打开更大的应用场景。
  我们接下来从Chat-CPT来看较先进的自然语言处理技术,有哪些进步和亮点。
  (六)
  图:早期的Transformer模型
  Chat-GPT由硅谷的初创公司OpenAI推出,OpenAI是一家具备实验室性质的半盈利组织,2015年由埃隆马斯克、美国创业孵化器Y-Combinator总裁阿尔特曼、PayPal联合创始人彼得·蒂尔等硅谷大佬创立,核心宗旨在于"实现安全的通用人工智能,使其有益于人类发展"。
  OpenAI团队由300个来自计算机、数学、生物学、神经科学、化学、心理学等不同学科背景的研究者组成,跨学科的开放属性有利于基础理论模型的创新,而其非盈利属性(商业化压力相对较小),使得其有长期投入、和广泛试错的资本。
  12月2日,Chat-GPT聊天机器人上线,五天内用户即突破100万,受到了广泛的关注。它既能完成包括写代码,修改bug,翻译文献,写小说,写商业文案,创作菜谱,做作业,评价作业等一系列常见文字和智力输出型任务,而且在和用户对话时,能记住对话的上下文,反应非常逼真。总而言之,它兼具兼具理解力、创造力和记忆力,凭实力出圈。
  Chat-GPT,是将Instruct GPT模型(GPT-3.5)经过微调后开发出来的对话界面,由OpenAI在2022年神经信息处理系统大会会议期间在社交网络上公布。 从GPT模型的技术迭代历程来看:模型能力的提高,与参数量、预训练数据量直接相关。
  接下来,对Chat-GPT的迭代过程,NLP行业的核心增长驱动力,以及关键竞争要素,我们挨个来拆解:
  …
  以上,仅为本报告部分内容,保留一半内容,以供试读。
  如需获取本文全文,以及其他更多内容,请订阅 :产业链尊享版产业链报告、专业版报告库、科技版报告库、。 订阅咨询 可添加微信:bgys2020
  一分耕耘一分收获,只有厚积薄发的硬核分析,才能在关键时刻洞见未来。
  【版权、内容与免责声明】1)版权:版权所有,违者必究,未经许可不得翻版、摘编、拷贝、复制、传播。2)尊重原创:如有引用未标注来源,请联系我们,我们会删除、更正相关内容。3)内容:我们只做产业研究,以服务于实体经济建设和科技发展为宗旨,本文基于各产业内公众公司属性,据其法定义务内向公众公开披露之财报、审计、公告等信息整理,不采纳非公开信息,不为未来变化背书,不支持任何形式决策依据,不提供任何形式投资建议。我们力求信息准确,但不保证其完整性、准确性、及时性,亦不为任何个人决策和市场变化负责。内容仅服务于产业研究需求、学术讨论需求,不提供证券期货市场之信息,不服务于虚拟经济相关人士、证券期货市场相关人士,以及无信息甄别力之人士。如为相关人士,请务必取消对本号的关注,也请勿阅读本页任何内容。4)格式:我们仅在微信呈现部分内容,标题内容格式均自主决定,如有异议,请取消对本号的关注。5)主题:鉴于工作量巨大,仅覆盖部分产业,不保证您需要的行业都覆盖,也不接受任何形式私人咨询问答,请谅解。6)平台:内容以微信平台为唯一出口,不为任何其他平台负责,对仿冒、侵权平台,我们保留法律追诉权力。7)完整性:以上声明和本页内容以及本平台所有内容(包括但不限于文字、图片、图表)构成不可分割的部分,在未详细阅读并认可本声明所有条款的前提下,请勿对本页面以及本平台所有内容做任何形式的浏览、点击、转发、评论。

交广会客厅铁路房建青年能手遇到事情不要怕不要慌,大家一起想办法,三个臭皮匠能顶个诸葛亮。已是而立之年的宋秦鹏总是喜欢将这样一句话挂在嘴边。将近一米八的个头却是精瘦有力,他是中国铁路太原局集团公司太原房建公寓上海闵行区法院发出上海首份夫妻共同财产申报令法治日报记者余东明法制与新闻记者黄浩栋近日,上海市闵行区人民法院向一起离婚纠纷案件的双方当事人发出了夫妻共同财产申报令。据了解,这是新修订的妇女权益保障法正式施行后,上海法院发出的储能行业专题报告风光水长,储能迢迢(报告出品方中信证券)国内储能政策加持引规模化发展,消纳需求促多技术并举双碳发展立足新型电力系统建设,新能源转型催化储能成长空间新型电力系统建设需源网荷储一体化发展,储能是各环节的2023年1月17日IOS的AppStore软件限免6个APP推荐1。Tag背单词CET46级必过信息原价12元,中文软件,无内购无广告。软件描述这是一款个性化的记忆单词的软件,可以让你轻松记单词。内置46级离线单词包,无需联网,随时随地背46级便宜不踩雷的旅游意外险,新的一年兔个吉利在2023开年之际,迎来了全面开放的好消息对新型冠状病毒感染实施乙类乙管香港与内地实施首阶段通关全国恢复出入境证件办理,取消入境隔离,有序恢复出境游。在多项利好政策的影响下,今年春15年京东老用户这次为何寒心?杭州的徐先生说,自己是京东的老用户,十多年来看着平台做大做强,一直都很信任,可前不久购买的两张洗车券,让他有些寒心。1818黄金眼15年京东老用户说这次寒了心徐先生我用京东有十五年千元续航怪兽,这两款手机最低只要1499元手机的续航一直是与大家日常使用息息相关的一个话题。新年已至,相信有不少在这个时期有换机计划的朋友,本次作者就推荐两款位于千元价位的大续航神机,对于换机预算不高的朋友十分友好,同时还小米13和一加11哪款更值得买?博主全方位对比,告诉你答案还有数天,就迎来农历新年。往往在年前我们都会置换年货,换上新衣服新鞋子以及新手机!而自骁龙8Gen2处理器亮相以来,近段时间可以说新机扎堆,而如果预算在4000元左右,很多小伙伴都iOS16推出四个月后仍存大量Bug,库克还不管管?近日,据IT之家消息,在多个论坛和苹果支持官网上,有用户反映更新iOS16后遇到了各种各样的bug,包括Spotlight搜索故障键盘不出现在应用程序中电量消耗过快相机应用程序冻结Matlab学习前几个知识点Matlab是一个十分强大的数学工具,在航空航天,数学建模,信号处理,系统控制等领域都有着非常广发的应用。Martian君从毕业后进入职场已经十年了,这些年一直从事通信设备领域里的ChatGPT真的惊艳了我,接下来和大家分享一下今天体验了一下ChatGPT,牛逼的自然语言处理能力真的太让我惊艳了。先是让它写了一篇小说。再给了一个含错别字的命令,写一篇新闻。然后让他写一个程序功能这简直了,产品经理梦寐以求的
三国两晋南北朝(十一)一分钟了解三国两晋那些事儿大家国庆快乐呀,休息几天后开始工作啦,今日三国两晋结束啦一北齐550577年北齐,是中国南北朝时期的北方割据政权,政权存续于550年577年。地理范围包括今天中国黄河下游流域的河北2022。09。27早安心语,正能量经典语录句子,恬淡的早上好图片早上好,今天是2022年09月27日,星期二,农历九月初二,壬寅年虎年己酉月癸未日。所有的光鲜亮丽,背后都有辛苦付出所有的现世静好,背后都是咬牙坚持。现实中奇迹却很少出现。现实中更永川6个宝藏之地,真的值得一去!您好您的假期余额仅剩3天这个假期玩的开心吗?踏青采摘美食国庆假期最后几天跟着小编一起徜徉书海找到属于自己的宁静BOOK永川图书馆永川图书馆总外观永川图书馆永川图书馆总馆2014年动幻想研究十一假期,在云端邂逅浪漫国庆假期大家去哪里玩呢?一起来分享一下你的假期吧!近几年在疫情的环境下,与想见的人不能相见,与想拥抱的人不能拥抱,又是到了一年一度的国庆小长假了来临,网络上太多对疫情的呼声,哭诉的甘肃的这座博物馆太低调,文物多,镇馆之宝曾巡展欧洲十余年这是我迄今为止见到的最低调最朴实的一座博物馆,低调到导航也未必能准确指出它的具体位置,馆内的一件稀世文物曾巡展欧洲十余年,现如今为镇馆之宝。这个博物馆就是定西市博物馆。它位于定西市1979年,台湾一连长冒死游泳回大陆,如今成中国最顶级专家1979年5月16日深夜,万籁俱寂,台湾海岸边,一名连长正看着对岸微弱的光出神。不知过了多久,他像是下定了决定一样,纵身一跃,跳进了还有些冰冷的海水中,这次他堵上了自己的性命和前途这两年不买房,5年后有多大差距?王健林表态很多人知道,最近这一年,我国的房价下降的是比较厉害的,在2021年上半年的时候,我国的房价达到了顶峰阶段,如此一来,也就使得很多有购房需求的老百姓在这段时间感受到非常的困难,很多人揭秘你不了解的时髦小伙雷锋除了做好事,雷锋还为我们留下什么?作者刘舒扬雷锋离开我们60年了。1962年8月15日一早,在外执行任务的雷锋和战友乔安山驾驶嘎斯51型汽车赶回辽宁抚顺营区,以迎接秋季更繁重的运输他是粟裕将军的长子,曾在老山轮战中大显身手,获得部队高度评价在革命战争历史上,获得毛爷爷亲自表扬的将才并不多,能获此殊荣的将才也因而成为了此后部队现代化建设中的栋梁之才,在这其中就不得不说到一位将才,他就是粟裕。粟裕是获得毛爷爷亲自点名可以武警水电部队退出现役变为中国安能建设集团,现状如何?2018年,武警部队进行了大刀阔斧的改革,原先的八个警种调整后仅剩三个警种。其中,不涉及作战任务的武警水电部队退出现役,组建为央企中国安能建设集团有限公司,划归国资委管理,完成了军解放战争中我军最惨烈一战,被俘牺牲近万人,上万条枪鸣枪致哀解放战争爆发前,国军在兵力和武器装备上都占据绝对优势,加上背后还有美国人的支持,因此老蒋信心满满,豪言只需一年就可以结束战争。解放战争第一年,国军的确在战场上占据了一定的优势。但从