AIGC( AI Generated Content)是利用人工智能来生成你所需要的内容,GC的意思是创作内容。与之相对应的概念中,比较熟知的还有PGC,是专业人员用来创作内容;UGC是用户自己创造内容,顾名思义AIGC是利用人工智能来创造内容。AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。 在市场需求上, 由于Web3.0 时代的到来,人工智能、关联数据和语义网络构建了形成全新格局,相关消费需求高速增长。传统的UGCPGC内容生成方式将落后于现有需求,而AIGC技术的将成为新的内容生产方式,更被认为 是元宇宙和 web3.0 的底层基础设施之一 。 众所周知,过去十几年,我们分别经历了互联网时代、区块链、元宇宙、Web3.0等新兴概念,每次新技术融合的出现就是一个巨大的市场机会,当然了,也有部分技术由于发展限制或者其他政策原因,并未在眼下得以快速发展,但是未来仍然是主流发展方向之一。 贴切,形象的比喻 2022年SD开源以来,AIGC的概念就像涨潮时的潮水一样,快速淹没了此前几个技术新兴的高地。而AIGC具备强大的"内容能力",其背后有三个助力因素:大模型、多模态、开源。 首先是大模型 。此前主流的AI技术主要采用特定场景下训练的小模型,这种技术路线往往包含了若干base model(类似于执行具体任务的程序),在特定领域的互动中可以满足需求。但如果想添加新功能,就必须训练新model,这导致如果提出一些非"常规"的问题,人工智能就会变成人工智障。但以open AI为代表的新技术路线,从一开始就采用了成百上千亿参数的大模型训练,作为GPT3 的升级版本,chatGPT的参数预估超过 1750亿。这样训练的成本更高,但在理解需求时会更有可能接近人类的思维方式,因为人脑就是一个由无数神经元连接的超大规模的网络。 第二是多模态 。文字、语音、图片、视频,每一种内容格式都成为一种模态,OpenAI推出的CLIP以及基于此技术出现的diffusion model(去噪扩散模型),在生成领域开辟了一条全新、便捷的线路——多模态的融合相比此前的技术得到的内容更加自然、精准。除了技术上的创新外,CLIP算法超过 40 亿的训练数据也印证了模型效果和海量数据背后的强相关关系。 第三就是开源 。开源一直是AI技术文化的一部分。开源带来的影响力是巨大的,比如GAN及其变种在AI领域持续的活跃就是开源带来的直接作用。开源也让技术赋予了商业化的能力。让原本门槛很高的领域能为普通人接触,比如我。 而2022年上半年SD选择开源,就是引爆市场的一个导火索!AI发展史简单概括 人工智能(Artificial Intelligence,AI)研究目的是通过探索智慧的本质和原理,来扩展人类智能——促使智能主体会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、专家系统等)、会学习(知识表示,机器学习等)、会行动(机器人、自动驾驶汽车等)。一个经典的AI定义是: " 智能主体可以理解数据及从中学习,并利用知识实现特定目标和任务的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)" 不同时代、学科背景的人对于智慧的理解及其实现方法有着不同的思想主张,并由此衍生了不同的学派,影响较大的学派及其代表方法如下: 从始至此,人工智能(AI)便在充满未知的道路探索,曲折起伏,我们可将这段发展历程大致划分为5个阶段期: 其中,知名的大事件: 1起步发展期:1943年—20世纪60年代 注意这里1969年提出的XOR问题就是未来促使MLP多层感知机神经网络出现的动力,另外我们也看到了,AI科学的发展不单单受限于计算机领域知识,很多时候还要依赖于数据知识,物理知识等基础。 2 反思发展期:20世纪70年代 可惜的是1974年沃伯斯博士提出的BP算法没有得到重视,这里还有个惋惜,比如后来1979年的福岛邦彦博士开发基于模式识别的Neocognitron网络模型,其实就是后俩CNN的雏形,但是由于没有结合BP算法调优,还不算完整的CNN,直到后来卷积神经网络之父Yann LeCun1989年基于先前科学家论文再结合BP算法搞出了完整的CNN,那时候已经过去了15年的时间。 所以说科学有时候需要天时地利,是一个玄学! 还有三个阶段的发展历程还在整理中,下一篇会讲解清楚,总的来讲: AIGC带来最直接的冲击是消费领域,从文本生成、图像生成再到视频生成、游戏生成,这些都是我们已经看到或即将看到的新业态。 AIGC文本交互的形式原生的匹配了以客服聊天、新闻撰写等为核心的场景。在给定场景和prompt的前提下,基于大模型的垂直领域的优化可以很轻易地完成这结构化的文本生成,如金融新闻,体育简报,在线客服问答等。交互型文本在游戏开发上,如NPC角色个性化交互、灵宠的交流互动等可能会有所突破,直接提升游戏的体验。 当然在一些具有较长上下文联系,情感融合以及表达艺术需求的创作型文本撰写上,如小说、剧本等,则需要更大的定制化以及模型更高的生成能力的支持。 在图像领域,图像编辑已经有较多的技术支持和实践,如滤镜、颜色、纹理、风格、分辨率调整已经较为成熟,deepfake更是曾经名噪一时,如今以DALL.E-2,stable diffusion和Midjourney为代表的diffusion产品更让完整的图像生成风光无两。 diffusion在图像领域带来的突破,也让它在其他领域找到一席之地,如视频、语音生成,3D点云填补等。其中语音合成TTS已经初见成效。未来文字配音及基于文字自动填词、基于文字创作自动配音的实现将会更大程度的降低创作领域的门槛,实现AI也是艺术家。 但是我们也要看到生成图像的稳定度以及质量仍然有待改善,生成的图像虽然在抽象画风上表现良好但对于现实的复刻,特别是多对象生成时,仍然有明显的伪造痕迹。 除了图像外,真正能带来消费领域大变革的在视频领域。视频的表现力和视觉冲击力会远大于文字,尤其是短视频领域。 利用AI技术实现图像修复技术、主体识别技术、视频跟踪、美颜技术完善画质效果,根据视频内的风格、色泽、图画、音频等多模态信息,对视频关键内容进行自动识别、关键帧截取、剪辑及合成,以及后续视频内容自动生成都是AIGC在视频领域有机会的探索方向。 整体而言,对于大部分产业来说都将进入一个颠覆变革期。对于AIGC的发展,红杉资本也于去年 9 月份做出了预测:文字类AIGC将在 2023 年进入黄金期,图片类AIGC黄金期将在 2025 年左右,而3D和视频类AI在 2030 年将迎来变革高峰。 AIGC,是真正赋予AI自行创作能力的起点,虽然目前看起来它依然有着很多的瑕疵,但是确实给予了人们很大的期待。随着GPT4 即将推出,多模态成为必然趋势,相信可以给人更大的冲击,说不定一直摆在人与AI之间的图灵测试将会就此被打破,到时科幻电影里的强人工智能离我们的现实或许并不那么遥远。