范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

谷歌AI练习生写了首歌,网友听完心率都低了

  杨净 衡宇 发自 凹非寺
  量子位 | 公众号 QbitAI
  一段话整出一首歌,甚至是男女唱(跳) rap的那种。
  谷歌最新模型MusicLM 一经推出就惊艳四座,不少网友惊呼:这是迄今听到最好的谱曲。
  它可以根据文本生成任何类型的音乐,不管是根据时间、地点、年代等各种因素来调节,还是给故事情节、世界名画配乐、生成人声rap口哨,通通不在话下。
  比如这幅《呐喊》(Scream)
  在一段摘自百科的说明提示下,它就能生成一段高契合度的音乐。
  (蒙克在一次幻觉经历中感受到并听到了整个自然界的尖叫声,它的灵感来源于此,描绘了一个惊慌失措的生物,既像尸体又让人联想到精子或胎儿,其轮廓与血红色天空的旋涡线条相呼应。)
  ViT(Vision Transformer) 作者在听过一段关键词含"平静舒缓""长笛和吉他"的生成音乐后,表示自己真的平静下来。
  也不免有同行表示,这对我来说比ChatGPT更值得关注,谷歌几乎解决了音乐生成的问题。
  毕竟MusicLM背靠280000小时音乐的训练数据库,事实上从现释出的Demo来看,MusicLM的能力还不止如此。还可以5分钟即兴创作
  可以看到,MusicLM最大的亮点莫过于就是根据丰富的文字描述来生成音乐,包括乐器、音乐风格、适用场景、节奏音调、是否包括人声(哼唱、口哨、合唱)等元素,以此来生成一段30秒的音乐。
  即便说的只是那种说不清道不明的氛围,"迷失在太空"、"轻松而悠闲";又或者是直接用在一些实用场景上,比如"街机游戏配乐"、给绘画配乐等。
  除此之外,MusicLM具备长段音乐创作、故事模式、调节旋律等方面的能力。
  在长段音乐方面, 它能完成5分钟 即兴创作,即便提示只有一个词。
  比如仅在Swing(摇摆) 的提示下,听着真就有种想马上下班去跳舞的冲动。(bushi)
  而在故事模式中,不同的情标记甚至可以精确到秒的生成,哪怕情境之间完全没有任何联系……
  游戏中播放的歌曲(0到15秒)——河边播放的冥想曲(15到20秒)——火(0:30-0:45)——烟花(0:45-0:60 )
  更让人惊艳到的是,它还有很强的实用性功能。
  一方面,它可以将旋律的提示结合进文本提示当中去,这样一来可以更精细地来调整音乐。有点改甲方爸爸需求那味了。
  另一方面,它还能根据具体的乐器、地点、流派、年代、甚至是音乐家演奏水平等文本来生成。
  背后生成模型MusicLM
  但有一说一,AI生成音乐模型不在少数,谷歌自己此前也推出有类似的模型AudioLM。
  此番MusicLM究竟有何不同?
  据研究团队介绍,贡献主要有三个方面:生成模型MusicLM。把方法扩展到其他条件信号,如根据文本提示合成的旋律,并生成5分钟的demo。发布了首个专门为文本-音乐生成任务评估数据集MusicCaps。
  首先,MusicLM正是基于谷歌三个月前提出AudioLM 模型的拓展。
  AudioLM不需要转录或标记,只需收听音频,AudioLM就能生成和提示风格相符的连贯音乐,包括钢琴音或人声对话等复杂声音。
  而最新的MusicLM,就是利用了AudioLM的多阶段自回归建模作为生成条件,且以此为基础进行拓展,使其可以通过文本提示来生成和修改音乐。
  它是一个分层的序列到序列(Sequence-to-Sequence) 模型,可以通过文本描述,以24kHz的频率生成音乐,并在几分钟内保持这个频率。
  具体而言,研究团队使用了三个模型来用来预训练,包括自监督音频表征模型SoundStream ,它可以以低比特率压缩一般音频,同时保持高重建质量。
  还有语义标记模型w2vBERT ,促进连贯生成;音频文本嵌入模型Mulan ,它可以将音乐及其对应的文本描述投射到嵌入空间(以消除在训练时对文本的不同需求) ,并允许纯音频语料库上进行训练,以此来应对训练数据有限的难题。
  训练过程中,他们从纯音频训练集中提取MuLan音频标记、语义标记和声学标记。
  在语义建模阶段,他们用MuLan音频标记作为条件来预测语义标记。随后在声学建模阶段,又基于MuLan音频标记和语义标记来预测声学标记。
  每个阶段都被建模为一个序列-序列任务,均使用单独解码器Transformer。
  在推理过程中,他们使用从文本提示中计算出的MuLan文本标记作为调节信号,并使用SoundStream解码器将生成的音频标记转换成波形。
  在280000个小时的训练后,MusicLM最终学会了保持24kHz的频率生成音乐,哪怕用来生成音乐的文本非常绕口。
  类似"迷人的爵士歌曲与令人难忘的萨克斯独奏和独奏歌手"或"柏林90年代低音和强烈的电子乐"之类的。
  研究团队还引入了一个高质量音乐数据集MusicCaps来解决任务缺乏评估数据的问题。
  MusicCaps由专业人士共建,涵盖5500个音乐-文本对。研究团队公布了这个数据集,方便大伙进一步的研究。
  这么一套操作下来,通过定量指标和人工评估,MusicLM在音频质量和文本契合度等方面都优于此前的音乐生成AI。
  不过,谷歌研究团队说了:目前没有对外发布MusicLM的计划。
  原因很简单,除了训练过程中难免出现的样本质量失真,最最关键的还有2点。
  一来,尽管MusicLM在技术上可以生成合唱和声等人声,但是仔细听来,生成音乐的歌词,有的还勉勉强强听得出是音乐,有的根本就是无人能听懂的外星方言。
  再者,研究团队发现系统生成的音乐中,约有1%直接从训练集的歌曲中复制 ——这已经足以阻止对外发布MusicLM了。
  此外,还有批评者质疑,在受版权保护的音乐素材上训练AI模型到底合不合理。
  不过团队在论文中介绍了下一步动向,主要关注歌词生成 、改善提示文本准确性 以及提高生成质量 。
  复杂音乐结构的建模 也将成为团队的重点关注方向之一。音频生成AI
  这个研究的背后团队,是谷歌研究院。
  共同一作Timo I. Denk,是谷歌瑞士的软件工程师,每天的工作就是利用ML进行音乐理解。
  在这里多说两句,MusicLM的论文中,研究团队提到,MusicLM在质量和提示依从性方面都优于以前的系统。
  "以前的系统"包括哪些?
  一个是Mubert ,已在Github开源API,是一个text-to-music的AI,系列产品有根据既有标签生成音乐的Mubert Render、听歌软件Mubert Play等。
  还有Riffusion ,它建立在AI绘图的基础上,但将其应用于声音。
  换句话说,Riffusion的工作原理是首先构建一个索引的频谱图集合,上面标记代表频谱图中捕获的音乐风格的关键字。
  在频谱图主体上训练时,Riffusion就用Stable Diffusion的同一个方法——干预噪音,来获得与文本提示匹配的声波图像。
  还有针对音乐制作人和音乐家的 AI 音频生成工具Dance Diffusion ,OpenAI推出的可自动生成音乐的ML框架Jukebox ……
  要咱说,别成天盯着ChatGPT了,AIGC下一个风口万一是音乐生成呢?
  参考链接:
  [1]https://google-research.github.io/seanet/musiclm/examples/
  [2]https://arxiv.org/pdf/2301.11325.pdf
  [3]https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/
  — 完 —
  量子位 QbitAI · 头条号签约
  关注我们,第一时间获知前沿科技动态

一代名相李光地,其心可昭日月时间比较空闲突然想出去走走,来到了一代名相李光地的故乡安溪,水汽弥漫下的古镇仿佛一副水墨画,拥有浓重的历史感,走进贤良祠去感受名臣的赤子之心。古镇的贤良祠迈进古镇贤良祠的大门当我驻与ChatGPT对话篇前言本来想让ChatGPT给我写篇爆款文章,哪成想这家伙挺聪明,坚决不给人类当苦力,说服你的理由还有理有据,佩服佩服。以下是我们的对话问usekeyword法拉第未来贾跃亭王者归来宇宙工具箱永远的神!大家好,我是阿斌相信大家在生活中总会遇到需要某些功能的时候。但是为了一个功能去下载一个app,总是会导致我们的的手机内存不足或者是过于冗余一点也不方便。今天阿斌给大家带来一款囊括3青训又出瑰宝!布莱顿18岁神锋横空出世,未来将被豪门疯抢?对阵利物浦的赛事,布莱顿最终是在主场30轻松取胜,与伤兵满营且状态低迷的利物浦相比,布莱顿这边状态无疑是更好的,麦卡利斯特凯塞多格罗斯马希三笘薫等人状态都打出了优秀的表现。而最为值YOLO对象检测算法又又又更新了,YOLOv8横空出世前面的文章,我们分享了YOLO系列的文章,包括前段时间刚刚发布的YOLOv7检测算法,虽然YOLOv7对象检测算法是YOLO最新的模型,且可以支持对象分割,人体姿态检测等,但是最新3D场景零代码平台3D场景建模软件(零基础零代码),是指用来制作场景的软件,分为2D建模和3D建模,二者使用的技术及原理不同。2D软件它是用3维几何图形绘制出三维图形的软件,其主要功能是利用软件中已现代篮球下的最强主攻手们本赛季是联盟历史上最强的进攻大年,多队挤进了历史进攻效率榜单,并有可能同时占据历史前三的位置。本赛季联盟的平均进攻效率114。1,放5年前这是联盟顶级的进攻效率。在这种情况下,联盟东北制药违反垄断法被罚超亿元,预计利润大涨却卖房电鳗财经赵超文作为国家大宗原料药和医药中间体智能制造示范工厂的东北制药(000597。SZ),因滥用市场支配地位,近日收到行政处罚决定书,被罚款1。33亿元。东北制药称,上述行政处资治通鉴里面的权力和野心三家分晋民间俗话手持利刃,杀心自起。史书不绝的是权力滋生野心。后人皆知王侯将相宁有种乎!甚至今世天子,兵强马壮者则为之耳!但是这些话,当皇帝的最不喜欢。为了让大宋官家皇权巩固,司马光编撰了为何越来越多人放弃滚筒洗衣机,选波轮洗衣机,原来有这4个缺陷洗衣机作为我们家里最常用的电器之一,市面上的种类也是多种多样,有波轮滚筒洗烘一体机等,虽然滚筒洗衣机仍然是市上的主流洗衣机,但越来越多人开始不选滚筒洗衣机,这是为什么呢,只因存在这阿里回击英国金融时报的报道阿里巴巴阿里对英国金融时报的一篇报道作出了回击。事件起因是,日前,据英国金融时报(FinancialTimes)的一篇报道称,阿里巴巴(港股代码09988)一直聘请学者游说内地当局
陈士榘当二十多年兵种司令,与几任政委合作不太好,与他很融洽?新中国成立后,在以陆军的基础上发展空军海军,以及装甲兵工程兵炮兵铁道兵等军兵种。在军兵种司令员中,除了萧劲光担任海军司令员长达三十年外,陈士榘作为工程兵司令员任职长达23年。很多人对手眼中凶恶的刀笔奇才,千年思想家马克思卡尔马克思,全名卡尔海因里希马克思(德语KarlHeinrichMarx),马克思主义的创始人之一,全世界无产阶级和劳动人民的伟大导师,无产阶级的精神领袖,国际共产主义运动的先驱和浅谈历史兴衰更替周期律根源谁解决腐败问题,谁就会得到永生纵观中国历史,经历无数朝代的兴衰更替,也就是历史周期律问题。历史周期律几千年来没有一个朝代能够解决,这个铁律背后的逻辑是什么?首先,是不是以老百姓为中心,也就是对于老百姓实施怀柔的王近山在386旅当旅长时,他是旅政委,那他后来怎么样了?对王近山将军的事迹,大家都耳熟能详,这里就不再赘述。接下来就和大家说说,王近山在386旅当旅长时,他的搭档政委。下面这位,就是在王近山当旅长时的政委,鲜有人提及。他叫聂真,原名聂元国际拿了北约的援助,乌克兰以后要不要偿还,历史有答案自俄乌开战以来,乌克兰共获得北约大约1000亿美元的援助,包括各种物资以及武器弹药,那么这些援助以后需不需偿还呢?其实这个问题已经有现成的历史答案,毕竟美国又不是第一次干这种事,我一张与朝鲜小姑娘的合影浙江省衢州市柯城区老党员沈樟洪的家中,悬挂着一张他与一位朝鲜小姑娘的合影,照片中,小姑娘右手搭在他的肩上,显得格外亲密。沈樟洪,1934年3月生于浙江义乌。1950年10月19日,荣光属于他们两名委内瑞拉侨胞获殊荣旅委侨胞李振山(左)甄庭耀(右)(江门市侨媒中心黄柏军摄影报道)3月14日下午,由委内瑞拉驻广州总领事馆主办的纪念委内瑞拉已故总统查韦斯逝世十周年主题展览查韦斯从这里路过人物图片展溥仪被特赦后,去探望还在世的太监,他们是怎么称呼溥仪的?说起溥仪,想必大家都不陌生,他是我国的最后一位皇帝。即使是皇帝,但也是悲催的,名不副实也没有实权。溥仪这一生堪称是跌宕起伏,一生能做主的日子并不多。在还是皇帝的时候,没有得到任何的轻松一下盘点中国古代帝王的奇葩死法历史开讲古时候的帝王,享受着无上的权利和荣华富贵,是很多人在封建时期的梦想。古代时期帝王上台的方式多种多样,有禅让制和世袭制,再到谋权篡位,发动兵变等等。然而,古代的帝王死法更是各什么是方言学堂?自强学堂后传(中)两年前,我炮制了一篇题为什么是自强学堂?的历史(但并非本校校史)科普长文,当时,为了尽量控制篇幅,该文最后只交代了自强学堂作为一个历史名词在后世的影响和命运,至于它作为一个办学实体不堕底线明哲保身的士大夫官僚杨万里,有多牛?在庆元党禁中有为数不少的士大夫官僚,在伪学之禁中介于私情和底线之间,既不攀附韩氏助封为虐,亦不完全倒向道学派士人。他们顾全名节却懂得明哲保身,进退有度,如杨万里周必大留正等,其中杨