找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 117|回复: 4

[【其它】] 【AI音乐工具:Suno AI】音乐制作人听到AI作曲后的崩溃现场。。。

[复制链接]
发表于 2024-3-28 17:27:12 | 显示全部楼层 |阅读模式
本帖最后由 bookeryv 于 2024-3-28 17:31 编辑

【【AI音乐】音乐制作人听到AI作曲后的崩溃现场。。。】 https://www.bilibili.com/video/B ... 33f4d3e23019a9d05e3

拉到最后讨论环节很多干货


AI+音乐|对话 Suno CEO:破圈的音乐生成产品是如何诞生的?
最近,音乐生成产品 Suno 随着 V3 的发布迎来了破圈。这款产品的第一次发布是在去年 12 月 20 日,在第一时间体验了产品之后我们看到音乐创作和消费有望随着创作门槛的极大降低而成为消费级产品的内容形态,于是我们发表了第一篇 Suno 的研究文章。

近日我们进一步整理了 Suno CEO:Mikey Shulman 的最新访谈和滚石杂志的报道,关于 Suno 诞生的背景、音乐创作的方式与消费的可能性。


Sense 思考
我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。

Suno AI通过结合人工智能技术与音乐创作,为用户提供了一个全新的音乐创作平台。这种技术的应用不仅降低了音乐制作的门槛,还为音乐爱好者和专业人士提供了新的创作工具,从而推动了音乐创作的民主化。

Suno AI 可以作为一个教育工具,帮助学习者理解音乐结构和创作过程。通过实践操作,学习者可以更快地掌握音乐创作的技巧,这可能会改变传统的音乐教育模式。

Suno AI 等工具的出现可能会改变音乐产业的运作方式。从音乐制作到分发,AI 技术的应用可能会导致新的商业模式和服务的出现,从而影响音乐创作者、发行商和消费者的互动。

1. 产品:Suno

2. 创立时间: 2022 年

3. 创始团队

Mikey Shulman:担任首席执行官,他曾担任Kensho的机器学习主管,麻省理工学院斯隆管理学院的讲师,哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位;

Camachoeorg Kucsko:Kensho Technologies的首席构架师,在哈佛大学毕业后加入Suno团队。

4. 产品简介:

Suno AI是一款由麻省理工团队开发的强大人工智能音乐生成器。用户可以通过简单的文本提示进行创作,生成多种音乐风格的高质量音乐和语音。。

5. 融资情况

2023年:Suno.ai进行了种子轮融资,融资金额达到140万美元;

01.创始人背景与音乐之路
Suno,一款开创性的AI音乐创作工具,在迅速增长的人工智能音乐生成器领域中脱颖而出。与主要关注器乐作品的传统工具不同,Suno的独特之处在于它能够创作包含歌词和人声的完整歌曲。这一独特技能让Suno与Google的MusicFX以及Meta的AudioGen等竞争者显著区别开来。

Suno由一支专门从事AI和机器学习的专家团队创立,他们之前在Kensho Technologies工作过,Suno旨在使音乐创作民主化。包括拥有哈佛物理学博士学位的Mikey Shulman在内的创始人都是音乐家,他们将Suno视为解决音乐听众与创作者之间数量不平衡的工具。他们的愿景是让全球十亿人能够使用Suno发挥自己潜在的音乐才能,提供一个大家都可以简单使用的歌曲创作平台。

Mikey Schulman是Suno的CEO联合创始人之一,在一次访谈中Schulman回顾了自己的音乐之路。

他从学习了多种乐器,并在高中和大学期间在纽约的一些小型俱乐部里演奏贝斯。尽管演出并不总是那么成功,但与人们一起制作音乐的过程充满了乐趣。

Mikey:“音乐一直是我生活中很重要的一部分。我从小学习小提琴和吉他,大学时组建了一支乐队。”

后来,Mikey在哈佛大学学习物理,但他的职业生涯最终转向了人工智能和机器学习领域。

Mikey:“虽然我学的是物理,但音乐始终是我的激情所在,我录过一张EP。作为业余音乐人,录音棚工作比现场演出要枯燥得多。我记得有一次录音时因为不小心从椅子上滑下来,导致一个很棒的录音报废,不得不重新录。这种事在现场演出时绝对不会发生。”

Mikey研究生毕业后,就在Kensho Technologies工作,该公司后来被S&P Global收购。

Mikey:“我在读研究生的最后一年,刚好认识了 Keno 的一些人,其中一位 Martin 现在是我的联合创始人。一次午餐时他们问我什么时候去面试,我说我是学生,随时都行。结果他们说那现在就去吧,我就跟着上楼面试了。虽然面得很糟糕,但他们还是决定给我一个机会。”

在Kensho,Mikey和他的团队成员开始探索音频AI的可能性。Mikey和他的团队在Kensho进行的一项关于语音转写的项目,让他们对音频AI产生了浓厚的兴趣。尽管这个项目专注于财经领域,但他们认识到音频AI在更广泛的音乐创作领域内的潜力。

Mikey:“Keno 主要是利用 NLP 和机器学习处理大量金融文档,2018年被标普全球收购。收购后我们获得了大量的金融文档数据,简直是梦想成真。我们还做了一个语音项目,就是将上市公司的财报电话会议实时转录成文字。这是 Keno 第一次涉足音频 AI 领域。我们发现,如果拥有几十年积累的高质量转录数据,再加上机器学习算法,就可以大幅提升准确率,远超市面上的语音转文字服务。”

Mikey和他的合作伙伴意识到,在金融服务公司追求音频AI可能并不合适。他们认为有更大的机会在音乐创作方面利用AI技术。Mikey特别指出,尽管最初他们没有确定产品的具体形式,但他们知道这个方向充满了机遇和挑战。

Mikey:“Keno 主要还是做文本方面的项目。这个音频项目是在被收购一年后开始做的。虽然金融领域确实有很多音频方面值得探索的地方,但我认为音频 AI 在金融之外有更广阔的应用空间。另外金融行业出于风险考虑,在创新方面会相对保守一些。文本领域有太多有趣的项目值得投入,很难分散精力去做音频。”

Suno团队早期的一个重要里程碑是发布了一个名为"Bark"的开源文本到语音项目。这个项目受到了社区的广泛关注,他们发现人们最感兴趣的是音乐生成,而不仅仅是文本到语音。他们发现,尽管人们试图使用Bark生成音乐,但这并不是训练该模型的初衷。但正是这一点激励了他们更进一步发展Suno,专注于音乐生成。

Mikey:“我们仔细评估了音频领域的各种机会,发现大部分人并不喜欢处理音频数据,可能这就是我们的特别之处,我们是真的很喜欢音频(笑)。我们一开始就决定要走 foundation model 的路线,因为从长远来看,这是最有前途的方向,虽然当时业界几乎没有用 transformer 做音频的先例。说实话,刚离开 Keno 时,我们还没完全确定是要做语音还是音乐。毕竟我们在语音领域有更多经验,也有不少人劝我们说语音市场更大,不要去做音乐。

但有两件事改变了我们的想法:

1.作为音乐爱好者,我们还是忍不住要去尝试音乐;
2.我们开源了一个叫 bark 的语音模型后,在 GitHub 上获得了很多关注。通过一个调查表单,我们发现用户最感兴趣的领域其实是音乐,而不是语音。”

Mikey希望让Suno重新定义音乐的创作和消费体验,无论你是音乐专业人士,还是从未尝试过创作的普通用户,Sunno都希望成为你表达内心情感、讲述生活故事的全新方式。

Mikey:“我们的目标就是让每个人都能将脑海中的音乐灵感,通过简单易用的工具,转化为实际的音乐作品。无论你是音乐专业人士,还是从未尝试过创作的普通用户,Suno都希望成为你表达内心情感、讲述生活故事的全新方式。未来,我们还计划探索更多有趣的人机交互方式。比如也许你可以哼唱一段旋律,模型就能以此为灵感,生成一首完整的歌曲;又或者你可以上传一些图片或视频,讲述你的生活片段,模型就能据此创作出与之相匹配的背景音乐。我们希望充分利用AI的能力,激发人们的创造力,让音乐创作成为一种全新的生活方式。当然,我们也深知音乐行业对知识产权的重视。Sunno致力于以合法合规的方式发展音乐AI。我们训练模型时只使用了无版权问题的音乐数据。生成的歌曲也经过了仔细地过滤,确保不会侵犯任何艺术家的权益。用户创作的歌曲,其版权将完全由用户自己所有。我们的目标是成为连接音乐人和AI的桥梁,让双方都能从这项技术中受益,而不是相互取代。”

02.Suno的创作方式
Suno的独特之处在于它不仅生成音乐的旋律和伴奏,还能创作歌词和人声。这意味着它可以产生完整的歌曲,包括所有必要的音乐元素。它的音乐元素甚至包含了不同种语言,甚至是方言,粤语,四川话的音乐都可以生成。

使用Suno的时候,用户可以选择两种模式。

  • 基础模式:用户提供一个AI风格的文本提示,并可以选择让歌曲保持纯乐器,无歌词的演奏。
  • 自定义模式:用户可以使用自己的歌词,设置多种流派风格的音乐,并给主动给歌曲命名。


用户使用Suno的创作流程很简单,当用户使用Suno时,用户首先选择生成模式(基础或自定义),然后输入相关的提示信息,如歌曲的主题、风格或特定的歌词。Suno利用这些输入生成一首完整的歌曲,并提供音轨供用户试听,同时提供歌词和代表歌曲主题的图片。

Suno以端到端的方式生成歌曲,意味着歌曲的人声、乐器和其他所有部分都是一次性生成的,并且使Suno能够创建歌词和人声的决定大大增加了模型训练的复杂性。这需要Suno的创始团队投入大量的努力,以确保模型能理解和生成人类的歌声和歌词。

在Suno最新的版本v3中引入了更多自然 sounding 和较少 auto-tune 样式的人声,以及为用户提供对创作过程更细致控制的新功能。例如,用户可以锁定他们喜欢的歌曲部分并重新生成不符合预期的部分。

03Suno的创作意义
Suno提供了一条让人们可以用文本探索音乐的道路,让任何人都可以享受制作音乐的乐趣,无论创作者是否有音乐背景。Suno希望赋能更多人将内心的旋律转化为现实,让音乐创作不再局限于专业音乐人。

Suno不仅关注于如何以新的方式创作音乐,也致力于探索如何以新的方式体验和分享音乐。Suno的出现可能预示着音乐消费和分享方式的变革,其中音乐不再仅仅是被动消费的对象,而是可以根据听众的具体情感和需求动态生成的体验。

Suno通过使音乐创作更加普及和个性化,有可能改变人们与音乐的关系,促进音乐作为一种表达和沟通方式的发展。这种自然语言创造音乐的分享方式将会产生一种新的社交模式——音乐社交。

音乐社交不仅仅是关于分享音乐本身,它还是一种新的互动方式,让人们可以通过音乐来连接和理解彼此。在这个平台上,用户不仅可以发布自己的音乐作品,还可以发现来自世界各地的创作者和他们的作品,从而激发新的灵感和创意。这种跨文化的交流和合作将推动音乐的创新,使其成为一种真正全球化的语言。

随着Suno社区的不断壮大,我们也将看到更多基于音乐的社交活动和事件的出现。从在线音乐会到创作工作坊,Suno为用户提供了一个平台,让他们可以共同参与和享受音乐的乐趣。这不仅加深了社区成员之间的联系,也为音乐爱好者带来了全新的体验和机会。


参考材料

https://www.tomsguide.com/ai/i-tried-the-radio-quality-suno-ai-music-generator-heres-how-it-sounds
https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/
https://gosummarize.com/youtube/@lightspeedvp/mikey-shulman-suno-and-the-sound-of-ai-music








评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-3-28 17:46:28 | 显示全部楼层
个人认为,没有人的参与,AI是不可能创作出好听的音乐的。因为AI没有理解力。
回复

使用道具 举报

发表于 2024-3-28 18:00:17 | 显示全部楼层
听完那个AI创作的歌曲,个人认为都不好听。
回复

使用道具 举报

 楼主| 发表于 2024-4-1 18:01:45 | 显示全部楼层
Suno 将如何进化?

Suno V3 的发布,一石激起千层浪。

它以更清晰动听的广播音质、更多的音乐风格和流派、更快的响应指令、更少的幻觉等给人带来了耳目一新的使用体验,为AI圈带来的震撼程度不亚于当时Sora的发布。

由于Suno V3 一发布就对全民开放,而且对音乐初学者来说几乎毫无门槛,很多人将Suno V3视为「音乐界的ChatGPT时刻」。

我们认为,此次Suno的惊艳发布是一次情理之中,但依然让人喜不自禁的AI offering:它不仅丰富了多模态大模型AIGC的落地生态、补足了音乐这块短板;更加速了音乐的“民主化”,让普罗大众的创作热情空前高涨。

很快,它将辐射到各个场景,尤其对广告、娱乐、短视频领域产生巨大的影响。



01.
Suno炸裂登场,音乐人高喊“狼来了”



Suno V3 是由麻省理工团队开发的一款多语言多风格音乐创作的AI交互模型。

Suno V3 之所以令人感到震撼,首先体现在它是一个小白也能使用的可生成广播品质的音乐产品。

打开Suno的页面,输入歌曲描述之后轻点“创作”,就可以获得一首由Suno创作的歌曲。用户还可以选择“自定义”模式,输入自己写好的歌词、选择音乐的风格流派,“个性化定制”音乐。

图片

Suno 可以生成多种风格的音乐,包括流行、摇滚、古典、电子等几十种。它根据用户的下列输入指令(Prompt)生成音乐,包括生成音乐小样(Create)、继续完成(Continue From This Song)、进一步混音(Remix)、融合完工(Get Whole Song)。

在探索页面,我们能看到网友创作的各种风格的音乐作品,有电子乐、重金属、蓝调、hip-hop等不同的流派,Suno则根据播放量和点赞量对歌曲进行趋势排名(Trending)。

图片
我们下载了其中排名第一的“π”和排名第二的“Ein neuer Beginn(德语:新的开始)”,可以听到,无论是歌词还是节奏和韵律,Suno生成的歌曲都别有一番风味。

别开生面“π”歌把 3.1415926… 几百位数唱得那么有趣,超出了人们的想象,给我们带来别样的惊喜。

训练中的抽象压缩造成形式与内容的分离有多透彻,推理生成时候内容附体变形就有多曼妙——这是大模型时代的创意。

AI 带来了艺术创造的多元化,以及探究艺术形式边界和极限 cases 的可能性。将来,不同艺术风格的碰撞和混合会有容易得多的大量尝试。

从这个意义上看,超越人类的AI创造力才刚刚拉开序幕。当然,Suno V3 目前的水平总体而言只是人类艺术家的二流水平,与人类顶级音乐大师还有不小的距离,但这个距离会随着模型的更新迭代不断缩小。

可以听到,Suno 用一个空灵婉转的女声,为我们呈现出了一首旋律优美、曲风清新的德语歌曲。

经过多次尝试后我们发现,Suno V3生成音乐的过程,很像是 Midjourney 文生图的过程,先生成两个不超过2分钟的高质量小样。用户可以选中一个小样继续创作过程,继续的节点可以是小样中的任意时间位置,用户可以抛弃小样中不满意的部分,集成前半部分满意的结果,进而递归循环,使作品长度突破两分钟的限制。

如果对小样完全不满意,也可以重试,选择Remix、重新调整Prompt或歌词,在这个主题下进行变体创作。

Suno强大的音乐生成能力和简单易上手的操作很容易让作为普通人的我们感到惊喜;但是当它的能力也震撼了音乐人,才让我们感到“狼真的来了”。

从事媒体和音乐工作近30年的全能爸爸科技董事长杨樾发文表示,“直到昨夜,我尝试了AI音乐工具Suno的V3版,这是我用它测试昨的第一首歌,做出来我真是百感交集,那一刻既兴奋又幻灭,兴奋于AI真的可以替代人做音乐了,幻灭于音乐的创作与表达手艺可能要颠覆了,这个行业也要变天了,其划时代意义不次于巴赫写出十二平均律和电子合成器的诞生。”

之前在谷歌、现为全职音乐制作人的王大文更是在Suno的测评视频中数次捶胸顿足地表示,Suno太强了,自己作为音乐人可以“不干了”。

当然,在专业的音乐人群体里,也有对Suno持怀疑态度的一方。

比如音乐家西湖春天认为,即使Al生成作品的和声、节奏、演唱强弱,呼吸吐字以及及情感表达都很有特色,但从专业人士的角度看,AI创作音乐和歌词仍然缺乏章法,有些根本就是硬凑,缺乏思想性和音乐语言的贴切运用,也缺乏人性的灵感和温度。因此,在AI音乐创作的起步阶段,仍然需要专业人士去帮助它、发展它,让它变得更人性化、让作品更有温度。

对此,我们认为,温度虽然需要音乐形态去驱动,但更主要的是感受者的主观解读或体验。

如果要从客观上解决这一问题,或许可以采用类似图灵测试的办法,把人类歌曲与AI歌曲混在一起,做双盲测试——看哪些AI歌曲被认为是有温度或没温度的,与人类歌曲在温度比例上有多少不同,这样才可以防止先入为主的成见。同时,这样的人类反馈可以帮助模型更好地对齐人类的艺术品味,从而生成无法与人类作品区别的更加有温度的艺术作品。



02.
Suno,不止于音乐



除了生成音乐和歌曲供人休闲,Suno还可以用在什么地方?

为了探索Suno更广泛的用途,我们结合出门问问的几款AI产品,对Suno的使用场景做了探索。

首先是Suno与魔音工坊海外版「DupDub」的结合。我们编写了关于“DupDub”的歌词输入Suno,让它为我们生成了一首歌;接着将图片和歌曲放入「DupDub」,一个让数字人开口唱歌的《AI Talking Avatar》视频便新鲜出炉了。

Suno还可以与出门问问的数字人制作产品「奇妙元」结合,生成人物口型相匹配的唱歌视频。

此外,还可以使用出门问问「序列猴子」大模型或其他第三方大模型作词,然后调用Suno作曲和演唱。当然,Suno自己现有的文本能力也会逐步增强,就像出门问问的声音模型自然与文本大模型「序列猴子」融合一样,Suno 也会加大对文本基础模型的投入和融合,进而取代大多数场景的调用外部大模型的需求。

我们用序列猴子大模型改编歌词为视频描述(Script),Suno 作曲,再用出门问问的「元创岛」视频平台,制作出了一个颇有新意的MV视频:

当Suno开始配合文生图、文生视频、数字人等工具生成各种视频,MV(Music Video)赛道也即将迎来一场翻天覆地的改变。



03.
还能如何进化?



Suno虽然没有公开其技术细节,但在多模态模型的大框架下,其底层技术并不新鲜,基本上是近几个月爆发的一批新一代超写实语音大模型(包括出门问问的语音大模型MeetVoice Pro)的自然延伸。

据Suno创始人透露,他们采用的依然是基于Transformer的架构,对音频做Tokenization,用到了自回归模型,也用到了扩散模型,他的体会是两种模型可以取长补短。

虽然不及 Sora 的视频数据的复杂度,音频数据的复杂性比起文字还是要高得多,它不像文字那样是离散的,而是一种波,一种连续的信号。

在此前滚石杂志(Rolling Stone)对Suno创始人Mikey Shulman的采访中,Shulman表示此前高品质音频的采样率通常是44kHz或48kHz,这意味着模型要每秒处理48000个Tokens。

要让Transformer模型处理这么大量的Tokens很难,因此就要对Token进行压缩。目前主流的工具是Meta开源的AudioCraft,它由三个核心组件组成:AudioGen,用于生成各种音频效果和音景的工具;MusicGen,可以根据描述创建音乐作品和旋律;和EnCodec,一种基于神经网络的音频压缩编解码器。

一般来说,对于24kHz的音频,也就是24000 Token/秒, 使用EnCodec进行压缩后,可以压缩成300 Token/秒(4个codebook,码率为3kbps),然后再输入GPT架构去做预测。

目前市面上的大部分语音大模型都是试图提高压缩率、将每秒的Token数压缩得更小一点,以降低GPT架构预测的难度;然而压缩率越高、模型生成的音质就越差。

Suno具体采用了什么样的压缩方法我们不得而知,但大体脱离不了上述框架。

此外,Suno其实是由两个主要的音乐生成模型构成的:

一是Bark ,它擅长歌唱和抒情表演,主要用来生成人声;
二是Chirp,它专注于创作器乐伴奏曲目,主要用来生成音乐、音效。

2023 年4月,Suno 发布了 Bark ,这是一个基于 Transformer 架构的开源文本转语音模型,可以生成非常逼真的多语言语音以及其他音频,包括音乐、背景噪音和简单的音效,如笑声、叹息和哭泣。
在与 Bark 的用户交流中,他们发现用户真正想要的是一个音乐生成器。
于是2023年7月,他们基于 Bark 开发了一个名为 Chirp 的音乐生成模型,类似谷歌的Audio LM。2023 年 9 月发布了 Suno Chirp V1,并开始邀请用户加入 Discord 频道体验文字生成音乐。2023 年 12 月, Suno 推出了网页版本应用,在同月与微软达成了合作,微软将Suno插件加入到了自己的Copilot中。
这两种模型利用相同的底层深度学习架构,该架构经过海量音乐数据集的自训练来捕获人声、旋律、节奏等背后的模式,这使得 Suno 能够端到端仅从歌词或其他文本开始创作令人震惊的类似人类的歌唱和音乐风格。但是,这种多音频交互混合的模式也使得Suno做压缩和混合的难度大大提升。
此外,音乐大模型研发的主要瓶颈在数据,因为音乐的商品属性导致其容易引起版权纠纷,如果靠采购正版音乐来收集高品质的数据,那么成本将无法承受;靠“扒带子”的方法又容易引起版权官司,所以很多大厂至今都没有去碰音乐大模型。
Suno是怎么做的呢?他们并没有对外披露自己的训练数据,但是据海外媒体报道,Suno采用的是与艺术家和音乐家合作创建的“特别委托的数据集”,通过积极与创作者接触并确保适当的许可协议,Suno将艺术家的作品完整地整合到其模型中,这种做法不仅保护了知识产权,更为Suno提供了独有且高质量的音乐数据,保证了训练效果。
针对目前不少人提出的Suno“生成时长短”、“一次性生成无法修改”、“咬字不标准(幻觉)”、“前后风格不一致(可控性差)”等问题。我们认为,这都是一些成长过程中的问题,是生成式AI在发展过程中必须要经历的阶段。
比如生成时长问题已经可以用生成式AI的长窗口递归调用方法解决;一次性生成是生成式AI的特点(feature)而不是bugs,不满意的话可以从任何节点开始重新生成,通过多次生成的方式解除困扰,也不算事真正的痛点。
幻觉和可控性差其实是一切生成式AI的通病,整个AI界都在苦苦探索和攻关。在这方面的学界业界的创新和突破会自然惠及GenAI 的所有 AIGC 赛道,包括音乐生成。
未来,V5版本的Suno还有可能在哪些方向上做出优化呢?我们做了以下猜想:
1、可控性更强,未来Suno团队可能会对生成的作品引入local condition(局部调整),实现乐曲风格的自由变换和组合,减少幻觉;
2、声音克隆,未来可能会实现「人声上传」和「歌曲上传」的功能,用户上传自己的声音或歌曲后就可以生成同样声音的曲目(人声上传据消息已经在内侧中);
3、音质进一步提升,未来Suno可能会通过音频压缩技术的升级,用更少的codec实现更好的音质;
4、支持的语种数量进一步增加,会不断支持更多国家的语言和方言,这其实主要是数据问题,不需要改变现有模型和框架;
5、更广的音域范围:目前来看Suno生成的音域范围有限,未来或许可以支持更广的音域,包括各种人声音域和乐器音域。

04.
多模态AIGC的龙珠还剩几颗?



其实,Suno 团队创业时候的第一个目标是语音,直到后来调研发现人们对音乐有更大需求,才开始专攻音乐。
从技术上说,音频大数据的自学习框架和算法是一致的,在语音大模型(包括以「序列猴子」为底座的语音大模型MeetVoice Pro)几个月前大升级的时候,音乐大模型技术就已经基本成熟,没有真正的技术障碍了。
早在两三年前,Meta 就推出了音乐模型,当时已经可以生成很地道的乡村音乐了;Suno 此前也发布过几个版本,积累了一些社区用户,但直到这次V3版本发布后才迎来了爆发。
因此我们认为,这波以Suno为代表的音乐AIGC的大爆发其实是预料之中的事,只是比预计的来得稍晚了一些。
此前,我们多数人都认为音乐模型的爆火会早于更加艰难的视频大模型,没想到Sora抢先了,但后去的发展和普及势头 Suno 会超过 Sora。
Suno作为音乐大模型,比视频模型Sora推出得晚一些,但是声势却不输Sora,甚至还有更加“破圈”的趋势。为什么会这样呢?
道理很简单:音乐语言既感性也抽象,每个人都可以有自己的理解,但没有人能直接“翻译”音乐语言。所以合规方面,除了对于歌词要把关外,其音频生成品(音乐)是没有什么监管顾虑的。而视频大模型(如Sora)不同,视觉的冲击力远大于听觉,因此Sora面对的是更加严格的监管和安全风险。
Suno V3 一经发布就面向全体用户,而 Sora 的正式面世至少还要几个月吧。因此,大概率要发生的是:Suno 或其竞品,在今后一年内会“病毒式”传播,野火式蔓延,这可能是 AI 给人的精神层面带来的最大福祉——音乐平民化。音乐作为一种大众产品,将更加无孔不入地渗透到到每一个人的生活中去,给人以精神慰藉和情绪宣泄。
在Suno出现之前,多模态AIGC在文字、语音、图像、视频等领域已经有了成熟的代表性产品:

文字:ChatGPT 、Claude、 Gemini等;
语音:GPT4V、魔音工坊等;
图像:MidJourney、Dall-E等;
数字人:奇妙元、奇妙问、DupDub等;
3D 虚拟场景:Unreal Engine、Omniverse、DupDub等;
视频:Sora、阿里EMO、元创岛等。

Suno的出现进一步补齐了多模态AIGC的短板,让音乐大模型成为多模态领域一颗新的龙珠。而未来,还有哪些多模态的AIGC产品可能会迎来爆发?
游戏与大模型的碰撞或许是未来可以期待的一个重要爆发方向。

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-4-1 22:12:00 来自手机 | 显示全部楼层
太深了,这个
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-4-27 23:43 , Processed in 0.300292 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表