虎嗅-AI 2024年10月30日
播客,下一个 AI 涌入的赛道
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI 音乐生成产品涌现,大众热情高涨。NotebookLM 文本生成播客功能走红,谷歌此前的 Illuminate 也能将学术论文等转换为播客。国内虽未大范围爆发AI播客,但已有尝试。AI 播客的关键包括提示词技巧、底层模型能力和语音合成技术。未来,AI 将打通内容模态,带来多元化个性化体验。

🎵AI 音乐生成产品大量出现,大众积极参与创作与发布,虽质量有待提高,但有一定应用和创造性价值,网易云、QQ 音乐等平台开设 AI 音乐专区。

📝NotebookLM 因文本生成播客功能受关注,能将上传资料转换成逼真的双人对话播客,Andrej Karpathy 和老池对其评价颇高,谷歌的 Illuminate 也能将学术论文等转换为播客并已支持公开访问。

🔑AI 播客的关键包括提示词技巧,需将文本转化为具可读性和专业性的双人对话内容;底层模型能力,包括指令遵循和结构化输出,需严格按 JSON 格式;语音合成技术,TTS 效果影响用户体验,需选用逼真的中文模型。

🌈未来 AI 将打通内容模态,创作者可将同一选题内容转换多种形式,消费者可定制符合自己阅读习惯的内容,实现多元化个性化体验,推动内容产业创新发展。

在今年三月,Suno V3 的横空出世,如 AI 圈的一声春雷。那时,复苏的不只有世间万物,还有在“人人都是音乐家”的口号下,大众对生成式 AI 的热情。

一石激起千层浪。在这场生产端,既有抢占先机快速套壳 Suno 的,又有加紧开发自研模型的,一时间诞生了上百款 AI 音乐生成产品;而在消费端更是狂热,数十万人涌进网易云音乐、QQ 音乐等平台注册成为“音乐人”,乐此不疲地创作与发布。

在社交媒体上可以轻松看到这些帖子:“这套工作流,批量生产优质 AI 歌曲”,“秒过音乐人申请教程”,“分享我用 AI 音乐薅来的创作中收益”...

诚然,AI 生成的音乐质量还远达不到“如听仙乐耳暂明”的程度。甚至还有些内容过剩,供过于求之下,听多了反而觉得厌烦。

但不得不承认的是,AI 生成的音乐质量是高于大众普遍水平的,不可忽视其在部分场景下的应用价值和创造性价值。

面对来势汹汹的 AI 音乐,网易云,QQ音乐等平台选择积极应对,对此专门开放了 AI 音乐专区。

这一年多来,AI 的熊熊烈火从文字,图片蔓延到视频,音乐...

而现在,轮到了播客。

1

用 AI 来做播客的探索近年来一直都有,但最近大家的热情,被谷歌一款产品的新功能再次点燃。

NotebookLM,一款上线于 2023 年 9 月的 AI 笔记产品,因其最新的文本生成播客功能而走红。

这不是简单的 TTS,而是能将你上传的任何资料,都转换成轻松愉快的双人对话播客,并且效果非常逼真。

Andrej Karpathy 大佬认为 NotebookLM 是非常引人注目的产品形态,甚至有当年 ChatGPT 的几分英姿。墨问西东的创始人老池也表示 NoteBookLM 是新一代的笔记产品,AI 生成的内容质量非常不错。

其实,谷歌之前还做了一个 Illuminate,能用 AI 将学术论文/书籍转换成通俗易懂的播客形式,并在计算机科学领域做了一定优化。

该产品最早亮相于今年五月的 Google I/O 大会,现在已支持公开访问。

https://illuminate.google.com/home

自定义生成功能还需要申请,不过通过还挺快的。

犹记得当年没毕业,读那些难啃的人工智能领域论文还是跟着李沐老师,现在的学生,依靠两位配合默契的 AI 老师,就能把要点娓娓道来了。

2

AI 播客在国内没有大范围爆发的一个原因,就是没有类似的中文版产品,但这只是时间问题。

特工宇宙在几个月前也尝试开发 Agent 实现类似的效果,整体流程并不复杂,但想要达到稳定逼真的效果需要一些工程上的优化手段。

大致实现思路:将文件中的纯文本提取后输入到大模型,大模型进行分段处理并结构化输出,然后分别用 TTS 最后再合成。

其中关键的三部分包括:

1. 提示词技巧,需要将输入的文本转化成既具可读性和专业性的双人对话内容,这关系着内容整体价值,控制不好会容易导致内容泛泛而谈或过于生硬。

2. 底层模型的能力,包括指令遵循和结构化输出的能力,如果没有严格按照 JSON 格式输出,会直接导致无法合成语音。

3. 语音合成技术,TTS 的效果会直接影响最终的用户体验,只有选用效果逼真的中文模型才会让人有听下去的欲望。

也有部分开发者进行了复刻,以下是一些供参考的开源项目,可以去学习一下其中的提示词技巧和实现思路。

1. https://github.com/gabrielchua/open-notebooklm

2. https://github.com/knowsuchagency/pdf-to-podcast

3. https://github.com/lihuithe/podlm-public

4. https://github.com/lamm-mit/PDF2Audio

大众对文本转播客的青睐,蕴含着未来内容的创作与分发的新范式。

在不远的未来,内容模态的任督二脉将被 AI 打通。对于内容创作者来说,同样的选题和内容,可以轻松地转换成图文、短视频、播客等形式,分发至不同的平台,同时满足不同渠道粉丝的不同需求。

对于内容消费者来说,可以将固定的知识,让 AI 处理成更符合自己阅读习惯的方式。比如变成漫画风格呈现,或是变成音乐唱出来,甚至可以是讲八卦风格的相声。用户还可以定制化音色,换成自己心仪的声音,实现更个性化的千人千面。

这种多元化和个性化的内容体验,不仅能够提高用户的满意度和参与度,也将推动内容产业的创新和发展。

随着技术的不断进步,可以预见的是一个更加丰富、便捷和智能的内容生态,即将到来。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 音乐 NotebookLM AI 播客 内容创作
相关文章