Z Potentials 2024年11月10日
速递 | 将视频初创出售给苹果的创始人,进军AI视频配音,获得近千万美金投资
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Panjaya是一家开发生成式AI视频配音工具的初创公司,其产品BodyTalk能够将视频内容翻译成多种语言,并自动调整视频中说话者的口型和肢体动作,使其与新语言的语音模式自然匹配。该工具结合了音频翻译、语音合成和视频编辑技术,为B2B客户提供高质量的配音服务,例如TED和JFrog。Panjaya的目标是利用AI技术,为不同语言的受众提供更自然的观看体验,并避免深度伪造带来的负面影响,同时计划未来开发更多工具来防止合成媒体的滥用。

🤔Panjaya开发了一款名为BodyTalk的AI视频配音工具,可以将视频内容翻译成29种语言,并自动调整视频中说话者的口型和肢体动作,使其与新语言的语音模式自然匹配。

🗣️BodyTalk结合了音频翻译、语音合成和视频编辑技术,可以模仿原始说话者的声音,并生成与新语言匹配的视频画面,从而提供更自然的观看体验。

💼Panjaya目前主要面向B2B客户,例如TED和JFrog,未来计划扩展到体育、教育、营销、医疗保健等领域。

🚫Panjaya致力于避免深度伪造的负面影响,并计划开发工具来防止合成媒体的滥用,例如水印检测等。

📈使用Panjaya工具进行配音的TED演讲观看次数增加了115%,翻译视频的完成率也翻倍,证明了该工具在提高内容参与度方面的有效性。

The Information 2024-11-09 13:36 北京

一个超现实的基于生成性人工智能的视频配音工具,可以重现一个人用新语言说话的原始声音,同时视频和说话者的身体动作会自动调整,以自然地与新的语音模式相匹配。

图片来源:

在翻译领域,生成性人工智能有一个巨大的机会,一家名为Panjaya的初创公司正在将这一概念提升到一个新的水平:一个超现实的基于生成性人工智能的视频配音工具,可以重现一个人用新语言说话的原始声音,同时视频和说话者的身体动作会自动调整,以自然地与新的语音模式相匹配。

据TechCrunch报道,在隐身三年后,这家初创公司推出了 BodyTalk,这是其产品的第一个版本,并获得了 950 万美元的首次外部融资。

Panjaya 是 Hilik Shani 和 Ariel Shalom 的创意结晶,这两位深度学习专家在以色列政府默默工作了大部分职业生涯,现分别担任该初创公司的总经理和首席技术官。他们在 2021 年放下了政府工作的帽子,带着创业的渴望,1.5 年前 Guy Piekarz 加入担任首席执行官。

Piekarz 并不是 Panjaya 的创始人,但他是一个值得拥有的知名人士:早在 2013 年,他将自己创办的一家初创公司出售给了苹果。该初创公司名为 Matcha,是一个在视频流发现和推荐方面的早期热门参与者,它是在苹果电视和流媒体战略的早期阶段被收购的,那时这些还只是传闻,而非实际产品。Matcha 是自筹资金的,以低价出售:$1000 万到$1500 万——考虑到苹果最终在流媒体方面的重大投资,这个价格算是相对 modest。

Piekarz 在苹果工作了近十年,负责 Apple TV 及其体育业务。随后,他通过 Viola Ventures(其投资者之一)认识了 Panjaya,其他投资者包括 R-Squared Ventures、JFrog 联合创始人兼首席执行官 Shlomi Ben Haim、Chris Rice、Guy Schory、Storm Ventures 的 Ryan Floyd、Riviera Partners 的 Ali Behnam 和 Oded Vardi。

“那时我已经离开了苹果,计划做一些完全不同的事情,”Piekarz 说。“然而,看到这项技术的演示让我大吃一惊,接下来的事情就成了历史。”

BodyTalk 有趣之处在于它同时将几种技术结合在一起,这些技术在合成媒体的不同方面发挥作用。

它始于基于音频的翻译,目前可以提供 29 种语言的翻译。然后,翻译以模仿原始说话者的声音进行播放,这反过来又与原始视频的一个版本相结合,在这个版本中,说话者的嘴唇和其他动作被修改以适应新的单词和短语。所有这些都是在用户将视频上传到平台后自动创建的,该平台还配备了包括进一步编辑工具的仪表板。未来的计划包括一个 API,以及更接近实时处理。(目前,BodyTalk 是“接近实时”的,处理视频需要几分钟,Piekarz 说。)

“我们在需要的地方使用最优秀的产品,”Piekarz 谈到公司使用第三方大型语言模型和其他工具时说。“而在市场上没有真正解决方案的地方,我们正在构建自己的人工智能模型。”

一个例子是公司的口型同步,他继续说道。“我们整个口型同步引擎是由我们的人工智能研究团队自主研发的,因为我们还没有找到能够达到我们想要支持的多个发言者、角度和所有业务用例的水平和质量的东西。”

目前它的重点仅在于 B2B;客户包括 JFrog 和 TED 媒体组织。该公司计划在媒体领域进一步扩展,特别是在体育、教育、营销、医疗保健和医学等领域。

生成的翻译视频非常奇怪,与深度伪造的效果相似,尽管皮卡兹对这个术语感到不快,因为多年来它已经获得了与初创公司目标市场完全相反的负面含义。

“‘深伪’不是我们感兴趣的东西,”他说。“我们希望避免整个名称。”相反,他说,可以将 Panjaya 视为“深真实类别”的一部分。

通过仅针对 B2B 市场,并控制谁可以访问其工具,该公司正在围绕技术创建“护栏”以防止滥用,他补充道。他还认为,从长远来看,将会开发更多工具,包括水印,以帮助检测任何视频是否被修改以创建合成媒体,无论是合法的还是恶意的。“我们绝对希望成为其中的一部分,而不是允许错误信息的传播,”他说。

不那么细的条款

有许多初创公司在基于人工智能的视频翻译领域与 Panjaya 竞争,包括 Vimeo 和 ElevenLabs 等大牌,以及 Speechify 和 Synthesis 等小型公司。对他们来说,构建改善配音效果的方法感觉有点像逆流而泳。这是因为字幕已经成为当今视频消费的一个非常标准的部分。

在电视上,这有很多原因,比如扬声器差、我们忙碌生活中的背景噪音、含糊不清的演员、有限的制作预算以及更多的音效。CBS 在一项针对美国电视观众的调查中发现,超过一半的观众在“某些(21%)或全部(34%)时间”内开启了字幕。

但有些爱情标题只是因为它们读起来很有趣,而围绕这一点已经形成了一个完整的文化。

在社交媒体和其他应用程序中,字幕已被简单地融入体验中。以 TikTok 为例,从 2023 年 11 月开始,所有视频默认开启字幕。

尽管如此,国际上仍然存在一个巨大的配音内容市场,即使英语常被视为互联网的通用语,但来自像CSA这样的研究小组的证据表明,以母语提供的内容能够获得更好的参与度,尤其是在 B2B 环境中。Panjaya 的观点是,更自然的母语内容可能会表现得更好。

一些客户似乎支持这一理论。TED 表示,使用 Panjaya 工具进行配音的演讲观看次数增加了 115%,而这些翻译视频的完成率翻倍。

本文翻译自:TechCrunch, https://techcrunch.com/2024/11/08/led-by-a-founder-who-sold-a-video-startup-to-apple-panjaya-uses-deepfake-techniques-to-bite-into-video-dubbing/

编译:ChatGPT

-----------END-----------

我们正在招募新一期的实习生

我们正在寻找有创造力的00后创业者

关于Z Potentials

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 视频配音 生成式AI Panjaya BodyTalk
相关文章