Foresightnews 快讯 2024年09月26日
SafePal 支持 TON 最新 Mintless Jettons 标准,以支持 TON 生态系统的大规模空投
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 的 Sora 视频生成模型在近期测试中出现了一些问题,例如物体穿墙、身体部位扭曲等。虽然 Sora 能够生成出色的视频,但当场景复杂时,它可能会给出一些不符合现实场景的动作。Sora 在模拟现实世界时面临一系列挑战和局限性,例如物理交互的准确性、物体状态变化的一致性、长期样本的连贯性等,这反映了 Sora 在理解和呈现物体的物理特性方面还有待提升。

😁Sora 在模拟一些基本的物理交互现象时存在不足,例如无法准确模拟玻璃破碎等物理现象。这表明 Sora 在对物理世界的理解方面还有待完善,它需要更深入地学习和模拟不同物体的物理特性,以便生成更真实、更符合物理规律的视频。

🤔在模拟如进食等交互时,Sora 可能无法产生正确的物体状态变化,导致视频中出现不连贯的视觉效果。这说明 Sora 在处理物体状态变化方面还存在问题,需要进一步提升其对物体状态变化的理解和模拟能力,以生成更连贯、更符合逻辑的视频内容。

🤯Sora 在生成较长时间跨度的视频样本时,可能会出现连贯性问题,导致视频中出现不自然的过渡或物体的突然变化。这反映了 Sora 在处理视频的长期连贯性方面存在挑战,需要进一步提升其对视频时间序列的理解和预测能力,以生成更自然、更流畅的视频。

🤪Sora 有时会在视频中自发地生成物体,这些物体可能与场景不匹配或在逻辑上不合理。这表明 Sora 在生成物体时还需要更强的逻辑性和控制能力,需要进一步完善其对场景的理解和物体生成机制,以避免出现不合理的物体生成。

😥Sora 在处理手部和身体部位时存在问题,如手部可能表现得不自然或与其他物体发生不真实的交互。这反映了 Sora 在理解和模拟人体动作方面还有待提升,需要进一步学习和模拟人体结构和动作规律,以生成更自然、更逼真的手部和身体部位动作。

😥Sora 在处理手部和身体部位时存在问题,如手部可能表现得不自然或与其他物体发生不真实的交互。这反映了 Sora 在理解和模拟人体动作方面还有待提升,需要进一步学习和模拟人体结构和动作规律,以生成更自然、更逼真的手部和身体部位动作。

😥Sora 在处理手部和身体部位时存在问题,如手部可能表现得不自然或与其他物体发生不真实的交互。这反映了 Sora 在理解和模拟人体动作方面还有待提升,需要进一步学习和模拟人体结构和动作规律,以生成更自然、更逼真的手部和身体部位动作。

😥Sora 在处理手部和身体部位时存在问题,如手部可能表现得不自然或与其他物体发生不真实的交互。这反映了 Sora 在理解和模拟人体动作方面还有待提升,需要进一步学习和模拟人体结构和动作规律,以生成更自然、更逼真的手部和身体部位动作。

😥Sora 在处理手部和身体部位时存在问题,如手部可能表现得不自然或与其他物体发生不真实的交互。这反映了 Sora 在理解和模拟人体动作方面还有待提升,需要进一步学习和模拟人体结构和动作规律,以生成更自然、更逼真的手部和身体部位动作。

Sora「翻车」:猴子长出鹦鹉尾巴,物体学会「穿墙术」

Sora 还有很长的路要走,有很多技术挑战需要解决——包括前面提到的身体部位的杂乱问题和对物理学的理解水平。

撰文:连冉

编辑:郑玄

「一只鹦鹉飞过青翠的哥斯达黎加丛林,然后降落在树枝上与一群猴子一起吃一块水果的俯视图;黄金时段,35 毫米胶片。」这是彭博社给到 OpenAI 研究人员的提示词,后者使用这些提示词在 Sora 上创建了场景。

23 日,彭博社联系 OpenAI 对 Sora 进行了测试,从结果来看,Sora 还未到「黄金时段」。

在给到的四句提示语中,由于时间限制,Sora 团队只将其中两句提示词生成了视频。

问题出现了。

在时长仅有 10 秒的视频中,一只鹦鹉在丛林中飞翔,乍看正常,细看就会发现,鹦鹉的翅膀在飞过猴子时会扭曲,并且,提示语中之要求「一只鹦鹉」,Sora 输出的视频里却出现了好几只,并且,视频中一只猴子的臀部似乎还有一条鹦鹉的尾巴。这么看,似乎有点「翻车」即视感。

对此,OpenAI 研究科学家 Bill Peebles(比尔·皮布尔斯)也对彭博承认了这一点,「确实会在片段中找到一些奇怪的动作」

在 The Verge 截取发布在 TikTok 上的这段由 Sora 生成的视频片段中同样可以看到一些不合理的情况,包括物体相互穿过、变形,这背后反映的是 Sora 在还不能够准确理解和呈现物体的物理特性:篮球穿过篮筐的侧面,狗在走路时相互穿过,手的形状也有点奇怪。

篮球穿过篮筐的侧面|图片来源:TikTok

狗在走路时相互穿过|图片来源:TikTok

YouTube 上也有一位博主更为详细地解析了 Sora 产出的视频中存在的问题,与 The Verge 展现的类似,除了狗狗似乎在互相穿过身体的那支视频,在一只柯基犬的 vlog 里,有一只海鸥飞到了相机前却又突然消失,随后画面里又出现了另一只,以怪异的方式在行走;在一个建筑工地的视频里,一辆叉车似乎可以不受周围物体的影响轻松通过。此外还有一个生日派对的场景,参与者的表情和动作看起来都有种说不出的诡异感。

看起来,虽然 Sora 可以生成出色的视频,但当场景复杂时,它可能会给出一些不符合现实场景的动作。OpenAI 官方也表示,Sora 还有很长的路要走,有很多技术挑战需要解决——包括前面提到的身体部位的杂乱问题和对物理学的理解水平。

OpenAI 在 Sora 的技术报告中指出,Sora 作为视频生成模型在模拟现实世界时面临一系列挑战和局限性。具体来讲,Sora 在技术层面存在以下主要局限:

    物理交互的准确性:Sora 在模拟一些基本的物理交互现象时存在不足,例如无法准确模拟玻璃破碎等物理现象。对象状态变化的一致性:在模拟如进食等交互时,Sora 可能无法产生正确的物体状态变化,导致视频中出现不连贯的视觉效果。长期样本的连贯性:在生成较长时间跨度的视频样本时,Sora 可能会出现连贯性问题,导致视频中出现不自然的过渡或物体的突然变化。物体的自发出现:Sora 有时会在视频中自发地生成物体,这些物体可能与场景不匹配或在逻辑上不合理。手部和身体部位的处理:Sora 在处理手部和身体部位时存在问题,如手部可能表现得不自然或与其他物体发生不真实的交互。计算资源的需求:Sora 生成视频需要较多的计算资源和时间,这限制了其在实时或快速响应场景中的应用。模型的泛化能力:尽管 Sora 在某些特定场景下表现出色,但它在泛化到新场景和处理多样化输入方面可能还有待提高。视频编辑和扩展的能力:虽然 Sora 能够执行一些视频编辑任务,如扩展视频或改变场景设置,但这些功能可能在复杂场景中表现不佳。

由于上述技术局限,在让外界惊鸿一瞥后,Sora 的短暂「翻车」似乎也并不令人意外。

作为一款文本转视频模型,Sora 采用了 Diffusion transformer 技术(包括特征提取、编码、序列组合等多个步骤)。

与大模型处理文本的原理类似,Sora 将视频内容分解成一系列 patch(视觉编码块),这些 patch 类似于视频的视觉词汇,然后,它会对这些 patch 进行降维处理,以便于分析和理解,在这一过程中,Sora 通过去噪技术,从带有噪声的 patch 中预测出清晰的原始图像信息,最终合成为连贯的视频。换句话说,Sora 的训练过程类似于人类的认知过程,这一点让它极大地优化了视频生成的效果。

随着技术的突破,问题会解决。对于推新飞快的 OpenAI 来说,应该用不了很久。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。


Page 2

草莓现世,大模型达到博士水平了吗?

o1 现世,真实体验如何?「人类博士」的推理能力,将带来哪些行业机遇?Scaling law 的效用到达瓶颈了吗?自博弈强化学习是否会是 AGI 的新范式?

美联储「非衰退式降息」,传统的防御策略行不通了

传统的降息交易策略是选择防御股和高股息股,但本次美联储在金融环境相当宽松的情况下选择大幅降息,向市场释放了进攻信号。投资者正在从防御股转向周期股和大盘股,投资银行、科技、地产、汽车等行业。

2005 年以来第一次!美联储「罕见分歧」,敏锐的交易员「接下来有没有大幅降息不好说了」

十九年来首张「理事反对票」和不够鸽派的点阵图,让成功预测本次降息幅度的交易员也感到茫然。而接下来的就业和通胀数据报告以及美联储褐皮书,将是决定降息节奏的重磅因素。

一文读懂鲍威尔重磅鹰派记者会的问答要点(中英文对照)

鲍威尔多次强调,美联储将逐次会议做出决策,不会受到市场对降息预期定价的影响,也不会考虑任何政治因素和议题,而是用「对当时(数据)合适的速度或快或慢地采取(降息)行动」。

25 基点「巨亏」,50 基点「恐慌」!面对市场逼宫,美联储今晚如何降?

市场如今大幅押注 50 基点,若美联储降息 25 基点,将被视为「鹰派」,市场将遭受巨额损失;而如果降息 50 基点,但后续行动落后市场预期,可能引发恐慌,金融条件再度收紧。

如果降息 50 基点,对市场有何风险?

高盛交易员 Vladimirov 认为,目前的市场定价较为激进,存在预期落空的风险,可能会对市场情绪和资产价格产生负面影响,后续降息步伐也可能慢于市场预期。市场将重点关注此次公布的「点阵图」,寻求美联储关于未来降息步伐和范围的更明确指引。

新债王:支持降息 50 基点,美联储已经「落后于曲线」

新债王表示,美国经济已经陷入衰退,美联储已经维持了过长时间的紧缩政策,「远远落后于曲线」,应该赶紧行动起来,并押注降息 50 个基点。

美联储决议前夕,市场「创纪录」押注「50 基点降息」

对本周美联储利率决议进行押注的 10 月联邦基金期货的交易量已升至纪录最高水平,其中大多数合约押注降息 50 基点,有三分之一的头寸在本周新建。

「新美联储通讯社」终极前瞻 9 月会议:情况复杂,首次降息幅度仍存疑

Timiraos 认为,美联储是将基准利率下调更大幅度的 50 个基点还是传统的 25 个基点,将取决于鲍威尔如何在一系列微妙的考量中带领他的同事们做出选择。

何一新文:如果我们意见不一样,那可能你是对的

泡沫会破,而那些真正解决用户需求的产品会改变世界,会创造历史。

重拾比特币 P2P 愿景,迎接 Web5 未来

回归比特币的最初愿景,一个赋能个人并实现真正去中心化的 P2P 系统。

哈里斯、特朗普首次直面辩论,市场最关心什么?

预计辩论将聚焦在国内经济政策上,哈里斯和特朗普可能会在通胀、关税、税收等方面产生冲突。

英伟达重挫 9.5%,市值抹去 2789 亿美元创美股之最,发生了什么?

有分析称英伟达正在「消化成长的烦恼」,未来前景仍光明,也有人称英伟达财报令市场怀疑 AI 硬件巨额投资的可持续性。

惊人千亿估值、三大巨头争夺!Sam Altman 不愧「史上融资最强」

OpenAI 新一轮融资估值将超过 1000 亿美元,比年初估值高出 16%,甚至可能达到 1250 亿美元,全球市值 Top 3 公司微软、苹果、英伟达都参与其中。

特朗普再借币圈拉票:要让美国成为「全球加密货币之都」

一个月前特朗普向币圈抛出多个承诺,包括让美国成为首个将比特币列为战略储备资产的国家。

著名社交平台 Telegram 创始人法国被捕,面临洗钱、恐怖主义等多项指控

由于杜罗夫被捕,对 Telegram 及其加密货币项目潜在监管合规性的担忧激增,投资者大幅抛售持有的相关代币,Toncoin 一度暴跌逾 20%。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Sora AI 视频生成 技术挑战 物理交互 物体状态变化 长期连贯性 OpenAI
相关文章