第一财经杂志 2024年08月12日
字节发布「海绵音乐」,进入AI音乐领域……
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周涵盖多种科技产品的新动态,包括AI音乐、人形机器人、脑机接口等领域的新进展

字节推出AI音乐应用「海绵音乐」,提供灵感创作和自定义创作模式,可生成多种风格音乐,相关功能已加入豆包。该应用在内测中改善了人声处理表现

「即梦AI」上线苹果App Store,可生成竖屏视频,由字节旗下剪映团队开发,已推出会员服务,曾是剪映团队测试的文生图创作工具,现可同时生成图片和视频

Figure AI发布第二代人形机器人Figure 02,手部有16个自由度,在计算和AI推理能力、电力等方面有所提升,已应用于汽车制造领域并获得资金支持

本周模型与应用

字节推出AI音乐应用「海绵音乐」,相关功能已加入豆包;

「即梦AI」(原Dreamina)上线苹果App Store,能生成3秒竖屏视频;

Figure AI发布第二款人形机器人,手部有16个自由度;

Synchron通过脑机接口控制Vision Pro;

华为发布最薄小折叠nova Flip;

Sonova推出首款配备实时人工智能的助听器;

ChatGPT移动版7月净收入达2800万美元,创历史新高;

iPhone 16推出时可能不搭载Apple Intelligence;

天猫精灵发布「哇哦闺蜜机」。

 

本周模型与应用

字节推出AI音乐应用「海绵音乐」,相关功能已加入豆包

8月6日,字节跳动推出AI音乐创作应用「海绵音乐」。该应用提供「灵感创作」和「自定义创作」两种模式,能帮助用户生成1分钟左右的音乐。

其中「灵感创作」模式下,输入「夏天、热浪翻滚、抱着西瓜吃」作为提示词,「海绵音乐」可以一步到位地自动生成3首歌曲——「夏日的我们与快乐」「夏日炎凉」和「炎夏冰爽」,3首歌曲基本都由8句歌词组成,歌曲封面的生成图案也较为相似。

而在「自定义创作」模式下,用户有更大的自定义空间,包括自定义歌词、曲风、心情以及音色。其中,曲风选择包含民谣、流行、摇滚在内的11种,心情选择数量则根据曲风有所变化,音色也可以区分男女声。

今年6月,「海绵音乐」开启内测,改善了人声处理方面的表现。例如在中文歌曲中,「海绵音乐」减少了电音的使用,提高了吐字清晰度和演唱流畅性。

天眼查显示,「海绵音乐」母公司北京颜选科技有限公司是抖音集团成员,是抖音公司下属北京星云创迹科技旗下全资子公司。北京颜选科技旗下还有照片编辑应用「醒图」。8月8日,相似的音乐生成功能已加入同为字节跳动旗下的AI助手「豆包」。字节跳动产品和战略副总裁朱骏在今年5月的活动上透露,豆包的月活跃用户达到2600万。但根据Similarweb数据,豆包月活不到500万。

国内聊天机器人仅Kimi和文心一言月活超过1000万,其他大部分在500万以下(数据截至6月底)。数据来源:Similarweb

 

「即梦AI」(原Dreamina)上线苹果App Store

8月6日,字节跳动旗下的图像和视频生成平台「即梦AI」在苹果App Store上架,此前,该应用已于5月上线网页端,7月31日登陆安卓应用市场。

目前,「即梦AI」移动端可生成3秒竖屏视频,而网页版可生成12秒横版视频。应用中,用户可以选择视频速度、运镜模式、画面比例以及参照图片。画质方面,以「花丛中、一阵微风吹过、鲜花随风轻轻摇摆」作为提示词生成的视频画面具有动感,但是鲜花摇摆动作还是不够真实。

即梦AI由字节旗下的剪映团队开发,最早可以追溯到2023年年底剪映团队测试的文生图创作工具「Dreamina」,该工具当时可以根据用户给出的一段文字生成4幅创意图,用户可以调整图片大小比例和模板类型。

今年2月,张楠辞去抖音集团CEO一职后,聚焦精力在视频剪辑软件剪映和CapCut(剪映海外版)业务上。今年5月,字节收购的脸萌科技开发的「Dreamina」宣布更名为「即梦AI」,当时「即梦AI」已经可以同时生成图片和视频。张楠也在微信朋友圈介绍了「即梦」的上线。而后,今年6月的上海国际电影节期间,抖音、博纳影业AIGMS制作中心联合出品AIGC科幻短剧集《三星堆:未来启示录》,即梦AI是这部短剧集的首席AI技术支持方。

目前,「即梦AI」已推出会员服务,用户可通过应用商店每月连续包月69元购买对应的505个积分/月,用以生成约2050张图片或168个视频,以及享有去除水印等功能。用户登录抖音账户,也可以获得积分。

 

Figure AI发布第二款人形机器人,手部有16个自由度

8月6日,由OpenAI、微软、英伟达等出资支持的人工智能机器人初创公司Figure AI发布了第二代人形机器人Figure 02。

Figure 02重量为70千克,有效载荷20千克,速度为1.2米/秒,运行时间可达到5小时。Figure 02装载了6个RGB摄像头(注:一种能够捕捉和处理彩色图像的摄像设备),结合机载的视觉大模型可完成快速常识性视觉推理。

今年3月,Figure AI的第一代机器人Figure 01搭载OpenAI的多模态大模型后,可以通过机载麦克风和扬声器与人类实现语音交互。Figure AI称,和前一代相比,Figure 02的板载计算(注:指计算设备直接集成在硬件中,不依赖外部计算资源)和AI推理能力提高了3倍。此外,Figure 02机器人躯干中安装了一个容量为2.25千瓦时的定制电池组,相较于之前的配置,能够提供50%以上的额外电力,机器人的运行时间或性能得到显著提升。Figure AI创始人Brett Adcock称这是「全球最先进的AI硬件」。

手部自由度方面,Figure 02的手部结构具有16个自由度(注:每个关节能够弯曲、旋转或移动的独立方向都被视为一个自由度),它能够拾取零配件并组装汽车。与之相比,特斯拉的Optimus机器人手部自由度目前只有11个,马斯克计划将其提升至22个。

汽车制造是Figure AI希望应用的领域,Figure 02机器人目前已经访问了宝马位于美国南卡罗来纳州斯帕坦堡的工厂,进行培训和数据收集。

Figure AI成立于2022年,它与OpenAI合作开发AI模型,这些模型在英伟达H100 GPU 上训练。今年2月,Figure AI从包括英伟达在内的技术公司处筹集了6.75亿美元的资金。

 

Synchron通过脑机接口控制Vision Pro

7月30日,脑机接口(BCI)公司Synchron宣布,已成功将其脑机接口技术与苹果的Vision Pro相连。为了实现该功能,Synchron将其脑机接口植入了一位64岁的渐冻症患者Mark的大脑中。经过测试和训练,Mark仅需通过意念交互,就可以控制Vision Pro的光标,并在该设备上玩纸牌、观看Apple TV和发送短信。

VisionPro的操作主要依赖用户的手势,但通过Synchron的BCI技术,失去手部和声音活动能力的患者通过意念就可以控制该设备。Synchron 表示,苹果iOS的无障碍功能广受好评,这也是Synchron最初选择与苹果设备集成其脑机接口的原因,苹果也一直「非常支持」BCI技术在Vision Pro中的整合。

此前在7月11日,Synchron宣布过另一项BCI技术与AI的功能整合,通过与GPT-4o集成,Synchron的脑机接口可以帮助患者更方便地起草书面回复。GPT-4o以文本、音频和视觉的形式获取相关上下文,预测用户可能想要表达的内容,为他们提供可供选择的回复菜单,并同时提供「刷新」按钮以生成新的回复。Synchron表示,与GPT-4o集成能够在未来几个月实现声音、图像和视频的相关功能,为患者提供多模态的体验。

 

华为发布最薄小折叠nova Flip

8月5日,华为发布nova系列首款小折叠手机nova Flip,起售价为5288元,是目前华为所有折叠屏手机中售价最低的。此外,nova Flip的厚度为6.88mm,是目前市面上最薄的小折叠手机(即横折屏手机,折叠后大小后普通手机一半;对应的竖折屏手机的屏幕是普通手机2倍)。

nova是华为终端旗下中端旗舰手机系列,主打时尚卖点,华为另一款小折叠手机Pocket 2的起售价为7499元。

目前,华为、小米、vivo、OPPO、三星等品牌都推出了小折叠手机,但小折叠并非折叠屏市场的主流产品。IDC发布的数据显示,2023年中国折叠屏手机总出货量为700.7万台,其中小折叠出货量仅为223.5万台。

根据IDC的数据,华为今年前两个季度在中国折叠屏手机市场中的市占率均在40%以上,位居榜首。

 

Sonova推出首款配备实时人工智能的助听器

8月6日,瑞士助听器公司Sonova宣布,推出一款利用实时人工智能来「改善背景噪音下的语音清晰度」的助听器Sphere Infinio,这也是全球市场首款集成AI功能的助听器产品。

Sphere Infinio采用了ERA和DEEPSONIC芯片的双芯片技术,后者是Sonova专门研发的实时AI深度神经网络芯片,能够区分助听器接收到的声音中哪些声音是需要的、哪些是不需要的。Sonova声称,这种双芯片解决方案有效提高了助听器的的处理能力,是目前行业内芯片技术的53倍。

Sonova是一家瑞士公司,创立于1947年,旗下包括Phonak、Unitron、Hansaton、Advanced Bionics、Sennheiser和AudioNova等品牌。2021年,Sonova在全球助听器市场占有24%份额。2022年,Sonova收购了中国的海之声集团,后者在中国运营数百家听力保健诊所。

 

ChatGPT移动版7月净收入达2800万美元,创历史新高

根据全球互联网调研机构Appfigures的数据,ChatGPT移动版今年7月在App Store和Google Play的净收入达到2800万美元,创造历史新高。其中,苹果App Store贡献了83%的净收入,环比增长20%。Appfigures估计,ChatGPT移动版在7月增加了200万新付费用户,这是又一个历史纪录。

自2023年4月发布以来,ChatGPT移动版的收入一直呈上升趋势,今年保持着健康的增长速度。5月,GPT-4o的推出使其收入飙升,月收入增长率曾高达40%,虽然此后增速略有放缓,但仍然保持着相似的增长轨迹。近日,ChatGPT向部分用户推出了高级语音模式,该模式基于GPT-4o提供更自然的实时对话,Appfigures估计该功能的上线将进一步推动 ChatGPT 移动版的收入增长。

 

iPhone 16推出时可能不搭载Apple Intelligence

8月4日,Mark Gurman报道称,新款iPhone16不会受到Apple Intelligence延迟推出的影响,将在9月如期推出。这意味着iPhone16今年9月推出时将不会拥有Apple Intelligence功能。

7月29日,苹果向开发者推送了第一个测试版Apple Intelligence,但该测试版并没有推出完整功能,也并没有向所有消费者开放。Gurman预估,Apple Intelligence将会延迟到10月,在iOS 18.1、iPadOS 18.1和macOS Sequoia 15.1中发布。Gurman还表示,全套的Apple Intelligence功能的推出预计将在2024年余下时间内进行,部分功能可能要在2025年年初才会完成。

苹果此前曾有因为软件未准备好而推出硬件发布的先例。2011年,由于Siri和iCloud并未准备好,苹果选择将iPhone 4S的发布时间从原定日期延迟至10月(一般为9月)。不过,Gurman表示,苹果不太可能因为Apple Intelligence尚未准备好而推迟iPhone 16系列手机的发售时间。

 

天猫精灵发布新品牌和新产品

8月5日,阿里巴巴集团旗下天猫精灵召开高端品牌暨新品发布会,宣布推出旗下高端品牌「哇哦」及其首款智能交互平板「哇哦闺蜜机」,加载通义模型,支持多轮连续对话。

「哇哦闺蜜机」配置了27英寸4K屏幕,采用自研操作系统GenieOS 7.0,还配备了阿里巴巴自研的通义大模型,支持语音、触控、手势等交互方式,视觉效果、音效算法也都经过AI技术改善。

「哇哦闺蜜机」共推出了3种配置,其中8GB内存、128GB存储版本定价为4999 元,8GB内存、256GB存储版本和代言人周深定制版的定价都是5499元。

此外,天猫精灵还推出了智能音箱「IN糖」系列的新品「IN糖6」,支持温湿度监测,也能承担智能家居中控功能,黑糖色、奶糖色、橘糖色的首销价为179元。

2023年3月阿里巴巴实行组织变革后,天猫精灵所属的智能互联业务已经开始公司化运作,运营主体是浙江艾克斯精灵人工智能科技有限公司。同年9月,天猫精灵发布全新品牌「未来精灵」,新发布的品牌理念「世界在对话之间」也聚焦对话式AI,「未来精灵」随后推出AR眼镜、Sound随声筒、面向儿童的新型智能平板等3款产品。同月,浙江未来精灵人工智能科技有限公司成立,注册资本1亿元。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI音乐 即梦AI Figure 02
相关文章