Key Points
本周应用与模型
● Solos将推出首款搭载GPT-4o的智能眼镜,视觉功能是重点;
● 音乐与歌曲生成软件Suno上架苹果App Store;
● 马斯克宣布将在8月推出Grok-2大模型,年底推出Grok-3;
● Luma发布首尾帧功能,可以快速补全视频;
● 微软开源GraphRAG,善于处理复杂数据。
本周应用
Solos将推出首款搭载GPT-4o的智能眼镜,视觉功能是重点
6月28日,智能眼镜品牌Solos宣布将推出配备摄像头的智能眼镜AirGo Vision,预计于今年晚些时候上市。这款新品将搭载OpenAI最新发布的GPT-4o模型,该模型的多模态能力使眼镜得以通过摄像头识别当前场景并据此回答问题。Solos称该眼镜还同时支持Google Gemini和Anthropic Claude两款模型。
这款眼镜很容易让人想起今年在欧美卖出超过100万台的Ray-Ban Meta智能眼镜,这款眼镜由雷朋与Meta合作推出,最大卖点就是配备了摄像头,用户可以通过Meta AI语音助手就看到的场景向眼镜提出问题,这款眼镜也是目前销量最好的独立AI硬件。
其实在AirGo Vision之前,Solos就已经推出过智能眼镜。它在去年年底推出的AirGo3眼镜已经搭载了GPT-4模型,它内置了音响与麦克风,用户可以通过语音与其对话交流,不过这款眼镜并没有配备摄像头,自然也缺少视觉功能。随着各家大模型都逐渐拥有了视觉能力,未来摄像头大概会成为智能眼镜的标配。
Solos是一家于2019年在香港创立的智能眼镜公司,公司创始人张惠权Kenny在电子设备行业有多年经验,曾参与开发过寻呼机、智能手机、平板电脑、智能手表等等产品,在创立Solos前,他受雇于美国电子设备开发商Kopin,该公司生产国防、工业用途的电子显示器。
参考链接
https://www.theverge.com/2024/6/28/24188457/solos-airgo-vision-glasses-chatgpt-ray-ban-meta-competitor
音乐生成软件Suno上架苹果App Store
7月3日,AI音乐生成软件Suno终于在苹果App Store上架独立应用,不过中国内地暂时处于上架地区之外。与桌面版功能类似,Suno应用允许用户通过文字描述或手机录音来创建音乐,用户可以生成4分钟长的歌曲或扩展2分钟长的歌曲。免费用户每日生成的数量比较有限,想要生成更多歌曲需要付费,会员价格分10美元、30美元两档。
Suno应用由AI初创公司Suno开发,该公司成立于2022年,至今已拿到三轮融资。该公司旨在简化音乐创作过程,使无音乐背景的用户也能创作音乐。用户只需输入简单的提示词,Suno便能生成旋律、伴奏、歌词和人声,它支持英语、西班牙语、中文和日语等在内的多国语言,甚至支持粤语、四川话等方言。
市面上有很多与Suno类似的产品,比如由Stability AI开发的Stable Audio,以及Google开发的Music FX。这些产品均利用文本提示词生成相应的音频,不过Suno是其中产品化与商业化做得最好的。今年5月,Suno在最新一轮融资中筹集了1.25亿美元,估值也接近5亿美元。不过,Suno正面临版权挑战,主要唱片公司指控其使用录音训练AI系统,涉嫌侵权。
参考链接
https://apps.apple.com/us/app/suno-make-and-explore-music/id6480136315
本周模型
马斯克宣布将在8月推出Grok-2大模型,年底推出Grok-3
7月1日,马斯克宣布,其创立的人工智能初创公司xAI计划在今年内推出两款产品:Grok-2和Grok-3。Grok-2预计将于8月面世,而Grok-3则计划在年底前发布。马斯克在社交平台上透露,其已将原定用于特斯拉的一批价值5亿美元的英伟达H100转用于xAI。
自去年7月成立以来,xAI在不到一年的时间里完成了首个旗舰模型Grok-0的训练,参数量达到330亿。随后,xAI又推出了Grok-1、Grok-1.5和Grok-1.5V等多款产品,功能逐渐增强。3月28日发布的Grok-1.5增加了长文本处理能力;4月12日发布的Grok-1.5V增加了视觉推理能力,使得模型能够理解和生成与视觉内容相关的文本。
5月26日,xAI在官网上宣布从红杉资本、A16z等投资者处筹集了60亿美元资金。
参考链接
https://x.com/elonmusk/status/1807637096129241529
https://x.com/elonmusk/status/1807643760584708363
Luma发布首尾帧功能,可以快速补全视频
7月1日,Luma AI旗下的视频生成模型Dream Machine推出了首尾帧生成视频功能,用户只需要上传两张图片,作为一段视频的第一帧和最后一帧,视频模型就可以帮助补全中间的内容。例如上传一张星系漩涡的图片作为开始,一张人眼的图片作为结束,点击生成,Dream Machine就可以自然地完成中间过渡视频的生成,视频内容过渡顺畅,一致性保持得很好,有种梦幻的效果。
该功能可以免费在Dream Machine内体验,这是Luma AI于6月中旬刚刚发布的视频生成模型。其实在视频模型中,首尾帧功能并不少见,只不过像Dream Machine这样可以免费上手体验的并不多。
参考链接
https://www.luma-ai.com/luma-keyframes/
微软开源GraphRAG,善于处理复杂数据
7月2日,微软宣布自研的基于图形的检索增强生成技术GraphRAG上架代码托管平台GitHub,同时也在Azure智能云上提供了该技术的API,方便开发者快速部署。
检索增强生成(RAG)技术使大语言模型(LLMs)可以连接到外部知识库,利用从外部来源获取的事实提高生成式AI模型的准确性和可靠性,减少模型本身的「幻觉」。这半年很热门的AI搜索产品Perplexity背后的技术核心正是RAG。
但是微软团队研究发现,针对那些不属于大语言模型训练数据且大语言模型没有接触过的私有数据集上,RAG技术表现较差,这些私有数据集包括企业内的专项研究、业务文档或内部通信。微软团队开发的GraphRAG结合了图检索技术与RAG技术,能够让大型语言模型可以从任何文本文档集合中提取知识图谱,然后在此基础上生成更准确的回答。因而,GraphRAG在已有的训练数据之外,可以动态获取最新或更具体的信息以便提高回答的质量。
参考链接
https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/