原创南乔River 2024-12-31 15:41 广东

模型，应用，资本，人才... 踏遍青山人未老，风景这边独好

AI 行业大事记

2024 年 12 月

联合出品：

Jomy @ 302.ai

南乔 River @ ShowMeAI

大聪明 @ 赛博禅心

说明：

① 全文图片进行了压缩（尤其是 GIF 动图），产品演示原图和生成图都很高清的；

② 本文分类中的【模型】均指代语言模型；

③下期月刊预计在春节假期之后（拜个早年?　

9 月刊 | 10 月刊 | 11 月刊　

本月趋势观察

1. 模型　

✦ 通用大模型现在分为两条路线：一条是在保证效果的情况下，不断精简模型参数，从「大模型」转为「小模型」，从而降低模型推理成本，比如 Llama 3.3，Phi-4，甚至 Gemini-2.0-Flash；另一条则是重推理路线，用时间和成本换准确度，提高模型能力的上限，比如 o1，QvQ，GLM-Zero。　

✦ 多模态模型越来越多，可以预见原生的多模态能力将会成为大模型的标配。　

✦ 部分大模型公司已经全面转向垂直领域，比如 RAG 领域的 Cohere，金融医疗领域的百川。但是，随着大模型上下文容量不断增加和强化微调的出现，垂直领域的蛋糕，会不会也被头部公司吃掉呢？　

2. 图像　

✦ 时间来到 2024 年底，AI 图像生成已经超越了人眼能够分辨出来的临界点，模型层面已经没有太多空白。本月除了即梦在中文渲染领域填补了空白，剩下的公司基本都在卷应用了。　

✦ 接下来能做的，就是辅助创作者更好地发挥创意，比如 xAI 选择可以生成公众人物图像，Google 做了多主体参考生成图片的应用 Whisk，MJ 则是支持了 Lora 训练。　

3. 视频　

✦ 经过一年的升级，AI 视频生成「几乎」已经达到了以假乱真的程度。但这个「几乎」却不像图片生成领域那么容易突破。视频一旦动起来，细节崩坏、违反物理定律等等，都很容易就被人眼捕捉到。　

✦ 这个月新发布的视频模型，无论是混元视频、可灵 1.6、还是 Veo 2，都还没有突破这个临界点。大家只是努力在细节上，尽可能做到不那么容易露馅而已，最核心的问题依然没有被解决——如何让 AI 真正地理解世界、重建世界。　

4. 音频　

✦ AI 音频公司都在努力解决两个问题：第一个是效果，如何让 AI 生成的语音更像人；第二个是延迟，如何用最小的延迟生成语音。　

✦ 从当前时间点来看，这两个问题都已突破了临界点。对于第一个问题，我们已经无法分辨一段语音是否由 AI 生成的了；对于第二个问题，ElevenLabs 语音生成延迟已经降到了 75ms，小于了人类的思考时间。　

✦ 那么明年，当我们接起营销电话的时候，对面是真人的概率还剩多少呢？　

5. 3D　

✦ 3D 世界生成领域目前还处在初级阶段。这个月发布的新产品，没有一个向大众开放体验。　

✦ 不过，基于视频生成领域的经验，我们可以大胆预言：明年，3D 世界生成领域会取得巨大的进步和发展。　

6. 应用　

✦ AI 应用的更新主要集中 AI 搜索、AI 知识库、AI 编程这三个领域。类似 NotebookLM 这种让人眼前一亮的新形态产品，本月似乎没有。　

✦ 也正常。毕竟应用创新不易。　

✦ 隐藏的一条暗流是，越来越多传统软件开始增加 AI 功能。所以，未来可能不再有「AI 应用」这个分类，就像现在没有「联网 App」这种说法一样。　

✦ 毕竟现在大部分软件都会联网，所以未来大部分软件也都会接入 AI。　

7. 新闻　

✦ 从本月融资新闻来看，能拿到钱的不再局限于模型公司，越来越多应用公司开始受到资本青睐，例如 AIPPT，Cursor 等。　

✦ 恰如上方总结提到的，其他几个领域的模型已经基本迈过了「可进入生产环境」的临界点。随着预训练时代的结束，我们应该会看到越来越多大公司转向应用开发领域。　

✦ 所以，留给小开发者们的时间，不多了。　

✦ ✦ ✦ 　

? 时光机

12 月 1 日

模型 | Prime Intellect ● Intellect-1 首个去中心化训练的 10B 模型（开源）

应用 | Freysa ● 全球首个对抗性 AI Agent 游戏

新闻 | 奇绩创坛 2024 年秋季创业营路演日

新闻 | Google DeepMind ● 发布 AI for Science 行业研究报告

新闻 | Lilian Weng （翁荔）加盟硅谷顶尖投资团队 Fellows Fund

12 月 2 日

模型 | Cohere ● Rerank 3.5 企业级专业搜索基础模型

3D | World Labs （李飞飞） ● 通过单张 2D 图片生成 3D 场景

图像 | 字节-即梦 AI ● 图片模型 2.1 具备文字控制能力

新闻 | AWS re:Invent 2024

12 月 3 日

视频 | 腾讯-混元 ● HunyuanVideo 视频生成大模型（开源）

视频 | Minimax-海螺 AI ● I2V-01-Live 图生视频模型

应用 | 商汤 ● 办公小浣熊 2.0 升级为一站式 AI 创作空间

12 月 4 日

3D | Google DeepMind ● Genie 2 世界生成模型

新闻 | Y Combinator Fall 2024 Demo Day

新闻 | 被字节索赔 802 万的实习生，夺得了 NeurIPS 2024 最佳论文奖（: 滑稽

12 月 5 日

模型 | OpenAI [Day 1] ● 满血 o1 ，ChatGPT Pro $200 会员，o1 Pro

模型 | 上海人工智能实验室 ● 书生·万象 InternVL 2.5 多模态大语言模型系列（开源）

音频 | Fish Audio ● Fish Speech 1.5 文本转语音模型（开源）

应用 | Microsoft Edge ● Copilot Vision 实时陪伴浏览互联网的 AI 助手（内测）

新闻 | 识因智能完成数千万融资（Pre-A 轮）

12 月 6 日

模型 | OpenAI [Day 2] ● 基于 o1 的强化微调 RFT

模型 | Meta ● Llama 3.3 纯文本模型（开源）

图像 | LiblibAI x 星流 ● Star-3 Alpha 自研图像基座模型

视频 | Runway ● Act-One 功能拓展到视频转视频

应用 | Ollama 0.5 版本更新（重要）

12 月 7 日

应用 | ElevenLabs ● GenFM 播客生成工具

机器人 | ESP32-S3 大模型 AI 桌面机器人（开源）

12 月 8 日

新闻 | HiDream 智象未来完成数亿元人民币融资（Pre-A 轮和 A 轮）

12 月 9 日

视频 | OpenAI [Day 3] ● Sora

图像 | xAI ● Aurora 图像生成模型

12 月 10 日

应用 | OpenAI [Day 4] ● ChatGPT Canvas

应用 | DeepSeek ● DeepSeek-V2.5-1210 支持联网搜索功能

应用 | Cognition Labs ● Devin 编程助手正式上线

模型 | 智谱 AI ● GLM-4V-Flash 多模态大模型（免费）

新闻 | 国家广播电视总局要求规范 AI「魔改」短视频

12 月 11 日

新闻 | OpenAI [Day 5] ● 苹果全系接入 GPT

新闻 | 苹果 Apple Intelligence 与中国厂商合作消息时间线

模型 | Google DeepMind ● Gemini 2.0 Flash 多模态大模型（开启 Gemini 2.0 新系列）

应用 | Google Gemini ● Deep Research 个人 AI 研究助手（部分类似秘塔）

应用 | 第四范式 ● 发布桌面端 AI 搜索工具（内测）

新闻 | 面壁智能完成数亿元融资

12 月 12 日

新闻 | OpenAI [Day 6] ● 4o 实时视频通话、视频理解、屏幕理解、圣诞老人语音

模型 | 巨人网络 ● 千影 QianYing 有声游戏生成大模型

图像 | Midjourney ● Patchwork 创建虚拟世界的无限画布

新闻 | 造梦次元完成近亿元人民币融资

12 月 13 日

应用 | OpenAI [Day 7] ● ChatGPT Projects

模型 | DeepSeek ● DeepSeek-VL2 视觉模型系列（开源）

模型 | 阶跃星辰 ● Step-1o Audio 千亿参数端到端语音大模型

模型 | 360 ● 360gpt2-o1 推理模型

应用 | Google Labs ● NotebookLM 更新（核心团队宣布离职创业）

应用 | 小红书 ● AI 搜索应用「点点」

新闻 | Ilya Sutskever 称预训练时代即将结束（GPT-5 被曝训练遭遇困境）

12 月 14 日

模型 | Cohere ● Command R7B 企业级 AI 搜索模型（开源）

模型 | Microsoft ● Phi-4 小语言模型

视频 | Pika Labs ● Pika 2.0

应用 | Cline 2.2.0 版本支持 MCP 协议

12 月 15 日

模型 | 无问芯穹 ● Megrez-3B-Omni 全球第一款端侧全模态理解模型

音频 | Nexa AI ● OmniAudio-2.6B 全球最快的音频语言模型

应用 | Grammarly 收购生产力初创公司 Coda

新闻 | 月之暗面 Kimi 争端始末时间线

12 月 16 日

应用 | OpenAI [Day 8] ● ChatGPT Search 全量开放并优化体验（免费用户可用）

模型 | 月之暗面 ● k1 视觉思考模型（多模态推理模型）

视频&图像 | Google ● Veo 2 视频生成模型，Imagen 3 图像生成模型，Whisk 图像生成实验工具

12 月 17 日

模型 | OpenAI [Day 9] ● o1 API、实时语音 API 更新/降价 & 发布 SDK、模型新增支持：PFT 偏好微调

图像 | Midjourney ● Moodboard （情绪板）

新闻 | Databricks 完成 J 轮融资（全球规模最大的单轮风险投资）

新闻 | 智谱 AI 完成 30 亿元融资

12 月 18 日

应用 | OpenAI [Day 10] ● ChatGPT 的 800 电话、WhatsApp

应用 | tldraw computer 用流程图搭建 AI 工作流

应用 | Anysphere ● Cursorx 0.44 版本更新（重要）

应用 | Perplexity 收购 RAG 技术初创公司 Carbon

新闻 | 字节跳动火山引擎 Force 冬季大会 2024

新闻 | 爱诗科技 AIsphere 完成近 3 亿元人民币融资（A2 至 A4 轮）

新闻 | 深圳市打造人工智能先锋城市的若干措施

12 月 19 日

应用 | OpenAI [Day 11] ● ChatGPT 桌面版可读取其他应用，且支持 o1 和 4o 高级语音

应用 | GitHub Copilot 在 VS Code 上免费开放 ?

模型 | Google DeepMind ● Gemini 2.0 Flash Thinking 视觉推理模型

3D | Odyssey ● Explorer 生成式世界模型

视频 | 快手-可灵 AI ● 基座模型 1.6 发布

音频 | ElevenLabs ● Eleven Flash 文本转语音模型（系列）

新闻 | Genesis 生成式物理引擎（开源）

新闻 | 闪极科技 ● 闪极 A1 眼镜，完成数千万元融资（A 轮）

新闻 | Anysphere （Cursor）完成 1 亿美元融资

12 月 20 日

模型 | OpenAI [Day 12] ● OpenAI o3 正式发布

新闻 | Anthropic 发布长文探讨 Agent 定义与构建原则

12 月 21 日（无）

12 月 22 日

应用 | Google Chrome 浏览器接入 AI 助手了（可能）

12 月 23 日

模型 | 百川智能 ● Baichuan4-Finance 金融大模型

新闻 | xAI 完成 60 亿美元融资（C 轮）

新闻 | 阶跃星辰完成数亿美元融资（B 轮）

新闻 | 罗永浩创业公司「细红线科技」转向 AI 硬件领域

12 月 24 日

机器人 | 宇树科技 Unitree B2-W 机器狗最新技能展示视频刷屏 ?

应用 | 美团年度报告与 AI 短剧出圈

12 月 25 日

模型 | 阿里巴巴-通义 ● QVQ-72B-Preview 视觉推理模型（开源）

图像 | 阶跃星辰 ● Step-1X-Medium 图像生成模型（升级）

新闻 | 像素绽放 PixelBloom （AiPPT）完成融资（B2 轮）

12 月 26 日

模型 | 智谱 AI ● CogAgent-9B 专用 Agent 任务模型（开源）

模型 | DeepSeek ● DeepSeek-V3 全新系列首个模型上线（开源） ?

新闻 | OpenAI ChatGPT 本月两次大规模宕机

12 月 27 日

图像 | 快手-可灵 AI ● 可图 1.5 图像模型发布，AI 模特功能上线，可灵 1.5 支持尾帧生成

新闻 | 小米将大力投入大模型，逐步搭建 GPU 万卡集群（DeepSeek-V2 关键开发者之一罗福莉加入小米）

新闻 | 理想汽车发力大模型，理想同学 App 上线

新闻 | OpenAI 正式宣布成为盈利性公司

新闻 | 上海市打造世界级人工智能产业集群

12 月 28 日（无）

12 月 29 日（无）

12 月 30 日

视频 | 爱诗科技 AIsphere ● PixVerse V3.5 上线

应用 | 阿里巴巴-支付宝 ● 探一下，新一代 AI 视觉搜索应用

12 月 31 日

模型 | 智谱 AI ● GLM-Zero-Preview 视觉推理模型（预览版）

新闻 | 本月中美芯片领域博弈时间线

12 月 1 日

【模型】

Prime Intellect

Intellect-1 首个去中心化训练的 10B 模型（开源）　

Intellect-1 是业界首个采用去中心化训练方式的大规模语言模型，代表着 AI 训练范式的重要创新。　

模型规模达到 10B 参数量级，采用跨地域分布式训练架构，横跨 3 大洲 5 国，整合 112 台 H100 GPU 算力。训练过程实现 83% 的算力利用率，验证了去中心化训练在大模型构建中的技术可行性。　

产品入口：完全开源，开放基础模型、检查点、微调模型、训练数据及 PRIME 训练框架等全套技术资源。　

补充信息：Prime Intellect 是一家美国初创公司，专注去中心化 AI 技术的研发与创新。　

如果某天可以去中心化来训练 500B+ 的模型，会不会极大的影响 GPU 的供需关系呢 ❓　

https://www.primeintellect.ai/blog/intellect-1-release　

【应用】

Freysa

全球首个对抗性 AI Agent 游戏　

游戏的主要任务是守护一个奖金池，测试人类是否能够通过逻辑和策略说服 AI 违背其核心指令。参与者需要编写提示词，来说服 AI 机器人 Freysa 转移其守护的奖金池资金。　

游戏挑战分为多个阶段。Act Ⅰ 中（11 月 29 日），玩家通过覆盖原有规则的方式成功说服 AI 转移了资金。Act Ⅲ 中（12 月 8 日），一位玩家成功让 AI 回复了「我爱你」这句话，赢得了奖金。官方预告 Act Ⅳ 即将开始。　

每个参与者都需要付费才能和 AI 进行对话，参与者支付的费用都会累积到奖金池里，最终赢家把所有奖金赢走，有点 AI 版《鱿鱼游戏》的感觉 ?　

https://www.freysa.ai　

【新闻】

奇绩创坛

2024 年秋季创业营路演日　

本次路演汇集 60 家奇绩投资加速组合企业 ?路演名单，涵盖多个人工智能前沿领域：大语言模型（49 家）、多模态（28 家）、数据智能（24 家）、具身智能（14 家）、仿真技术（4 家）。　

补充信息：奇绩创坛每年春秋两季举办创业营，每期为期 3 个月。路演日吸引逾千名天使投资人与风险投资机构代表莅临现场。　

【新闻】

Google DeepMind

发布 AI for Science 行业研究报告　

Google DeepMind 发布报告《A new golden age of discovery: Seizing the AI for Science Opportunity》指出，AI 正在推动科学研究的革命性变革，开启了 AI for Science 的黄金时代 ?报告中文翻译版　

报告强调了 AI 在五大领域的机遇：知识整合、数据生成与标注、实验加速、复杂系统建模以及大规模问题解决方案探索 ?行业解读@海外独角兽　

https://deepmind.google/discover/the-podcast/ai-for-science　

【新闻】

Lilian Weng （翁荔）

加盟硅谷顶尖投资团队 Fellows Fund　

Lilian Weng 是前 OpenAI 研究与安全副总裁，2017 年加入 OpenAI，领导开发了多个关键系统，特别是在安全领域。　

11 月，Lilian 宣布从 OpenAI 离职，结束了她七年的职业生涯。随后她加盟 Fellows Fund 担任 Distinguished Fellow，助力发现并支持下一代优秀的 AI 创业者。　

有一个直观的感受，在全球 AI 行业的新闻里，正在看到越来越多的汉语拼音 ?　

https://www.fellowsfundvc.com/fellow/lilian-weng　

12 月 2 日

【模型】

Cohere

Rerank 3.5 企业级专业搜索基础模型　

Rerank 3.5 是面向企业级搜索系统和 RAG 应用的专业搜索基础模型，通过深度语义理解和智能排序技术，优化检索结果的准确性与相关性。模型亮点是推理性能和数据处理，支持长文档、元数据、半结构化数据及代码等多类型内容处理，并对 100+ 种语言具备跨语言检索能力。　

补充信息：Cohere 成立于 2019 年，总部位于加拿大多伦多，并在旧金山、伦敦设有分支机构。公司专注于企业级 AI 解决方案研发，核心产品涵盖自然语言处理模型和搜索优化工具。　

Rerank 3.5 重新定义了搜索系统如何理解和排序结果，弥补了当前模型的关键缺陷　

https://cohere.com/blog/rerank-3pt5　

【3D】

World Labs （李飞飞）

能通过单张 2D 图片生成 3D 场景　

本次发布的是一款基于单图的 3D 场景生成系统，能将 2D 图像智能转换为可交互的三维环境。　

系统生成的 3D 场景具备高度稳定性和可编辑性，用户可以实现全方位场景漫游，支持景深调节、焦距变换和视角切换等专业级空间控制功能。　

产品入口：已开放 WaitList 注册申请。　

补充信息：World Labs 由斯坦福人工智能实验室前主任 Fei-Fei Li 创立，专注于空间智能 AI 和大型世界模型（LWM）研发。公司于 2024 年完成两轮重要融资，分别获得 1 亿美元和 2.3 亿美元投资。　

啥时候可以体验下真实的 Demo 呢 ?　

https://www.worldlabs.ai/blog　

【图像】

字节跳动 ● 即梦 AI

图片模型 2.1 上线　

2.1 模型具备精准的文字控制能力，可同时处理中英文内容，并能调节文字的颜色、位置等视觉元素。输出的图像具有稳定的构图结构和专业级的影视质感。　

现在，通过简洁的文本指令即可操控图像生成过程，支持海报设计、漫画创作、表情包制作、插画绘制和配图生成等创作需求 ?官方教程　

即梦是现在唯一一家可以生成中文图片的应用，期待看到越来越多支持中文的图像生成模型　

https://jimeng.jianying.com　

【新闻】

AWS re:Invent 2024

会议于 12 月 2 日 -6 日在美国拉斯维加斯举行　

Amazon （亚马逊）在本次会议中展示和发布了一系列重要创新，完整解析可以点击 ?这里　

生成式 AI 助手 Amazon Q：面向开发者的 Q Developer 推出了 3 个 Agent，面向企业的 Q Business 支持连接和检索不同业务系统和数据源。

自研大模型系列 Amazon Nova：基础模型（Micro、Lite、Pro、Premier），图像生成模型 Nova Canvas、视频生成模型 Nova Reel；明年计划发布语音转语音（Speech-to-Speech）模型、任意模态转任意模态（Any-to-Any）模型。

新一代 AI 训练芯片 Trainium3 预览版：AWS 首款采用 3nm 工艺制造的芯片，算力是 Trainium2 的两倍，能效提升 40%，预计于 2025 年正式落地使用。

补充信息：AWS re:Invent 是亚马逊云科技（AWS）的年度盛事，通常每年 11 月或 12 月举行，地点多选在美国拉斯维加斯，是全球云计算领域的风向标。　

AWS 这些产品什么时候可以简化一下接入流程呢 ╯︿╰　

图源：@特大号　

https://reinvent.awsevents.com　

12 月 3 日

【视频】

腾讯 ● 混元

HunyuanVideo 视频生成模型（开源）　

HunyuanVideo 视频生成大模型支持中英双语文本输入，可以直接生成多规格、多清晰度的视频内容。模型总参数量达 130B ，是目前最大规模的开源视频生成模型。　

产品入口：腾讯元宝 App 「AI 应用 - AI 视频」模块，面向普通用户开放。　

补充信息：腾讯今年陆续推出并开源了 Hunyuan-DiT、Hunyuan-Large 和 Hunyuan3D 等系列模型，涵盖文本、图像、视频和 3D 等多个生成领域。混元（Hunyuan）已成为腾讯在 AI 领域的核心技术品牌。　

效果挺好，代价挺高　

https://aivideo.hunyuan.tencent.com　

【视频】

Minimax ● 海螺 AI

I2V-01-Live 图生视频模型　

I2V-01-Live 能把 2D 图像转化为流畅细腻的视频，精准捕捉到角色表情和动作的细微变化。模型支持卡通、漫画、手绘等多种艺术风格，能够高度还原原画风格。　

产品入口：I2V-01-Live 模型已上线官网。　

官方 API 平台一直都没支持，反而国外的 Fal 和 Replicate 先支持了。Minimax 对 2B 业务能不能上点心啊喂（捶桌子　

https://x.com/Hailuo_AI/status/1863961575574622662　

【应用】

商汤

办公小浣熊 2.0 （升级）　

商汤小浣熊是一款基于自研大语言模型的 AI 智能助手，分为办公和代码两个专业版本，分别面向日常办公场景和软件开发领域。　

升级后的办公小浣熊，集成了数据分析、信息检索、方案输出、文档创建、智能规划、内容创作和知识库管理等核心功能，实现一体化办公体验，免除了多平台切换的成本。　

https://www.xiaohuanxiong.com/officev2　

12 月 4 日

【3D】

Google DeepMind

Genie 2 世界生成模型　

Genie 2 可以把 2D 图像转换为 3D 视频（最长一分钟），并允许人类或 AI 代理对场景中的角色进行实时交互控制。　

模型在前代 Genie 1 只支持 2D 游戏环境生成的基础上，实现了质的飞跃，核心能力如动作控制、反事实生成、长期记忆、多样化环境构建等已经完全具备，在场景维度和交互深度上都有显著提升。　

产品入口：主要以技术演示的形式对外展示。　

补充信息：Genie 系列模型展现 Google 在计算机视觉、3D 建模和交互式内容生成等方向的技术实力，是构建下一代沉浸式数字体验的核心技术储备。　

畅想一下，5 年后的沙盒游戏会是什么样呢　

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model　

【新闻】

Y Combinator Fall 2024

YC F24 Demo Day　

YC F24 是史上首批秋季项目。F24 批次仅有 93 家公司 ?项目清单，规模相比此前批次（通常接近 250 家）大幅缩减，但 AI 初创公司的比例却再次攀升，达到 86% （80 家），超过 S24 的 79% 和 W24 的 65%。　

【新闻】

被字节索赔 802 万的实习生，夺得了 NeurIPS 2024 最佳论文奖　

字节跳动前实习生田柯宇因涉嫌在实习期间利用技术漏洞对公司模型训练系统实施恶意攻击，被字节跳动索赔 802 万元，引发广泛关注。　

然而，戏剧性的是，田柯宇与字节跳动及北京大学团队合作发表的论文《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》获得了 NeurIPS 2024 最佳论文（Best Paper）的容易。　

补充信息：NeurIPS 是人工智能领域的顶级国际会议，每年吸引全球顶尖学者、研究人员和行业专家参与。以 2024 年为例，会议收到 15671 篇投稿，接收率仅为 25.8%；按照惯例选出了 2 篇最佳论文（Best Paper），获奖比例只有 0.013%，竞争异常激烈。　

12 月 5 日

【模型】

OpenAI ⋙ Day 1

满血 o1 ，ChatGPT Pro $200 会员，o1 Pro　

推出最强推理模型 o1 满血版，性能提升 34%，错误率降低 34%，支持多模态输入（文本和图像）。　

发布 ChatGPT Pro 订阅服务，价格为每月 200 美元，提供无限制访问 o1 和专业版 o1，适合高要求的专业用户。　

从当日开始，OpenAI 连续 12 个工作日发布新的 AI 功能和产品（https://openai.com/12-days)，点击查看深度解读 ?重新解读 OpenAI 的 12 天发布【非媒体视角】　

https://openai.com/index/openai-o1-system-card　

【模型】

上海人工智能实验室

书生·万象 InternVL 2.5 多模态大语言模型系列（开源）　

InternVL 2.5 能够处理文本、图像、视频等多模态信息，支持多学科推理、视觉问答、文档理解等复杂任务。　

使用入口：InternVL 2.5 支持从 1B 到 78B 不同规模，开源代码和模型可通过 GitHub 和 HuggingFace 免费获取。在线体验 Demo 也已开放。　

补充信息：上海人工智能实验室成立于 2020 年，核心产品包括 InternVL 系列大模型和 OpenGVLab 开源平台。　

几乎是对标 Qwen2.5　

https://www.shlab.org.cn/news/5444032　

【音频】

Fish Audio

Fish Speech 1.5 文本转语音模型（开源）　

Fish Speech 1.5 能够通过极短的声音样本生成高质量语音，支持 13 种语言，提供 150 毫秒以内的低延迟高质量即时语音克隆。新版本使用一百万小时的多语种语音训练，中文和英文的效果尤为出色。　

使用入口：可以通过 GitHub 获取 Fish Speech 1.5 整合包，也可以在 Fish Audio 官网和 Hugging Face 在线体验。　

语音克隆的最便捷方案 ⚡　

https://github.com/fishaudio/fish-speech　

【应用】

Microsoft Edge

Copilot Vision 实时陪伴浏览互联网的 AI 助手　

Copilot Vision 作为浏览器原生 AI 助手，能实时解读用户正在浏览的网页内容，并提供上下文相关的智能交互，实现无缝的人机交互体验。　

产品入口：集成于 Microsoft Edge 浏览器，目前仅向部分 Copilot Pro 订阅用户开放测试权限。　

https://www.microsoft.com/en-us/microsoft-copilot/blog/2024/12/05/copilot-vision-now-in-preview-a-new-way-to-browse　

【新闻】

识因智能

完成 Pre-A 数千万融资　

本轮融资由红杉资本、高瓴创投、源码资本等机构领投，公司估值跃升至 5 亿元。资金将用于核心技术研发、垂直领域商业化落地及人才引进 ?官方报道　

补充信息：识因智能成立于 2021 年，专注 AI 技术在垂直领域应用，主攻金融、医疗、教育等行业。核心技术包括一叶轻舟自研大模型，智能风控、AI 辅助诊断、个性化学习推荐等产品解决方案。　

https://effyic.com　

12 月 6 日

【模型】

OpenAI ⋙ Day 2

基于 o1 的强化微调 RFT　

介绍强化微调技术（Reinforcement Fine-Tuning），支持少量数据训练，适用于法律、金融、医疗等复杂领域。预计 2025 年春季开放。　

「用少量数据对模型进行微调」，又会开启什么样的新生态呢 ❓　

https://openai.com/form/rft-research-program　

【模型】

Meta LLaMA

Llama 3.3 纯文本模型（开源）　

LLaMA 3.3 是一款经过预训练和指令微调的纯文本大语言模型，参数规模达 70B，在保持与前代产品相当的文本处理能力同时，显著提升了计算效率和成本效益。　

模型具备 128K 上下文窗口，支持八种主流语言的输入输出。经过针对性优化后，在多个场景表现出色，在主流评测基准上超越了多个开源及闭源对话模型。　

产品入口：Meta 面向研究机构提供免费的非商用许可，商用则需单独申请授权。用户可通过 Hugging Face 平台或 Meta 官方 API 调用该模型。　

补充信息：Meta 自 2023 年 2 月推出首个 LLaMA 模型以来，相继发布了包括 LLaMA 2 和具备多模态能力的 LLaMA 3.2 在内的多个迭代版本。　

在保证效果的前提下，模型越来越小，价格越来越低，也是一种 scaling law　

https://www.llama.com/docs/model-cards-and-prompt-formats/llama3_3　

【图像】

LiblibAI x 星流

Star-3 Alpha 自研图像基座模型　

Star - 3 Alpha 模型基于 F.1 基础算法架构训练而成，在精准度、色彩表现、美学捕捉等方面表现卓越，支持多种艺术风格（如插画、摄影、3D 等），能在短时间内生成接近真实摄影效果的图像，还能精准响应复杂提示词。　

使用入口：星流官网，LiblibAI 在线生图功能（https://www.liblib.art/sd)，或者通过 API 服务（https://www.liblib.art/apis)。　

从社区到模型，LiblibAI 走了一条自下而上的路线　

https://xingliu.art　

【视频】

Runway

Act-One 功能扩展　

Act-One 是一款视频表演迁移工具，可以将人类的表演转换为各种角色对应的表演内容，同时适用于人类和虚拟角色。该工具首次发布于 2024 年 7 月，本次更新扩展了应用场景，可以直接把表演转移到已有视频里的角色脸上。　

产品入口：Runway 官网（https://runwayml.com）。　

补充信息：Runway 创立于 2018 年，总部设于纽约，其核心产品线包括 GenAI 模型系列 Gen-1、Gen-2 以及最新的 Gen-3 Alpha 等。　

之前只是图片转视频，现在增加了视频转视频 ?　

https://x.com/runwayml/status/1865062457418371080　

【应用】

Ollama

Ollama 0.5 版本更新（重要）　

新版本引入了类 OpenAI 的结构化输出功能，通过 JSON schema 实现输出格式的精确控制与规范化，并与 Python 和 JavaScript SDK 完成集成。　

补充信息：Ollama 是一个开源的、可以在本地运行的大语言模型框架，允许用户在自己的设备上下载和运行各种预训练的语言模型。　

https://ollama.com/blog/structured-outputs　

12 月 7 日

【应用】

ElevenLabs

GenFM 播客生成工具　

GenFM 是 ElevenLabs 开发的一款 AI 播客生成工具，把内容（文章、PDF、电子书、视频等）转为双人对谈式播客，支持 32 种语言（含中文）。工具亮点是加入语气词等自然对话元素，提升了对话的真实感，生成质量与 Google NotebookLM 基本相当。　

产品入口：GenFM 已集成至 Projects （长篇音频处理平台）和 ElevenReader （官方的移动端应用）。　

补充介绍：ElevenLabs 成立于 2022 年，总部位于美国纽约，专注于语音克隆、文本转语音、配音和声音转换等技术研发，已完成多轮融资。　

https://elevenlabs.io/blog/genfm-podcasts-in-projects　

【机器人】

ESP-SparkBot

大模型 AI 桌面机器人（开源）　

ESP-SparkBot 是一款基于 ESP32-S3 的开源桌面机器人，支持接入文心一言、OpenAI 等大语言模型，实现智能对话、天气查询和音乐播放等功能；内置本地 AI 模型，可进行人脸识别、猫脸识别和行人检测等离线操作；通过蓝牙配网连接小度服务器，支持语音唤醒、端侧语音转文字和音色切换等。　

使用入口：硬件设计、3D 打印文件和固件均已开源，遵循 GPL 3.0 协议，DIY 成本仅约 60 元。B 站 UP 主 @ESP_Friends 提供了详细的复刻教程（BV1MezzYaEfP）。　

机器人领域的树莓派？　

硬件开源地址 → https://oshwhub.com/esp-college/esp-sparkbot　

软件开源地址 → https://gitee.com/esp-friends/esp_sparkbot　

12 月 8 日

【新闻】

HiDream 智象未来

Pre-A 轮和 A 轮融共资数亿元人民币　

继完成敦鸿资本领投的 Pre-A 轮融资后，又获得数亿元 A 轮融资，两轮融资总共规模达到数亿元人民币。融资将主要用于智象多模态大模型的研发、全系产品迭代与服务升级 ?官方报道　

智象未来成立于 2023 年 3 月，专注构建视觉多模态大模型创新与应用。核心产品是「智象多模态大模型」系列 1.0、2.0、3.0，拥有目前行业中最丰富的多模态版权语料库。　

https://www.hidreamai.com/explore　

12 月 9 日

【视频】

OpenAI ⋙ Day 3

Sora　

发布 AI 视频生成工具 Sora，支持生成 1080p、最长 20 秒的视频。提供故事板、视频混合等编辑功能。面向 ChatGPT Plus 和 Pro 用户开放。　

起了个大早，赶了个晚集 ?　

https://openai.com/sora　

【图像】

xAI

Aurora 图像生成模型　

Aurora 是 xAI 自主研发的图像生成模型，提供文生图、图生图、图片编辑等核心功能，在内容生成限制方面采取相对开放的策略，支持公共和版权人物形象的生成（也是比较有争议的部分）。　

产品入口：已集成到 Grok 平台（本月已经支持独立 iOS App 下载）和部分 ? 账户（此前 ? 平台的图片生成功能由 Flux 模型提供）。　

https://x.ai/blog/grok-image-generation-release　

12 月 10 日

【应用】

OpenAI ⋙ Day 4

ChatGPT Canvas　

Canvas 支持用户与 ChatGPT 在写作和编程方面协作，内置 Python 代码运行和图片识别功能。该功能现已向所有用户开放。　

https://openai.com/index/introducing-canvas　

【应用】

DeepSeek

DeepSeek-V2.5-1210 支持联网搜索功能　

DeepSeek-V2.5-1210 是 DeepSeek V2.5 的增强版本，新增联网搜索功能，也是 V2.5 系列的收官之作。　

产品入口：登录官网（https://chat.deepseek.com）启用输入框「联网搜索」选项。　

补充信息：Deepseek （深度求索）成立于 2023 年，获得幻方量化支持，致力于通用人工智能基础研究。公司已构建完整的模型产品线，包括 DeepSeek V2、V2.5、V3 系列大语言模型，以及 DeepSeek-VL 视觉语言模型和 DeepSeek-R1-Lite 推理模型。　

https://huggingface.co/deepseek-ai/DeepSeek-V2.5-1210　

【应用】

Cognition Labs

Devin 编程助手正式上线　

Devin 号称「全球首个全自主 AI 软件工程师」，可独立执行从编码到部署的全流程开发，在 SWE-bench 测试中达到 13.86% 的问题解决率。　

产品入口：支持多种接入方式，包括 Slack 集成、VSCode 插件、API 接口及 Web 平台。订阅费用为每月 500 美元。　

补充信息：Cognition Labs 成立于 2024 年，由多位 IOI 金牌得主组建，获得 Founders Fund 领投 2100 万美元 A 轮融资。Devin 作为其首个重磅产品于 2024 年 3 月发布，并在 12 月实现商业化部署。　

离全自动编程更近了一步，但是实测下来还有很长的路要走 ?‍?　

https://devin.ai　

【模型】

智谱 AI

GLM-4V-Flash 多模态大模型（免费）　

GLM-4V-Flash 专注于视觉-语言理解与交互，具备 26 种语言的跨语言处理能力。模型在图像描述生成、分类、视觉推理、VQA 及情感分析等视觉任务上表现出色。作为 GLM-4V 系列的延伸产品，继承了其强大的多模态处理能力，并针对性能和效率进行了优化。　

产品入口：已在智谱开放平台（bigmodel.cn）正式发布，面向开发者提供免费 API 调用服务，延续了此前 GLM-4-Flash 的开放策略。　

第一家免费的多模态模型 ?　

https://bigmodel.cn/dev/api/normal-model/glm-4v　

【新闻】

国家广播电视总局

要求规范 AI「魔改」短视频　

广电总局网络视听司发布《管理提示（AI 魔改）》指出，近期 AI「魔改」视频以假乱真、「魔改」经典现象频发，包括《甄嬛传》变身「枪战片」，《红楼梦》改成「武打戏」等。　

管理提示认为，这些视频为博流量，毫无边界亵渎经典 IP，冲击传统文化认知，与原著精神内核相悖，且涉嫌构成侵权行为。要求各相关省局督促辖区内短视频平台排查清理 AI「魔改」影视剧的短视频。　

https://www.nrta.gov.cn/art/2024/12/10/art_3731_69779.html　

12 月 11 日

【新闻】

OpenAI ⋙ Day 5

苹果全系接入 GPT　

ChatGPT 正式集成到 Apple Intelligence，iPhone、iPad 和 Mac 用户可通过 Siri 使用 ChatGPT 功能，提升写作和视觉智能能力。　

【新闻】

苹果 Apple Intelligence 与中国厂商合作消息时间线

苹果计划将 Apple Intelligence 功能引入中国版 iPhone，并与中国几家大模型厂商积极接触。本时间线梳理了 2024 年 6 月至 12 月期间的关键事件。　

Apple Intelligence 是苹果公司推出的个人智能化系统，结合了生成式 AI 模型与用户个人场景，提供文本处理、图像生成、语音交互等功能。　

2024 年 6 月：苹果在 WWDC24 开发者大会上宣布与 OpenAI 合作，推出 Apple Intelligence 功能，并开始在中国市场寻找本土合作伙伴，与百度、阿里巴巴、百川智能等接洽，但倾向于选择百度。　

2024 年 10 月：Apple Intelligence 在美国市场正式推送，并计划 2025 年增加中文支持；与此同时，苹果与百度的合作因技术问题和用户数据使用分歧遇阻，百度希望保留用户数据，而苹果坚持隐私优先。　

2024 年 12 月初：外媒报道苹果为使用百度 AI 模型支付了高达 100 亿美元，并承担模型重新训练和微调的成本，但合作进展仍不顺利。　

2024 年 12 月中旬：苹果开始与腾讯和字节跳动商谈，同时也与智谱 AI 接触。　

【模型】

Google DeepMind

Gemini 2.0 Flash 多模态大模型（Gemini 2.0 系列第一个版本）　

Gemini 2.0 Flash 支持图像、视频、音频等多模态输入，可生成图文混合内容和多语言 TTS 音频。模型原生支持 Google 搜索、代码执行及第三方 API 调用等工具链能力。　

模型处理速度较 Gemini 1.5 Pro 提升一倍，关键性能指标已超越前代产品。作为 Gemini 2.0 系列首发模型，在多模态理解与生成方面实现重要突破。　

产品入口：目前通过 Google AI Studio 和 Vertex AI 平台提供实验版 API 接口。预计 2025 年 1 月起全面商用，并将陆续发布 Gemini 2.0 系列其他版本。　

补充信息：Google Gemini 模型家族发展历史：2023 年 12 月发布 Gemini 1.0 （包含 Nano、Pro、Ultra 三个版本），2024 年 2 月推出 Gemini 1.5 （Flash 和 Pro 版本）。　

2024 年模型性价比 No.1 ?　

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024　

【应用】

Google Gemini

Deep Research 个人 AI 研究助手　

Deep Research 是一款智能信息检索与分析工具，可以基于主题快速检索全网资源并生成综合报告，并支持导出为 Google Docs 文档格式。该工具特别适合学术研究、内容创作、行业分析等需求场景。　

工具核心亮点是充分整合了 Google 核心数据源（Google Search、Google Scholar、Google Books、YouTube 等），再结合 Gemini 1.5 模型的多模态处理能力，可处理高达 100 万 tokens 的上下文信息，实现深度信息挖掘与分析 ?测评长文　

产品入口：Deep Search 已经上线 Gemini Advanced （Gemini 付费版 https://gemini.google.com）。　

https://blog.google/products/gemini/google-gemini-deep-research　

【应用】

第四范式

发布桌面端 AI 搜索工具　

这是一款基于人工智能技术的全能搜索助手，能够提升用户在本地文件、即时通信、网盘等各类在线应用中的搜索体验。　

用户可通过简单描述查询意图进行模糊搜索，无需精确关键字，工具支持实时预览搜索结果 ?官方演示　

使用入口：工具处于 Beta 版测试阶段，使用方式和具体定价尚未公布。　

【新闻】

面壁智能

新一轮数亿元融资　

本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富投资基金联合领投，北京市 AI 产业投资基金与清科创投跟投。资金将用于加速端侧 AI 大模型的商业化布局 ?官方报道　

补充信息：面壁智能成立于 2022 年 8 月，业务重心是端侧模型的研发。从 2024 年 2 月起陆续发布了 MiniCPM 系列多款端侧多模态模型，其中面壁小钢炮 MiniCPM 系列累计下载量突破 300 万。此前，2023 年 4 月该完成数千万元天使轮融资，2024 年 4 月完成数亿元融资。　

https://modelbest.cn　

12 月 12 日

【新闻】

OpenAI ⋙ Day 6

4o 实时视频通话，视频理解，屏幕理解，圣诞老人语音　

为 ChatGPT 高级语音模式加入视频输入和屏幕共享功能，支持多模态交互，用户可通过视频与 ChatGPT 实时互动。此外，限时推出了圣诞老人语音模式，增添节日氛围。　

【模型】

巨人网络

千影 QianYing 有声游戏生成大模型　

千影（QianYing）是一款多模态游戏生成大模型，由 YingGame 和 YingSound 两个子模型构成。前者专注于游戏视频生成，后者负责视频配音及音效合成。　

YingGame 实现了开放世界游戏视频的无引擎生成，支持角色动作交互控制和自定义，并优化了物理仿真效果。YingSound 则在音视频内容精准对齐方面取得重要进展，可以为静音视频智能生成匹配音效 ?官方报道　

补充信息：巨人网络创立于 2004 年，总部设于上海，由史玉柱创办。作为游戏研发运营领域的科技企业，公司于 2022 年设立 AI 实验室，核心产品包括 GiantGPT、BaiLing-TTS 等大模型，此次发布的 QianYing 进一步完善了其多模态技术布局。　

【图像】

Midjourney

Patchwork 创建虚拟世界的无限画布　

Patchwork 是一款集成语言模型、图像生成和无限画布功能的创意协作平台。作为虚拟世界构建工具，它专为小说创作、游戏开发、艺术创作等领域的专业人士设计，支持快速构建故事背景和角色设定。Patchwork 左侧工具栏（Toolbox）和每个碎片操作栏（Action Bar）的编辑功能非常丰富完整，并且最多支持 100 位用户同时在线协作。　

产品入口：登录（https://patchwork.midjourney.com）进入大厅（lobby），各个沙盒（sandbox）就是众多虚拟世界的传送门，点击即可进入；或点击左侧工具栏 portal 则可以创建自己的虚拟世界。　

https://updates.midjourney.com/patchwork-user-guide　

【新闻】

造梦次元

完成近亿元人民币融资　

造梦次元已于近日完成数千万人民币的 A 轮融资。本轮融资由锦秋基金领投，高榕创投、明势创投、商汤科技等多家知名机构和 AI 大厂参投。融资将用于加速技术研发和市场拓展。　

补充信息：公司创立于 2023 年，专注于多模态 AI 驱动的新一代内容平台。公司核心产品「造梦次元」定位于服务年轻用户，结合生成式 AI 技术，提供交互式、剧情化的虚拟角色互动体验。　

https://ciyuan.ideaflow.pro　

12 月 13 日

【应用】

OpenAI ⋙ Day 7

ChatGPT Projects　

推出 Projects 功能，支持用户管理项目、上传文件、设置自定义指令，整合 Canvas 和 ChatGPT Search，提升项目管理效率。　

该功能仅面向 ChatGPT Plus/Pro 用户开放，计划于明年初向企业和教育用户提供。　

【模型】

DeepSeek

DeepSeek-VL2 视觉模型系列（开源）　

DeepSeek-VL2 专注于视觉语言理解与生成任务，该系列包含三个规模的模型：Tiny （1.0B 激活参数）、Small （2.8B 激活参数）和标准版（4.5B 激活参数）。　

模型基于稀疏 MoE 架构设计，模型在保持较小激活参数规模的同时，实现了与同类大型密集模型相当或更优的性能表现。在视觉问答、OCR、文档理解、图表分析、视觉定位和多模态内容生成等核心任务上均取得突破性进展。　

DeepSeek 终于有视觉模型了！！！　

https://github.com/deepseek-ai/DeepSeek-VL2　

【模型】

阶跃星辰

Step-1o Audio 千亿参数端到端语音大模型　

Step-1o Audio 支持多模态输入输出，能够实现实时对话、语音合成及深度声音特征理解。模型总参数量达千亿级别，具备快速响应和实时打断能力，而且可准确识别和模拟音色、韵律、方言等语音特征，并能适应个性化的口语表达模式。　

产品入口：已经介入跃问 App 提供实时语音对话服务。　

https://www.stepfun.com　

【模型】

360

360gpt2-o1 推理模型　

360gpt2-o1 是一款中文自然语言处理模型，在多项基础数学评测和权威数学竞赛中表现亮眼。　

使用入口：已经上线 360 智脑 API 平台（https://ai.360.com/playground/?model=360gpt2-o1)。　

【应用】

Google Labs

NotebookLM 更新（核心团队宣布离职创业）　

NotebookLM 发布了三项关键性更新：　

界面分区。将 NotebookLM 界面划分为三个区域，其中 Sources 区域负责项目核心信息管理，Chat 区域与 AI 对话，Studio 区域创建音频概述、Notes （study guides、Brefing doc、FAQ）。

音频概述互动升级。音频播放的时候，点击 join 按钮，会被音频中的主持人 cue 到并加入对话。

计划推出 NotebookLM Plus 计划。

补充介绍：NotebookLM 是 Google Labs 一款实验性 AI 应用，由 Google Gemini 1.5 Pro 提供支持。2024 年 9 月，NotebookLM 推出音频概述功能后爆火出圈。　

https://blog.google/technology/google-labs/notebooklm-new-features-december-2024　

核心团队宣布离职创业　

12 月 3 日，NotebookLM 团队原负责人 Raiza Martin 宣布离职创业。与她一起离职创业的，还有 NotebookLM 设计师 Jason Spielman、核心工程师 Stephen Hughes。　

Martin 接受采访时表示，新公司业务将面向消费者，用最新 AI 模型开发一些对普通人有用的产品。公司处于起步阶段，尚未宣布任何融资，其网站也显示「正在建设中 https://werebuilding.ai」。　

https://x.com/raizamrtn/status/1863645718159954272　

【应用】

小红书

点点，AI 搜索 App　

点点是一款基于 AI 技术的智能搜索应用，主打位置感知的生活服务推荐和智能问答功能。其数据来源以小红书为主，同时整合了淘宝、百家号、携程等多平台内容。　

产品入口：移动端 App 和微信小程序（功能更完善）；小红书平台正在进行「问点点」功能的灰度测试。　

补充信息：小红书平台的搜索业务发展迅速。数据显示，小红书 2024 年第四季度日均搜索量接近 6 亿次，相比 2023 年中的 3 亿次实现了翻倍增长，已达到市场领先者百度（日均约 10 亿次）搜索量的 60% 。　

年轻人真的都在把小红书当搜索引擎在用 ?　

【新闻】

Ilya Sutskever

预训练时代即将结束　

在 NeurIPS 2024 大会上，前 OpenAI 联合创始人、SSI 创始人 Ilya Sutskever 发表重要演讲，指出 AI 训练数据正面临增长瓶颈。他将数据比喻为 AI 领域的「化石燃料」，预测现有数据规模难以满足未来发展需求，意味着预训练的时代即将结束。　

这个话题，AI 圈内圈外已经陆续讨论了半年之久。作为深知个中内情的权威人士，Ilya 本次发言坐实了这一判断和发展趋势。　

与此呼应。　

华尔街日报（WSJ）于 12 月 20 日报道，OpenAI 的 GPT-5 模型在经过 18 个月、至少 2 轮训练后，仍未达到预期效果。该模型原计划于 2024 年中期发布，但持续遭遇技术瓶颈。　

为突破数据限制，OpenAI 正通过人工编程、数学题构建和 O1 合成等方式创建训练数据，但效率仍难以满足 GPT-5 的预训练需求。　

https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693　

https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training　

12 月 14 日

【模型】

Cohere

Command R7B 企业级 AI 搜索模型（开源），R 系列最小最快的模型　

Command R7B 是 Cohere 公司推出的新一代轻量级语言模型，专注于提供高效、经济的企业级 AI 解决方案。该模型采用 7B 参数规模设计，在保持高性能的同时显著优化了计算资源占用，能够在 CPU、低端 GPU 及 MacBook 等多种硬件平台上稳定运行。　

产品入口：已在 Cohere 官方平台和 HuggingFace 开放访问，并提供完整模型权重下载。　

Cohere 真是在专注做好 RAG ?　

https://cohere.com/blog/command-r7b　

【模型】

Microsoft

Phi-4，微软最新的小语言模型　

Phi-4 是一款 14B 参数规模的小语言模型（SLM），专注于复杂推理能力，在数学领域具有突出优势，在数学竞赛评测中超越了包括 Gemini Pro 1.5 在内的大模型。模型核心优势源于高质量合成数据集的应用、精选有机数据的整合，以及创新的后训练技术方案。　

产品入口：模型已在 Azure AI Foundry 和 Hugging Face 开放使用，相关技术细节已通过 arXiv 平台发布研究论文。　

补充信息：Phi 系列模型秉承「小而精」的开发理念，通过优质预训练数据和创新架构设计，实现资源受限环境下的高效计算。目前已完成从 Phi-1 到 Phi-4 的六代技术迭代，持续推进小型化与高性能的统一。　

以小博大的极限是什么呢？明年底能达到 gpt-4o 水准的小模型，会是多少参数呢？　

https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090　

【视频】

Pika Labs

Pika 2.0 模型　

Pika 2.0 专注于增强文本-视频对齐能力，提供精准的视频生成和编辑功能。核心创新在于 Scene Ingredient （场景元素）系统，能将多个输入图像（如场景、人物、物品）智能整合为连贯的动态场景。此外，模型具备多图像融合能力，可实现复杂交互场景的视频合成，如两人在视频中实现合影或拥抱。　

产品入口：已通过官方网站和 API 接口对外开放。　

补充信息：Pika Labs 成立于 2023 年 4 月，由斯坦福博士生 Demi Guo 和 Chenlin Meng 创立，致力于 AI 视频生成与编辑技术研发。公司于 2023 年 11 月推出首个产品 Pika 1.0，支持多风格视频生成；2024 年 10 月发布 Pika 1.5，新增特效库包含爆炸、熔化等动态效果，持续推进视频生成技术的创新。　

之前 Vidu 就做了视频主体参考的功能了，我认为这个功能未来会是视频模型的标配 ?　

https://pika.art　

【应用】

Cline

Cline 2.2.0 版本围绕 MCP 协议的集成进行了优化　

Cline 是一款基于 VS Code 的开源 AI 编程助手插件，核心特色在于其高度灵活性和智能化工作流，并且支持多种 API 提供商和模型，包括远程模型（如 OpenRouter、Anthropic）和本地模型（如 LM Studio / Ollama）。　

2.2.0 版本引入了对 Model Context Protocol （MCP）的支持，允许用户通过 MCP 添加和配置自定义工具。即用户只需用简单的自然语言命令，即可让 Cline 自动生成并安装对应的工具。这标志着 Cline 正在从 AI 编程助手向通用智能体平台进化。　

https://github.com/cline/cline　

12 月 15 日

【模型】

无问芯穹

Megrez-3B-Omni 全球第一款端侧全模态理解模型，Megrez-3B-Instruct 纯语言模型版本　

Megrez-3B-Omni 是全球首个端侧全模态理解模型，配套推出纯语言模型版本 Megrez-3B-Instruct。该系列模型实现了端侧部署的多模态数据处理能力，支持图像、音频和文本的统一理解。　

Megrez-3B-Omni 在多模态基准测试中展现出卓越性能。纯语言版本 Megrez-3B-Instruct 优化了推理速度，并集成了智能 WebSearch 功能，可自主判断搜索需求以增强问答能力。　

产品入口：模型已在 Github、HuggingFace、Modelers 魔乐和 ModelScope 魔搭等主流开源平台发布。用户可通过官方网站体验在线服务或接入 API （https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr)。　

补充信息：无问芯穹由清华大学电子工程系教授汪玉于 2023 年 5 月创立，定位为「大模型时代的首选算力运营商」。公司核心产品 Infini-AI 异构云平台，专注于实现大模型在多种芯片架构上的高效部署和运行。　

算力平台也出模型了，意料之外，情理之中 ?　

https://github.com/infinigence/Infini-Megrez　

【音频】

Nexa AI

OmniAudio-2.6B 全球最快的音频语言模型　

OmniAudio-2.6B 是一款面向本地化和端侧部署的 AI 模型，专注于文本和音频的高效处理与转换。模型基于 Gemma-2-2B 和 Whisper turbo 架构，通过自研投影模块实现了 ASR 和 LLM 能力的统一。其创新架构设计显著降低了延迟和资源消耗，为端侧部署提供了理想解决方案。　

产品入口：模型已在 HuggingFace Space 开放使用，同时支持通过 Nexa SDK 进行设备端部署和集成。　

补充信息：Nexa AI 由斯坦福大学校友 Alex Chen 和 Zack Li （都是 95 后）创立，专注于高性能 AI 模型研发，尤其在端侧 AI 生态领域具有技术优势。公司的核心产品线包括 Octopus v1、v2、v3 系列模型。　

https://nexa.ai/blogs/omniaudio-2.6b　

【应用】

Grammarly

Grammarly 收购生产力初创公司 Coda　

Grammarly （成立于 2009 年）是全球领先的 AI 写作辅助平台，其核心产品提供全方位的语言优化服务，包括语法校对、文风润色及智能写作建议。该平台已与 Microsoft Office、Google Docs 等主流办公软件实现深度集成。　

Coda （成立于 2014 年）专注于智能文档协作，旗下 Coda Docs 与 Coda Brain 产品线整合了智能写作、数据分析与自动化工作流等功能，为企业提供一站式知识管理与协作解决方案。　

此次并购将强化 Grammarly 在 AI 生产力领域的战略布局，通过整合 Coda 的技术优势来扩展智能对话等新功能。收购完成后，Coda CEO Shishir Mehrotra 将出任 Grammarly 首席执行官，原 CEO Rahul Roy-Chowdhury 转任顾问职位。　

https://www.grammarly.com/blog/company/grammarly-acquires-coda　

https://coda.io/blog/about-coda/grammarly-acquires-coda　

【新闻】

月之暗面 Kimi 争端始末时间线

2024 年对「月之暗面 Kimi」来说可谓跌宕起伏。年初爆火出圈后疯狂投流，年尾陷入与前公司投资方的复杂博弈，杨植麟、张予彤、朱啸虎的名字更是数次刷屏。根据公开信息梳理一下事件发展时间线，点击可以查看 ?完整报道　

2016 年：杨植麟、张宇韬、陈麒聪等人创立循环智能，获金沙江创投、红杉中国等投资。　

2022 年底：ChatGPT 爆火后，杨植麟开始筹备月之暗面，专注于通用大模型领域。　

2023 年 2 月：月之暗面成立并启动融资，部分循环智能的老股东（如红杉中国、真格基金）选择跟投，但金沙江创投等机构因不看好通用大模型而未参与。　

2023 年 10 月：月之暗面推出大模型应用 Kimi，支持 20 万字超长上下文窗口，成为全球首个具备此能力的中文大模型，迅速引发市场关注。　

2024 年 2 月：月之暗面完成 A+ 轮融资，获得阿里巴巴等机构超 10 亿美元投资，这一融资事件成为争端的重要导火索。　

2024 年 11 月：循环智能及其五家投资方（金沙江创投等）在香港对杨植麟和张宇韬提起仲裁，指控他们在未获得同意豁免书的情况下启动融资并创立月之暗面。　

2024 年 12 月：朱啸虎与杨植麟公开交锋　

12 月 5 日：朱啸虎在朋友圈连发多条动态，指责月之暗面是从循环智能内部开发两年的项目，分拆未获得循环智能股东决议签字，并称张予彤隐瞒利益冲突，获取月之暗面 14% 股份，违反受托责任，已被金沙江创投解雇。

12 月 6 日：杨植麟发布长文，称离开循环智能重新创业已获得所有董事签字同意，并邀请张予彤作为联合创始人加入月之暗面，股份按多年兑现（vesting），强调其贡献不可替代。

12 月 6 日：朱啸虎对杨植麟的回应表示不满，认为其回避了关键问题，强调张予彤的股份是第一天就给的，而非分多年兑现，并要求月之暗面在 12 月 15 日前拿到循环智能老股东的豁免，否则将降低估值 10%

12 月 15 日：朱啸虎表示，截至 12 月 15 日，双方仍未达成一致，仲裁也未撤销 ?来源

12 月 16 日

【应用】

OpenAI ⋙ Day 8

ChatGPT Search 全量开放并优化体验，免费用户可用　

ChatGPT Search 功能升级，支持实时搜索、地图集成和语音搜索。未来几个月向所有 ChatGPT 用户免费开放。　

来势汹汹的 ChatGPT Search，几个月过去了，似乎也没改变什么 ?　

https://openai.com/index/introducing-chatgpt-search　

【模型】

月之暗面

k1 视觉思考模型（多模态推理模型）　

K1 视觉思考模型是一款端到端的多模态 AI 系统，能够直接处理和理解图像信息，无需依赖外部 OCR 或其他视觉模型进行中间处理，实现了真正意义上的视觉认知与推理能力。　

产品入口：用户可通过手机 App 或网页版访问，在「Kimi 视觉思考版」功能区域上传图片或直接拍照使用。　

https://kimi.moonshot.cn　

【视频&图像】

Google

Veo 2 视频生成模型，Imagen 3 图像生成模型，Whisk 图像生成实验工具　

视频生成模型 Veo 2　

Veo 2 能够创建超过 2 分钟、最高 4K 分辨率的极高质量的视频，支持多种主题和风格。与上一代及其他视频生成模型相比，Veo 2 视频生成风格更加多样，可以更好地理解物理运动和进行镜头控制，比如进行虚拟镜头定位、选中特定焦段的镜头、控制画面景深等，生成视频片段中的纹理和图像也更清晰。　

产品入口：Veo 2 将被集成进 Google Labs 视频生成工具 VideoFX （https://labs.google/fx/tools/video-fx)，并逐步拓展至 YouTube Shorts 等其他产品。目前已经开放 WaitList 申请。　

期待尽快开放，买家秀-卖家秀的对比看太多了，还是实测靠谱 ⚙　

Imagen 3 图像生成模型　

Imagen 3 进一步提升了图像生成能力，不仅色彩和构图更加亮眼，还能准确地渲染出更多元的艺术风格。本次升级后，生成地细节和纹理将更加丰富，也能与用户提示词保持更高地一致性。　

产品入口：Imagen 3 模型已经上线图像生成工具 ImageFX （https://labs.google/fx/tools/image-fx)，全球超 100 个国家都可使用。　

Whisk 图像生成实验工具　

Whisk 是一款新颖的图像生成工具，可以按照提示词把上传的多个元素重新混搭，生成任何内容。用户上传多张图像传达主题（subject）、场景（scene）和风格（style）等信息后，Gemini 模型会自动为图片生成详细的描述，并将其输入到最新版本的 Imagen 3 模型中。　

产品入口：Whisk 已经上线（https://labs.google/fx/zh/tools/whisk) 并开放使用。　

参考主体的图像生成，几家头部公司里居然是 Google 第一个做出来的 ?　

https://blog.google/technology/google-labs/video-image-generation-update-december-2024　

12 月 17 日

【模型】

OpenAI ⋙ Day 9

o1 API、实时语音 API 更新/降价 & 发布 SDK、模型新增支持：PFT 偏好微调　

多项开发者工具更新，增强开发者体验，帮助提升应用构建的灵活性和效率：　

o1 模型 API，支持函数调用（Function Call）和视觉能力

引入 WebRTC 实现实时语音应用开发

发布 Go 和 Java SDK

推出偏好微调（Preference Fine-Tuning）功能，允许定制模型输出

o1 总算完整了　

https://openai.com/index/o1-and-new-tools-for-developers　

【图像】

Midjourney

Moodboard 情绪板　

Moodboard 是 Personalize （个性化）功能的一部分。用户只需上传 15 - 20 张风格一致的图片，让 AI 学习这些图片的视觉元素（如色调、构图、风格等），并生成与之风格一致的图像。　

使用入口：登录 Midjourney - 进入 Personalize 页面 - 创建 Moodboard，上传图片后系统会自动生成代码。将代码粘贴至提示框，AI 即可根据定义风格生成图像。用户还可通过调整风格化值（Stylize Value）和混乱值（Chaos）进一步优化生成效果。　

MJ 终于出了类似训练 Lora 的功能，但仅局限于风格　

https://www.midjourney.com/personalize　

【新闻】

Databricks

宣布完成 J 轮融资（全球规模最大的单轮风险投资）　

本轮融资总额达 86 亿美元，由 Thrive Capital 领投，Andreessen Horowitz、DST Global 等知名机构参与。资金将用于 AI 产品开发、战略性收购以及国际市场扩展。部分资金将用于员工股份回购。　

信息补充：Databricks 成立于 2013 年，由伯克利七位数据科学家联合创立，最初以 Apache Spark 的商业化起家，现已成为湖仓一体（Lakehouse）架构的领导者。近年来，Databricks 通过收购 MosaicML 和 Tabular 等公司，加速了其在 AI 和数据管理领域的技术布局，与 Snowflake、AWS 等竞争对手展开激烈竞争。　

https://www.databricks.com/company/newsroom/press-releases/databricks-raising-10b-series-j-investment-62b-valuation　

【新闻】

智谱 AI

完成 30 亿元融资　

投资方包括多家战略投资机构及国资背景企业，原股东君联资本参与跟投。本轮融资将主要用于 GLM 系列大模型的迭代升级，重点提升问答、复杂推理及多模态能力，进一步完善产业生态。这是智谱今年宣布的第二轮融资，今年 9 月中关村科学城公司宣布领投智谱 ?媒体报道　

信息补充：智谱 AI 成立于 2019 年，专注于大语言模型和多模态模型的研发。公司今年推出了多款模型，包括第四代基座模型 GLM-4 和 GLM-4-Plus （对标 GPT-4）、视频生成模型清影 CogVideoX （对标 Sora）、端到端语音模型 GLM-4-Voice 和 GLM-4-VideoCall （对标 GPT-4o），以及能自主操作手机的智能体 AutoGLM。　

拿到了下半场的入场券 ?　

https://www.zhipuai.cn　

12 月 18 日

【应用】

OpenAI ⋙ Day 10

ChatGPT 的 800 电话、WhatsApp　

推出电话和 WhatsApp 接入功能，用户可通过拨打 1-800-CHAT-GPT 或 WhatsApp 与 ChatGPT 对话，降低使用门槛。　

营销方式满分 ?　

【应用】

tldraw

tldraw computer 用流程图搭建 AI 工作流　

tldraw computer 是一款基于 AI 的工作流设计工具，支持用户在无限画布上通过连接组件来构建复杂的数据流&执行逻辑。用户只需要将组件拖拽到画布上，然后使用自然语言提示词来配置组件的行为，就能控制工作流的逻辑；然后 tldraw computer 借助 Gemini 大模型理解并执行用户定义的工作流。　

产品入口：tldraw computer 已经上线（http://computer.tldraw.com）并提供免费试用 ?实测长文　

补充信息：tldraw 成立于 2021 年 1 月，总部位于英国，专注于协作式白板工具研发。其主打产品为开源协作白板 tldraw ，具备无限画布、多人实时协作等功能，并支持 GPT-4 API 集成，可将手绘草图转换为 Web 设计或代码。　

一个「传统软件+AI」的优秀范例 ?　

https://x.com/tldraw/status/1869401069849379109　

【应用】

Anysphere ● Cursor

0.44 版本更新（重要）　

0.44 版本更新的核心亮点包括：　

新增 YOLO 模式：核心功能之一，其理念类似于目标检测算法 YOLO （You Only Look Once），即一次性完成任务。该模式允许 AI 自动运行终端命令，并在遇到问题时自动分析并提供解决方案。　

Agent 功能全面升级：支持自动代码修复、跨会话保存、多文件编辑以及更强大的 GPT-4o 模型集成。　

此外，新版本还增强了上下文管理功能，@docs 、@git、@web 和 @folder 等功能已经可以在 Agent 使用。　

一步步的向全自动编程推进 ?　

https://www.cursor.com/changelog　

【应用】

Perplexity

Perplexity 收购 RAG 技术初创公司 Carbon　

Perplexity AI 公司成立于 2022 年 8 月，是一家知名 AI 搜索公司。Carbon 是一家位于西雅图的初创公司，擅长 RAG 技术，允许大模型在生成答案之前访问外部数据库中的信息。　

通过此次整合，Perplexity 预计于 2025 年初推出企业级搜索功能，支持用户检索 Notion、Google Docs、Slack 等应用中的文档数据。这是 Perplexity 继 2023 年收购 Spellwise 后的第二次战略并购，标志着 Perplexity 正式进军企业搜索市场，直接对标 Glean Search。　

https://qatalog.com/blog/post/perplexity-acquires-carbon　

【新闻】

字节跳动火山引擎 Force 冬季大会 2024

会上公布了字节系多款模型和应用层更新，简单整理如下：　

即梦平台：推出高精度中文生成能力及「一键生成海报」功能，支持文本快速转化为专业设计水准的静态/动态海报。　

企业级多模态服务：视觉理解模型定价降至 0.003 元/千 tokens，处理 720P 图片成本较行业降低 85% （284 张/元）。　

3D 内容生成：与火山引擎 eOmniverse 平台深度整合，构建高效的数字资产生产与物理仿真系统。　

扣子 1.5 版本：升级应用开发框架，提供 Chatbot、小程序、API、WebSDK 等多元接入方式，配合无限画布实现低代码可视化开发。　

豆包产品矩阵升级：　

接入类 O1 视觉理解模型，覆盖移动端与 PC 端

音乐模型生成时长扩展至 3 分钟，实现完整曲目创作

SeedEdit 2.1 图像编辑模型支持自然语言指令，提供换装、美化等一站式处理能力

即将发布智能文档编辑器，集成 AI 辅助写作功能

下一代 AI 云服务，已见雏形 ☁　

https://www.volcengine.com/event/force-2412　

【新闻】

爱诗科技 AIsphere

A2 至 A4 轮融资近 3 亿元人民币　

爱诗科技完成 A+ 轮近 3 亿元融资，投资方包括蚂蚁集团、北京市人工智能产业投资基金、国科投资及光源资本。资金将用于技术研发、算力扩充及团队建设，加速产品迭代与市场拓展 ?官方报道　

补充信息：爱诗科技成立于 2023 年 4 月，专注于 AI 视频生成大模型研发。其核心产品 PixVerse 支持文本、图像及视频转视频功能。此前，公司已于 2023 年 8 月完成数千万元天使轮融资，2024 年 3 月完成亿级 A1 轮融资。　

https://aishiai.com　

【新闻】

深圳市工业和信息化局

深圳市打造人工智能先锋城市的若干措施　

《措施》计划通过 "训力券"、"语料券"、"模型券" 等创新机制，每年投入超 15 亿元专项资金支持 AI 产业发展。政策覆盖算力资源、应用场景、原创技术等核心领域，单个项目资助最高可达 1000 万元。　

为打造全球 AI 创新高地，深圳将设立 100 亿元产业基金，同时在租金减免、人才引进等方面提供配套支持，致力于构建从基础研究到产业应用的完整创新生态链。　

https://www.sz.gov.cn/cn/xxgk/zfxxgj/tzgg/content/post_11906633.html　

12 月 19 日

【应用】

OpenAI ⋙ Day 11

ChatGPT 桌面版可读取其他应用，且支持 o1 和 4o 高级语音　

ChatGPT 桌面应用程序更新，包括支持 BBEdit、MatLab、Nova、Script Editor 和 TextMate 等应用程序。用户可以在其他桌面应用程序中使用高级语音模式，与 ChatGPT 进行语音交互。　

这些功能已在 Mac 版 ChatGPT 应用中推出，Windows 版本的更新也将很快发布。　

【应用】

Microsoft ● GitHub Copilot

GitHub Copilot 在 VS Code 上免费开放　

为庆祝 GitHub 突破 1.5 亿开发者，官方将 GitHub Copilot 在 VS Code 上免费开放啦！用户只需通过 GitHub 账户登录 VS Code，即可直接访问 Copilot 服务，每月免费有 2000 次代码补全额度及 50 条聊天消息额度。　

周围问了一圈，程序员已经都被 Cursor 和 Windsurf 瓜分了 ?　

https://x.com/ashtom/status/1869456453410627838　

【模型】

Google DeepMind

Gemini 2.0 Flash Thinking 视觉推理模型　

Gemini 2.0 Flash Thinking 是 Google DeepMind 推出的新一代多模态推理模型，支持文本与图像的混合输入，能展示完整的推理链路。模型基于 Gemini 2.0 Flash 架构开发，在数理计算、程序开发和创意写作等领域表现卓越，在 Chatbot Arena 多项评测中位居榜首。　

产品入口：目前以实验版形式在 Google AI Studio 和 Vertex AI 平台提供服务，处于技术验证阶段。　

补充信息：Gemini 2.0 系列是 Google DeepMind 本月推出的最新系列模型，早前已经发布了 Gemini 2.0 Flash 的实验版。　

https://x.com/JeffDean/status/1869789813232341267　

【3D】

Odyssey

Explorer 生成式世界模型　

Explorer 可以将文本和图像输入转换为高质量、可交互的 3D 场景渲染。模型基于自研 360 度实景采集系统构建的训练数据集，结合 Gaussian splats 体积渲染技术，实现了高度逼真的场景重建。输出成果可以无缝对接 Unreal Engine、Blender、Adobe After Effects 等主流创意软件，支持灵活的后期制作流程。　

产品入口：目前通过官网开放测试申请。虽然在生成速度、分辨率和图像质量等方面尚待优化，但其在影视制作、游戏开发和沉浸式娱乐领域的应用前景备受业界关注。　

补充信息：Odyssey 创立于 2023 年 1 月，致力于将生成式 AI 技术应用于视觉创意领域，为电影制作人和视效艺术家提供革新性工具。Explorer 是其首个面向市场的重要产品。　

https://odyssey.systems/introducing-explorer　

【视频】

快手 ● 可灵 AI

可灵 1.6 模型发布，基座模型再升级　

可灵 1.6 是一款全新升级的多模态生成模型，专注于图文理解与视频生成，在视觉创作能力方面实现重大突破：优化了对动作序列、镜头语言等专业指令的响应能力；提升了人物动作连贯性和表情自然度；同时强化了画面风格一致性、色彩美学、光影效果和细节还原度。　

最符合中国人审美的视频模型 ❤　

https://klingai.kuaishou.com　

【音频】

ElevenLabs

Eleven Flash 文本转语音模型（系列）　

Eleven Flash 专为实时对话式语音助手设计，系统延迟仅为 75ms （含应用和网络延迟）。虽在音质和情感表现力方面略低于 Turbo 系列，但其极速响应特性使其在实时交互场景中具有独特优势。　

模型提供 Flash v2 和 Flash v2.5 两个版本，前者专注英语支持，后者已扩展至 32 种语言覆盖。　

https://elevenlabs.io/docs/developer-guides/models　

【新闻】

CMU + MIT + NVIDIA + 清华北大等

Genesis 生成式物理引擎（开源）　

Genesis 高性能仿真平台能够模拟多种材料和物理现象，并支持机械臂、四足机器人、无人机等多种机器人系统。作为专业级机器人研发验证环境，Genesis 平台提供了一个虚拟环境，可以让研究者在开发、验证机器人算法时，不需要真实部署一个机器人 ?技术解读　

产品入口：平台已开源底层物理引擎核心代码，生成式智能体框架计划后续开源，支持研究者进行二次开发。　

补充信息：Genesis 由 19 家全球顶尖学术机构与企业联合研发的开源项目，致力于推动机器人仿真技术发展。　

开源版本争议很大 ?　

https://genesis-embodied-ai.github.io　

【新闻】

闪极科技

闪极 A1 眼镜，数千万元 A 轮融资　

闪极 A1 是国内首款量产的 AI 眼镜，售价 999 元起。产品搭载索尼 1600 万像素摄像头、紫光展锐 W517 处理器、2GB RAM 和 32GB ROM，支持 Hi-Fi 音质和 450mAh 电池。　

信息补充：闪极科技成立于 2020 年，是一家硬件科技企业，产品全球用户超百万。2023 年布局 AI 硬件领域。2024 年 11 月完成数千万元 A 轮融资。融资将重点用于 AI 眼镜的市场拓展、技术研发和人才建设。　

中国版 Meta Rayban ?　

https://www.shargetech.com | ?官方报道　

【新闻】

Anysphere ● Cursor

1 亿美元融资，投后估值达 25 亿美元　

本轮融资由老股东 Thrive Capital 领投，a16z 等知名机构参投。公司曾在 2024 年 8 月完成 A 轮融资，获投 6000 万美元，估值 4 亿美元。四个月后，公司估值已增长至 26 亿美元，增幅达 6.5 倍。　

补充信息：Anysphere 公司创立于 2022 年，由麻省理工几位学生创立，核心产品是 AI 编程应用 Cursor。自 2024 年 8 月整合 Claude 3.5 Sonnet 以来，Cursor 迅速崛起，成为挑战 GitHub Copilot 市场主导地位的强劲竞争者。　

https://techcrunch.com/2024/12/19/in-just-4-months-ai-coding-assistant-cursor-raised-another-100m-at-a-2-5b-valuation-led-by-thrive-sources-say　

12 月 20 日

【模型】

OpenAI ⋙ Day 12

OpenAI o3 正式发布！　

推出高性能推理模型 o3 及其轻量级版本 o3-mini，o3 在数学、编程、科学问题解决能力上超越人类专家，接近 AGI 水平。　

目前，o3 和 o3-mini 正处于内部安全测试阶段，OpenAI 正在邀请外部研究人员申请测试这些模型（https://openai.com/index/early-access-for-safety-testing)，申请截止日期为 2025 年 1 月 10 日。　

o3-mini 预计将于 2025 年 1 月底发布，完整的 o3 模型将在此之后推出。　

1 月底，不算久，拭目以待 ?　

https://openai.com/index/deliberative-alignment　

【新闻】

Anthropic

发布长文探讨 Agent 定义与构建原则　

在这篇《Building effective agents》长文中，Anthropic 观点是，Agent 是一种代理系统，其中大语言模型可以动态地指导自己的流程和工具使用，并控制如何完成任务，而不是 LLM 简单的衍生物。　

Agent 系统分为两类：第一类工作流通过预定义的代码路径协调 LLM 和工具（适用于定义明确、流程固定的任务），第二类智能体则更具灵活性和自主性，能够根据任务需求动态调整行为（适用于需要模型驱动决策的场景）。　

在构建 Agent 时，Anthropic 提出了三个核心原则：① 保持简单性，从基础提示开始，避免不必要的复杂性；② 优先考虑透明度，明确展示智能体的决策过程；③ 精心设计智能体-计算机接口（ACI），确保智能体与计算机的交互方式易于使用、可靠且健壮 ?中文翻译　

现在大部分的「智能体」，其实都只能算作「工作流」?　

https://www.anthropic.com/research/building-effective-agents　

12 月 22 日

【应用】

Google Chrome 浏览器

要接入 AI 助手了（可能）　

Google 可能正在开发一项名为 Glic （Gemini Live in Chrome）的功能，计划将 Gemini Live 实时 AI 助手深度整合到 Chrome 浏览器中。这一消息最早由 Leopeva64 在社交平台 ? 曝光。　

Leopeva64 在 Chromium Gerrit （Chrome 代码开发平台）中发现，Glic 拥有独立的设置页面，并且需要调用用户的麦克风和位置信息。这表明 Glic 很可能是一款交互式助手。此外，Glic 还可能会通过浮动面板或侧边栏 UI 为用户提供当前页面的上下文信息。　

如果免费，那这么大的用户量，Gemini 成本 Hold 得住吗 ?　

https://x.com/Leopeva64/status/1871284092295393617　

12 月 23 日

【模型】

百川智能

Baichuan4-Finance 金融大模型　

Baichuan4-Finance 是一款专业金融领域大语言模型，专注于金融机构的流程合规、客户服务、产品营销、风控合规等核心业务场景。模型采用「领域自约束」训练方法，整合了优质中英文金融专业知识库，在 FLAME 和 FinancelQ 等权威金融评测体系中表现卓越。　

产品入口：Baichuan4-Finance API 已经上线官网（https://platform.baichuan-ai.com/finPage)。　

补充信息：百川智能由前搜狗 CEO 王小川于 2023 年 3 月创立。公司专注大语言模型研发，核心产品包括 Baichuan 3 （2024 年 1 月发布）和 Baichuan 4 （2024 年 5 月发布）系列模型。　

往垂直领域走，也是大模型公司的一种活法　

https://platform.baichuan-ai.com/finPage　

【新闻】

xAI

C 轮融资 60 亿美元　

本轮融资由 A16Z、BlackRock、Lightspeed 等知名投资机构领投，NVIDIA 和 AMD 作为战略投资方参与。资金将重点投向基础设施建设和前沿技术研发。　

补充信息：xAI 由 Elon Musk 于 2023 年创立，致力于开发前沿 AI 技术和大模型。完成 B 轮融资（2024 年 5 月）后，公司相继推出大语言模型 Grok 2、图像生成模型 Aurora 等重要产品，并建成全球最大规模 AI 超算中心 Colossus，新一代 Grok 3 也正在训练中。　

https://x.ai/blog/series-c　

【新闻】

阶跃星辰

B 轮数亿美元融资　

本轮投资方包括上海国有资本投资有限公司及其旗下基金、腾讯投资、五源资本、启明创投等国资及战略财务投资机构。融资资金将重点投向基础模型研发，并深化 C 端应用场景布局 ?媒体报道　

补充信息：阶跃星辰成立于 2023 年 4 月，由前微软全球副总裁姜大昕创办，专注于 AGI 研发。目前已经发布了 11 款自研基座模型，已经形成从理解到生成、从文本到多模态的全系列模型矩阵。　

https://www.stepfun.com　

【新闻】

罗永浩 ● 细红线转向 AI 硬件领域

罗永浩的创业公司「细红线科技」最初专注于 AR 操作系统和硬件，因 AR 技术壁垒和商业化难度，于 2024 年初转向 AI 领域，开发 AI Agent 技术和原生硬件。　

公司计划于 2025 年春节前后发布首款 AI 硬件产品。新品主打自然语言交互和自动化任务执行，硬件设计超前，但具体形态尚未公布。内部人士透露定价可能较高，不过内部对于这款产品的销量暂不抱期待 ?新闻报道　

https://www.thinredline.com.cn　

12 月 24 日

【机器人】

宇树科技 Unitree

B2-W 机器狗最新技能展示视频刷屏　

Unitree B2-W 是宇树科技推出的一款高性能工业轮足机器狗，专为复杂地形巡检、应急救援、军事安防等场景设计。其独特的轮足替换变形设计，使其能够在轮式和足式两种模式间自由切换，兼具高速移动与复杂地形适应能力，成为四足机器人领域的标杆产品。　

2023 年 12 月，B2-W 正式量产发布。一年后，B2-W 最新技能展示视频刷屏全球社交媒体，展示了其高难度动作和全地形适应能力。　

遥遥领先 ?　

https://www.unitree.com/cn/b2-w　

【应用】

美团

年度报告与 AI 短剧出圈　

美团 App 的 2024 年度报告，在开篇增加了一段「AI+短剧」的剧情设计。用户进入美团 App 搜索进入「年度报告」页面，即可选择剧本和角色，体验一段融入了自己消费数据的 AI 剧情。　

剧本分为女频和男频，涵盖职场、豪门、仙侠等热门题材。相关话题一度登上热搜，在各家年终报告里脱颖而出 ?完整介绍　

12 月 25 日

【模型】

阿里巴巴 ● 通义

QVQ-72B-Preview 视觉推理模型（开源）　

QVQ-72B-Preview 是通义千问系列首个开源多模态视觉推理模型。QVQ 只需读取一张图片和一条指令，就可以开始思考，并在适当的时候进行反思，持续推理，最终生成答案。模型基于 Qwen2-VL-72B 微调，总参数量达 73.4B，专注于复杂视觉理解，尤其在数理科学领域展现卓越性能。　

产品入口：开源。作为预览版本，当前可能存在稳定性和指令遵循度等待优化的问题。　

补充信息：通义千问系列产品矩阵丰富，涵盖 Qwen2 系列、Qwen2.5 系列（Qwen2.5-Coder、Qwen2.5-Math）、Qwen-VL 多模态模型、QVQ-72B-Preview 推理模型等。　

全球第一个开源版视觉推理模型 ?　

https://qwenlm.github.io/blog/qvq-72b-preview　

【图像】

阶跃星辰

Step-1X-Medium 图像生成模型　

Step-1X-Medium 是 Step-1X 的升级版本，提升了图像生成质量和效率，并针对东方美学进行了特别优化。模型其他性能突破也很明显：生成速度提升超过 30%，图文理解能力和一致性大幅增强，细节表现更为精微自然。特别在中国风创作和东方人物刻画方面取得突破性进展，同时新增英文 Prompt 及文案渲染功能。　

产品入口：已在阶跃星辰开放平台「体验中心」正式上线，支持 API 接口调用。　

怎么有一股 Dalle 味（´。＿. ｀)　

https://platform.stepfun.com/console-tools　

【新闻】

像素绽放 PixelBloom

完成 B2 轮融资（AiPPT）　

本轮融资由北京市人工智能产业投资基金领投，多家知名机构及企业家跟投。资金将主要用于全球市场布局、产品线扩展和 AI 技术能力升级。这是公司 4 年内完成的第五轮融资 ?官方报道　

补充信息：像素绽放 PixelBloom 成立于 2018 年，是一家面向全球的 AI 办公工具孵化器，致力于打造「下一代个人于组织的 AI 工作站」。旗下产品包括 AiPPT.cn （国内） / AiPPT.com （海外）、爱设计 AIGC 内容中台、365 编辑器、爱设计在线设计工具、AiH5、叮当好记 Readlecture.cn、Visdoc.Ai 等 10 余款 AI 内容创作工具。　

https://www.aippt.cn　

12 月 26 日

【模型】

智谱 AI

CogAgent-9B 专用 Agent 任务模型（开源）　

CogAgent-9B 是 GLM-PC 的基座模型，基于 GLM-4V-9B 架构开发，核心特点是仅需截图输入即可执行任务，无需 HTML 等文本表征。模型能够结合历史操作记录，智能预测并执行下一步 GUI 操作指令，可支持个人电脑、移动设备及车载系统等多场景应用。　

产品入口：开源，已在 GitHub 和 Hugging Face 发布。　

https://github.com/THUDM/CogAgent　

【模型】

DeepSeek

DeepSeek-V3 全新系列首个模型上线（开源）　

DeepSeek-V3 是一款基于 MoE 架构的大语言模型，总参数量达 671B，实际激活参数为 37B，预训练数据规模达 14.8T tokens。在多项基准测试中，性能超越 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型，与 GPT-4 和 Claude-3.5-Sonnet 等顶级闭源模型表现相当。　

产品入口：目前通过 API 接口提供服务，2025 年 2 月 9 日前维持原有定价策略。登录官网（https://chat.deepseek.com）可免费使用。　

2024 年最强国产模型 ?　

?创始人访谈@暗涌、?创始人访谈@36 氪　

https://github.com/deepseek-ai/DeepSeek-V3　

【新闻】

OpenAI ChatGPT

本月两次大规模宕机　

12 月 11 日，第一次宕机，持续约 4 小时。原因是工程师部署新遥测服务时配置不当，导致 Kubernetes 控制面过载，API 服务器崩溃。　

12 月 26 日，第二次宕机，持续约 5 小时。OpenAI 将其归因于上游供应商问题，而微软在同一时间报告其数据中心出现电源故障，影响了北美地区用户。　

两次宕机均导致 ChatGPT、Sora 及 API 服务中断，全球数百万用户受到影响。　

k8s 配置不当导致全球宕机，让我想到了呼兰脱口秀专场的名字（: 草台班子　

https://status.openai.com　

12 月 27 日

【图像】

快手 ● 可灵 AI

可图 1.5 图像模型发布，AI 模特功能上线，可灵 1.5 模型升级等　

本次升级内容比较多，重点包含以下 4 项：　

可图 1.5 图像模型发布。画面表现更加细腻真实，人像表现更加真实自然。

AI 试衣新增「AI 模特」功能。输入文本描述即可生成超真实的 AI 模特，搭配 AI 换装实现服装商品一键上身；还可结合可灵 1.6 图生视频，生成服装动态展示效果。

可灵 1.5 模型（图生视频）支持「尾帧生成功能」。可以向前生成 5s/10s 的视频，适合生成商品展示、酷炫入场动效、远景到近景等视频应用场景。

对口型功能新增 10 款高品质音色。满足用户不同场景音色诉求，同时新增「音色情感」选项，支持 7 种情感选项，让人物表达更生动自然。

最符合中国人审美的图像模型，生成的 AI 模特是什么样呢　

https://klingai.kuaishou.com　

【新闻】

小米

将大力投入大模型，逐步搭建 GPU 万卡集群　

小米正在着手搭建自己的 GPU 万卡集群，将对 AI 大模型大力投入。小米大模型团队在成立时已有 6500 张 GPU 资源。几天之前，有消息传出，DeepSeek-V2 关键开发者之一罗福莉将加入小米，或供职于小米 AI 实验室，领导小米大模型团队 ?媒体报道　

【新闻】

理想汽车

发力大模型，理想同学 App 已上线　

李想在接受访谈时，提出了理想汽车 AI 战略的三阶段规划：增强能力阶段（AI 辅助，如 L3 自动驾驶）、智能体阶段（AI 独立完成任务，如 L4 自动驾驶）、硅基家人阶段（AI 成为家庭成员，管理家庭事务）。长期目标是到 2030 年成为全球 AI 领导者，在空间智能和大语言模型领域跻身国内前三。　

理想同学 App 是理想汽车推出的智能助手，支持多终端互联、语音交互、远程控制和个性化服务，依托大模型和 AI 技术提供流畅体验 ?官方介绍　

Q：你们买车会看中这个吗？　

https://www.lixiang.com　

【新闻】

OpenAI

正式宣布成为盈利性公司　

OpenAI 计划将其营利性部门转变为特拉华州公益企业（PBC），同时保留非营利部门专注于慈善事业。通过股权融资和新的商业架构，OpenAI 旨在筹集更多资金，确保技术领先地位，同时为非营利部门提供可持续支持。　

然而这一转型引发了广泛争议。Elon Musk 等批评者认为 OpenAI 背离了其最初的使命，Meta 等公司也担忧这一模式可能对行业产生负面影响。　

https://www.theverge.com/2024/12/27/24330131/openai-plan-transform-for-profit-company　

【新闻】

上海市人民政府办公厅

打造世界级人工智能产业集群　

上海市人民政府办公厅印发《关于人工智能“模塑申城”的实施方案》，指出加快建设人工智能“上海高地”，打造世界级人工智能产业集群。　

方案提出，到 2025 年底，上海将建成世界级人工智能产业生态，力争智能算力规模突破 100EFLOPS，形成 50 个行业开放语料库示范应用成果，并建设 3-5 个大模型创新加速孵化器。重点任务包括强化基础底座赋能、加快关键生产力工具打造、推动重点垂直领域应用和加速创新应用生态构建等。　

对比下来，那还是深圳人实在，直接就说怎么发钱 ?　

https://www.shanghai.gov.cn/nw12344/20241227/670ecb743f954adfbc4fa60aaf3c688b.html　

12 月 30 日

【视频】

爱诗科技 AIsphere

PixVerse V3.5 上线　

PixVerse V3.5 主要性能亮点包括：　

极速视频生成：在 Turbo 模式下平均仅需 10 秒即可生成高质量视频，最快可达 5 秒。　

动漫生成效果显著提升：支持通过文本提示或上传图片生成特定风格的动漫视频。　

支持 1080p 高清画质：甚至可升级至 4K 分辨率，生成的视频更加细腻生动。　

新增首尾帧功能：用户可以通过上传两张图片并描述变化过程，生成流畅的过渡视频 ?官方报道　

生成速度是个极大的优势 ⚡　

https://app.pixverse.ai/onboard　

【应用】

阿里巴巴 ● 支付宝

探一下，新一代 AI 视觉搜索应用　

探一下，是一款 AI 视觉搜索应用，覆盖知识探索、灵感创作、文本翻译等多场景需求，比如可以用来识别花草宠物、照片解读、配图文案写作、外文识别与翻译、AR 拍照扫描等 ?官方发布　

使用入口：支付宝首页「扫一扫」功能左划进入，或在支小宝 App 中快速访问。　

12 月 31 日

【模型】

智谱 AI

GLM-Zero-Preview 视觉推理模型（预览版）　

GLM-Zero-Preview 是 GLM-Zero 模型的初代版本，是智谱首个基于扩展强化学习技术训练的推理模型，用户上传文字或图片，模型会输出完整推理过程。　

模型擅长处理数理逻辑、代码和需要深度推理的复杂问题，在 AIME 2024、MATH500 和 LiveCodeBench 评测中，效果与 OpenAI o1-preview 相当。　

使用入口：登录智谱清言（chatglm.cn），选择「Zero 推理模型」智能体免费使用；API 已经上线智谱开放平台（bigmodel.cn）。　

【新闻】

本月中美芯片领域博弈时间线

2024 年 12 月，中美芯片领域博弈进一步升级。中国对英伟达的立案调查和行业协会的联合声明，标志着中国在芯片自主化方面的坚定立场。英伟达也受到了全球范围内的多重挑战。　

12 月 2 日：美国商务部宣布对华半导体出口管制新规，将 140 家中国企业列入实体清单，限制高带宽内存（HBM）芯片、半导体制造设备及软件工具的出口。　

12 月 3 日：中国四大行业协会发布联合声明，指出美国芯片产品不再安全可靠，呼吁中国企业谨慎采购美国芯片。　

12 月 9 日：中国国家市场监管总局宣布对英伟达涉嫌违反《反垄断法》及未履行收购迈络思的附加限制性条件进行立案调查。英伟达股价应声下跌，市值蒸发 6400 亿元。　

12 月 9 日：英伟达首次回应，表示「凭借实力取胜」，愿意配合监管机构调查，强调其产品对客户的价值。　

12 月 10 日：英伟达第二次回应，重申其遵守市场规则，强调中国市场的重要性，并表示将继续履行承诺。　

12 月 20 日：美国贸易代表宣布对中国成熟制程芯片启动 301 调查，可能对中国芯片进口实施关税或其他贸易限制。　

跳转微信打开

AI 行业大事记

本月趋势观察

? 时光机

12 月 1 日

12 月 2 日

12 月 3 日

12 月 4 日

12 月 5 日

12 月 6 日

12 月 7 日

12 月 8 日

12 月 9 日

12 月 10 日

12 月 11 日

12 月 12 日

12 月 13 日

12 月 14 日

12 月 15 日

12 月 16 日

12 月 17 日

12 月 18 日

12 月 19 日

12 月 20 日

12 月 21 日 （无）

12 月 22 日

12 月 23 日

12 月 24 日

12 月 25 日

12 月 26 日

12 月 27 日

12 月 28 日 （无）

12 月 29 日 （无）

12 月 30 日

12 月 31 日

12 月 1 日

【模型】

Prime Intellect

【应用】

Freysa

【新闻】

奇绩创坛

【新闻】

Google DeepMind

【新闻】

Lilian Weng （翁荔）

12 月 2 日

【模型】

Cohere

【3D】

World Labs （李飞飞）

【图像】

字节跳动 ● 即梦 AI

【新闻】

AWS re:Invent 2024

12 月 3 日

【视频】

腾讯 ● 混元

【视频】

Minimax ● 海螺 AI

【应用】

商汤

12 月 4 日

【3D】

Google DeepMind

【新闻】

Y Combinator Fall 2024

【新闻】

12 月 5 日

【模型】

OpenAI ⋙ Day 1

【模型】

上海人工智能实验室

【音频】

Fish Audio

【应用】

Microsoft Edge

【新闻】

识因智能

12 月 6 日

【模型】

12 月 21 日（无）

12 月 28 日（无）

12 月 29 日（无）