三花AI 03月03日
CSM 超真实 AI 语音对话模型;PhotoDoodle开源照片涂鸦框架,轻松添加艺术元素;DeepSeek 开源周第六弹
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文概述了AI领域的多个创新项目。Search-R1成功复现并创新了DeepSeek-R1的强化学习模型,使小模型具备工具调用能力。Conversational Speech Model致力于打造更真实、更具情感的AI语音助手。DeepSeek公布了高效的系统设计,实现了惊人的理论利润率。OlmOCR则提供了一款强大的开源OCR解决方案,能够高精度地提取文字并保留结构信息。此外,PhotoDoodle作为一个开源照片涂鸦框架,使用户能够轻松地在照片中添加艺术元素,为用户带来更多创作的可能性。

🔍Search-R1:首个开源复现 DeepSeek-R1 的创新强化学习模型,通过强化学习训练小模型,使其具备自主调用工具的能力,为AI模型小型化和自主学习提供了新思路。

🗣️Conversational Speech Model:Sesame 团队打造的超真实 AI 语音模型,旨在解决现有语音助手死板的问题,通过模拟真人对话,理解用户情绪,提供更自然、更具人情味的交互体验。

💰DeepSeek高效系统设计:DeepSeek 公布的系统设计原则,通过优化吞吐量和降低延迟,实现了高达 545% 的理论利润率,展示了AI系统在性能和成本控制方面的巨大潜力。

📚OlmOCR开源OCR解决方案:Allen Institute for AI 开发的开源 OCR 工具,能够从 PDF 或图片中高精度提取文字,并保留标题、表格等结构信息,甚至可以识别手写内容,为文档处理和信息提取提供了强大的支持。

🎨PhotoDoodle照片涂鸦框架:允许用户通过简单的文字提示,在真实照片中添加艺术化的装饰元素,例如手绘风格的图案、魔幻效果或卡通角色,同时保持原图的真实感,激发用户的创造力。

原创 小茸茸 2025-03-03 09:26 重庆

Search-R1首个开源复现 DeepSeek-R1 的创新强化学习模型;Conversational Speech Model AI语音模型;DeepSeek公布高效系统设计,理论利润率高达 545%;OlmOCR开源 OCR 解决方案

Search-R1:首个开源复现 DeepSeek-R1 的创新强化学习模型

Search-R1[1] 通过强化学习(RL)训练模型,使 3B 参数的小模型能够在推理过程中自主调用工具(如搜索)。

Search-R1 的灵感来源于 DeepSeek-R1,是首个成功复现 DeepSeek-R1 方法并加以创新的开源项目。

Search-R1 GitHub 页面: https://github.com/PeterGriffinJin/Search-R1

Conversational Speech Model:超真实 AI 语音模型

Sesame 团队弄了个叫 Conversational Speech Model (CSM) 的语音技术,其主要目的是解决现阶段语音助手那种“死板”的问题,让人觉得是在跟一个真人在说话,能听懂你情绪,还能跟你聊出点感觉来

他们还设计了两个演示角色:Maya(女声)和 Miles(男声)。根据用户反馈,这些角色确实表现出色。

例如,当你停下来不说话时,Maya 会主动询问“你咋了?”或者用之前聊过的梗儿来 cue 你。与那些只会“嗯嗯啊啊”的助手相比,CSM 更像是一个有灵魂的朋友。不过,目前它仅支持英语。

佬们可以在 Sesame 官网[2]上体验看看。

Sesame 官网: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

DeepSeek 公布高效系统设计,理论利润率高达 545%

DeepSeek 在开源周第六弹发布了系统设计原则[3],通过优化吞吐量和降低延迟,将性能和成本发挥到了极致。

他们晒出了 24 小时的实战成绩单:高峰时使用了 278 个节点(每节点配备 8 个 H800 GPU),平均使用 226.75 个节点。

单个节点能够处理 73.7k 输入 token/秒和 14.8k 输出 token/秒,全天吞吐量分别达到了 6080 亿和 1680 亿 token。

速度稳定在 20-22 token/秒,一天花费 8.7 万美元,却能赚取 56 万美元,利润率高达 545%。

DeepSeek 系统设计原则文档: https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

OlmOCR:开源 OCR 解决方案

OlmOCR[4] 是由 Allen Institute for AI 开发的一款开源 OCR 工具,专门用于从 PDF 或图片中提取文字,并保留标题、表格等结构信息,甚至能够识别手写内容。

该模型不仅识别精度高,还能理解阅读顺序,并输出 Markdown 格式。批量处理 100 万页 PDF 的成本仅为 190 美元,佬们可以在官网[5]上传几页进行测试下效果,或者选择自部署。

总体确实非常不错,不过音标识别方面还是差点意思。

OlmOCR GitHub 项目: https://github.com/allenai/olmocr
OlmOCR 官网: https://olmocr.allenai.org/

PhotoDoodle:开源照片涂鸦框架,轻松添加艺术元素

PhotoDoodle[6] 是一个开源的图像编辑框架,主要用于实现“照片涂鸦”(Photo Doodling)。

它允许用户通过简单的文字提示,在真实照片中添加艺术化的装饰元素,例如手绘风格的图案、魔幻效果或卡通角色,同时保持原图的真实感。

可以在官方的 Space 上在线体验[7],实测效果还行的。

PhotoDoodle GitHub 项目: https://github.com/showlab/PhotoDoodle
PhotoDoodle 在线体验: https://huggingface.co/spaces/ameerazam08/PhotoDoodle-Image-Edit-GPU

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 AI语音 OCR 系统设计 图像编辑
相关文章