36kr 05月14日 16:34
说一下现在我做AI产品经理,使用的几个开源模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文为AI产品经理提供了选择和部署开源模型的实用指南。文章介绍了国内和国外多个主流开源模型,包括阿里通义千问、DEEPSEEK R1/V3、Llama 4等,并根据不同应用场景,如通用文本生成、手机端部署、视频生成、语音识别等,推荐了相应的模型。同时,文章还探讨了模型分类与组合的问题,以及多模型协作时可能遇到的挑战,旨在帮助产品经理更好地利用开源模型构建AI产品。

🔑阿里通义千问:作为国内出品的开源模型,无需担心合规性问题,且支持多模态和视觉,参数量相对较小,适合国内场景使用。

💡DEEPSEEK R1 与V3:如果追求快速输出结果,则选择V3模型;如果关注深度推理和思考,则选择R1模型。V3是全能型大语言模型,采用混合专家系统架构,能够在保证精准度的同时节省算力。

📱BitNet b1.58:微软的BitNet b1.58模型参数较低,能在手机CPU等性能有限的设备上本地化运行,大幅降低大模型推理的能耗,达到人类阅读速度。

🌐Llama 4:Facebook孵化的开源模型,是国外开源领域的领先者,支持多模态,通过“早期融合”技术整合文本、图像、视频等模态数据,适用于医学、科学等领域。

🧩模型组合与协作:构建数字人产品系统等复杂应用场景时,需要将文本生成、语音识别等多种模型进行对接与整合,但可能面临计算流程链路长、响应速度慢等问题。

做AI产品经理,自然就必须要接触到AI模型。

除了调用API之外,有不少产品经理也会希望团队做私有化部署,通过自己搭建AI模型来个性化完成自己的功能设计,并且保证了数据安全。

但是不同模型的参数不一样,所以需要的硬件资源也不一样。比如现在DEEPSEEK 需要理论上700GB的显存,最低要求512GB显存,除了我分享的Mac studio ultra 之外,就是购买几十上百万的GPU显卡服务器了。

而有的模型则不需啊摇这么大的显存,参数越小就成员就越低

所以今天这篇文章分享下,我在博士研究以及产品研发工作里,针对不同的应用场景选择的一些开源模型,除了建设端到端外的能力,还有很多多模态建设的场景需求,这些都是考虑不同的模型能力。

但由于政策法规原因,有的AI模型在国内难以通过备案审核,也就无法谈及落地了。

是如果面对国内用户,产品经理还只能选择国产的模型。在不同的场景、用户要考虑不同模型的选择,甚至是模型的组合。

从模型榜单里面筛选模型:推荐一个模型榜单 LLM rankings

在这里可看到各类模型的榜单,有了模型的榜单之后再去 https://huggingface.co/上去找开源模型下载。

先看下模型榜单,可以看到现在国内开源类模型的DEEPSEEK R1 和V3是领先。

当然现在的榜单有很多,不同的榜单关注点不一样,有的只关注开源的模型,有的则只关注聊天,有的则在推理能力测评。所以找到自己所需要的榜单也很重要,这一点可以可以参考一些主流榜单。

下面我来分享下,我们开源部署的几个主流模型。

适合国内用户的大模型

1.阿里通义qwen3.0

选择支持多模态,以及视觉,并且阿里同义千问的参数并没有DEEPSEEK 那么大,在显存上的占用少。

我们优化了 Qwen3 模型的 Agent 和 代码能力,同时也加强了对 MCP 的支持。下面我们将提供一些示例,展示 Qwen3 是如何思考并与环境进行交互的。

阿里同义千问在国内场景使用肯定没有问题的,由于是国内出品,所以在开源上使用完全不用担心合规性。

2.DEEPSEEK R1 与V3

两个模型都可以使用,但是如果你想快点输出结果,则使用DEEPSEEK V3 ,如果需要其推理以及关注如何做深度思考,那么R1模型。

作DeepSeek的默认模型,V3是全能型大语言模型(LLM),是一种能够处理通用任务的工具,采用混合专家系统(MoE)架构,能针对不同任务激活特定的“专家"模块,在保证精准度的同时节省算力。

3.国内的其他开源模型

目前国内能够使用,并达到国际水平的就通用文本生成,我们就选择这2个模型,当然如果你专注在某个行业或场景,比如医疗、金融就有百川、 智普通,专注在视频生成就有腾讯混元模型,就可以选择一些特定的开源模型。不过这些模型只能在特定行业有效果,但是从目前来看,通用模型的能力会涉及到这些行业,用户的场景不仅是在某个行业,仍然会有跨行业。

4.适合CPU等手机端部署的开源模型

因为手机的CPU与GPU性能有限,所以我们可以选的大模型要参数较低,为了能够使用在手机本地化运行,现在选用、微软的bitnetb1.58,大模型推理的能耗可大幅下降,性能优越,可在单个CPU上运行 100B 参数的 BitNet b1.58 模型,达到人类阅读速度(5-7 tokens/s)。BitNet 框架,为在手机、边缘终端等设备上运行大模型成为可能

而在国外,可以选择的开源模型如下

llama4

facebook孵化的第一个开源模型,现在国外开源领先团队,并且支持多模态。模型通过“早期融合”将文本、图像、视频等模态数据统一整合至模型骨干,支持联合预训练。例如,Llama 4 Scout可处理1000万token的上下文(相当于15000页文本),并支持多图像输入(最多48张),在医学、科学等领域潜力显著。

LTX-Video Model Card

一款支持文本生成视频的模型,现在如果你希望生成一些素材,可以用此模型。将其生成对应的视频素材

Parakeet TDT 0.6B V2

支持文本转语音,将其文本能力变成语音能力生成模型。

Stable Diffusion v1-4 Model Card

支持文字生成图像模型, 也就是现在最火的图片校准,将其模型生成图片,并且支持文字生成图片

Whisper

也是一个语音识别模型,将其语音转为文字,可以支持机器人学习,要配合TTS就可以进行文本对话了。

fastvlm

这是苹果推出的苹果视觉模型,可以快速地识别物体并进行语言模型的调用并回答。

模型机制

不同模型的分类与组合,构建产品经理的场景

我们将模型可以分为生成文本、生成图片、生成视频、生成语音,不同的模型使用的数据类型不一样,但是现在我们最多会通用的生成一些图片,但是其他的场景功能就要区分了。

这就回涉及到多个模型协作,如果我们做数字人的产品系统,就需要文本生成、还要对应的语音识别,这需要多个模型的对接与整合。

这就涉及到非端到端模型的劣势了,其计算流程链路长,导致响应速度过慢的问题。如上是我们做的数字人,可以看到响应较慢,就涉及到了多个模型的调用。

选择开源模型就是有几个,其中分别有ASR、TTS、以及DEEPSEEK V3。不过作为AI产品经理可以看见,学习的难度与门槛越来越高,至少要对英文熟悉,同时还要有时间去了解这些开源模型的帮助文档。

本文来自微信公众号“Kevin改变世界的点滴”(ID:Kevingbsjddd),作者:Kevin那些事儿,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 开源模型 产品经理 多模态 DEEPSEEK
相关文章