做AI产品经理,自然就必须要接触到AI模型。
除了调用API之外,有不少产品经理也会希望团队做私有化部署,通过自己搭建AI模型来个性化完成自己的功能设计,并且保证了数据安全。
但是不同模型的参数不一样,所以需要的硬件资源也不一样。比如现在DEEPSEEK 需要理论上700GB的显存,最低要求512GB显存,除了我分享的Mac studio ultra 之外,就是购买几十上百万的GPU显卡服务器了。
而有的模型则不需啊摇这么大的显存,参数越小就成员就越低
所以今天这篇文章分享下,我在博士研究以及产品研发工作里,针对不同的应用场景选择的一些开源模型,除了建设端到端外的能力,还有很多多模态建设的场景需求,这些都是考虑不同的模型能力。
但由于政策法规原因,有的AI模型在国内难以通过备案审核,也就无法谈及落地了。
是如果面对国内用户,产品经理还只能选择国产的模型。在不同的场景、用户要考虑不同模型的选择,甚至是模型的组合。
从模型榜单里面筛选模型:推荐一个模型榜单 LLM rankings
在这里可看到各类模型的榜单,有了模型的榜单之后再去 https://huggingface.co/上去找开源模型下载。
先看下模型榜单,可以看到现在国内开源类模型的DEEPSEEK R1 和V3是领先。
当然现在的榜单有很多,不同的榜单关注点不一样,有的只关注开源的模型,有的则只关注聊天,有的则在推理能力测评。所以找到自己所需要的榜单也很重要,这一点可以可以参考一些主流榜单。
下面我来分享下,我们开源部署的几个主流模型。
适合国内用户的大模型
1.阿里通义qwen3.0
选择支持多模态,以及视觉,并且阿里同义千问的参数并没有DEEPSEEK 那么大,在显存上的占用少。
我们优化了 Qwen3 模型的 Agent 和 代码能力,同时也加强了对 MCP 的支持。下面我们将提供一些示例,展示 Qwen3 是如何思考并与环境进行交互的。
阿里同义千问在国内场景使用肯定没有问题的,由于是国内出品,所以在开源上使用完全不用担心合规性。
2.DEEPSEEK R1 与V3
两个模型都可以使用,但是如果你想快点输出结果,则使用DEEPSEEK V3 ,如果需要其推理以及关注如何做深度思考,那么R1模型。
作DeepSeek的默认模型,V3是全能型大语言模型(LLM),是一种能够处理通用任务的工具,采用混合专家系统(MoE)架构,能针对不同任务激活特定的“专家"模块,在保证精准度的同时节省算力。
3.国内的其他开源模型
目前国内能够使用,并达到国际水平的就通用文本生成,我们就选择这2个模型,当然如果你专注在某个行业或场景,比如医疗、金融就有百川、 智普通,专注在视频生成就有腾讯混元模型,就可以选择一些特定的开源模型。不过这些模型只能在特定行业有效果,但是从目前来看,通用模型的能力会涉及到这些行业,用户的场景不仅是在某个行业,仍然会有跨行业。
4.适合CPU等手机端部署的开源模型
因为手机的CPU与GPU性能有限,所以我们可以选的大模型要参数较低,为了能够使用在手机本地化运行,现在选用、微软的bitnetb1.58,大模型推理的能耗可大幅下降,性能优越,可在单个CPU上运行 100B 参数的 BitNet b1.58 模型,达到人类阅读速度(5-7 tokens/s)。BitNet 框架,为在手机、边缘终端等设备上运行大模型成为可能。
而在国外,可以选择的开源模型如下
llama4
facebook孵化的第一个开源模型,现在国外开源领先团队,并且支持多模态。模型通过“早期融合”将文本、图像、视频等模态数据统一整合至模型骨干,支持联合预训练。例如,Llama 4 Scout可处理1000万token的上下文(相当于15000页文本),并支持多图像输入(最多48张),在医学、科学等领域潜力显著。
LTX-Video Model Card
一款支持文本生成视频的模型,现在如果你希望生成一些素材,可以用此模型。将其生成对应的视频素材
Parakeet TDT 0.6B V2
支持文本转语音,将其文本能力变成语音能力生成模型。
Stable Diffusion v1-4 Model Card
支持文字生成图像模型, 也就是现在最火的图片校准,将其模型生成图片,并且支持文字生成图片
Whisper
也是一个语音识别模型,将其语音转为文字,可以支持机器人学习,要配合TTS就可以进行文本对话了。
fastvlm
这是苹果推出的苹果视觉模型,可以快速地识别物体并进行语言模型的调用并回答。
模型机制
不同模型的分类与组合,构建产品经理的场景
我们将模型可以分为生成文本、生成图片、生成视频、生成语音,不同的模型使用的数据类型不一样,但是现在我们最多会通用的生成一些图片,但是其他的场景功能就要区分了。
这就回涉及到多个模型协作,如果我们做数字人的产品系统,就需要文本生成、还要对应的语音识别,这需要多个模型的对接与整合。
这就涉及到非端到端模型的劣势了,其计算流程链路长,导致响应速度过慢的问题。如上是我们做的数字人,可以看到响应较慢,就涉及到了多个模型的调用。
选择开源模型就是有几个,其中分别有ASR、TTS、以及DEEPSEEK V3。不过作为AI产品经理可以看见,学习的难度与门槛越来越高,至少要对英文熟悉,同时还要有时间去了解这些开源模型的帮助文档。
本文来自微信公众号“Kevin改变世界的点滴”(ID:Kevingbsjddd),作者:Kevin那些事儿,36氪经授权发布。