我爱计算机视觉 2024年11月21日
热门开源大模型集合!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近年来,随着ChatGPT的爆火,大模型开发热潮涌现,推动了人工智能技术的快速发展。本文旨在介绍近两年来备受关注的开源大语言模型,例如Llama、Gemma、Qwen、InternLM和Baichuan等,为开发者提供一个快速了解和探索这些模型的窗口。此外,趋动云『社区项目』已成功引入多款热门大语言模型,并提供一键克隆部署体验,方便开发者快速上手。文章详细介绍了每个模型的参数量、版本更新、性能特点以及开源地址等信息,并提供了趋动云社区项目中相关模型的体验教程链接,帮助开发者更好地理解和应用这些模型。

🚀 **Llama系列模型**: 由Meta开源,包括Llama 1、Llama 2、Llama 3和CodeLlama等,参数量从7B到70B不等,不断提升上下文长度、语料库规模和训练效率,并专注于代码生成方向,如CodeLlama。

💡 **Gemma系列模型**: 由谷歌开源,参数量较小,但与Gemini共享技术,如Gemma 2,提供预训练和指令调优版本,性能提升显著,部署要求降低。

💻 **Qwen系列模型**: 由阿里开发,包括Qwen 1、Qwen 1.5、Qwen 2和Qwen 2.5等,提供多种参数量版本,支持多语言,不断更新迭代,兼顾性能、效率和内存占用。

📚 **InternLM系列模型**: 由上海AI Lab发布,包括InternLM和InternLM2系列,提供不同参数量版本,涵盖基础模型、对话模型、数学推理模型和奖励模型等,性能优异,且持续更新。

🌐 **Baichuan系列模型**: 由百川智能开发,支持中英双语,提供Base、Chat和Chat-4bits版本,上下文窗口长度为4096,不断提升训练语料规模和模型性能,并开源可商用。

算力君 2024-11-21 14:15 江苏

趋动云『社区项目』,一键克隆,即刻体验大热大模型部署

自2022年年底ChatGPT的火爆出圈以来,大模型开发的热潮如雨后春笋般涌现,推动了人工智能技术的飞速发展。本文旨在收集并介绍近两年大热的开源大语言模型,为开发者提供一个快速了解并认识最新、最热大模型的窗口。

此外,趋动云『社区项目』已经成功引入了多款热门的大语言模型,诚邀广大开发者前来体验与探索。

Llama

Llama 1 在 2023 年 2 月发布,参数量分别有7B、13B、30B 和 65B 四个版本。

同年 7 月发布了 Llama 2,参数量分别有 7B、13B、34B 和 70B 四个版本。相较于一代,二代将预训练的语料 token 数量扩充到了 2T(万亿),同时将模型的上下文长度从 2048 翻倍到了 4096,并引入分组查询注意力机制(grouped-query attention, GQA)技术,更好的权衡了最佳性能最佳性能(multi-query attention,MQA)和最佳模型质量(multi-head attention,MHA)之间的关系。

基于二代,8月份又发布了专注于代码生成的CodeLlama,参数量分别有 7B、13B、34B 和 70B 四个版本。

今年 4 月份,发布了 Llama 3,包括 8B 和70B 两个参数量版本。相比二代,三代支持 8K 长文本,并采用了编码效率更高的 tokenizer,词表的大小为 128K。token 的语料库超过 15T,超二代 7 倍还多。

开源团队:Meta

参考文献:

趋动云『社区项目』中相关项目体验教程:

Gemma

Gemma 是今年年初谷歌开源的一个小尺寸大语言模型,参数量有 2B 和 7B 两个版本,亮点是与自家最强的大模型 Gemini 共享同一套技术。

年中,又推出 Gemma 2,提供两种规模参数版本:9B 和 27B,每种规模又分为预训练基础版和指令调优版,总共四个版本。其中,27B 模型经过训练处理了 13 万亿个 tokens,而 9B 模型则是 8 万亿个 tokens。

相较于一代,Gemma 2在性能上有了显著提升,而部署要求却大幅降低。

参考文献:

趋动云『社区项目』中相关项目体验入口:

Qwen

Qwen(通义千问)是阿里开发的大语言模型,自 2023 年 4 月开放测试,8 月开源 7B 模型,12 月开源 72B;

至 2024 年 3 月开放了 Qwen1.5-32B,6 月开放 Qwen2,9 月开放 Qwen2.5,额外增加了 3B、14B 和 32B 参数量版本,

最大限度兼顾性能、效率和内存占用的平衡,Qwen 系列的不断更新,为开源社区做出了贡献。

系列名称参数量语言支持种类tokens最大上下文长度
Qwen 11.8B、7B、14B 和 72B 四个版本以中文和英文为主达 3 万亿32K
Qwen 1.50.5B、1.8B、4B、7B、14B 和 72B 六个版本12 种语言7T32K
Qwen 120.5B、1.5B、7B、57B 和 72B 五个版本达 27 种12 T128K
Qwen 2.50.5B、1.5B、3B、7B、14B、32B 和 72B 七个版本超 29 种达 18T128K

参考文献:

趋动云『社区项目』中相关项目体验入口:

InternLM

2023 年 9 月上海 AI Lab 发布 InternLM-20B,包括 base+chat 两版,同年 12 月更新了 InternLM-7B-Chat 和 InternLM-20B-Chat 模型权重。

2024 年 1 月相继发布了

3 月发布 InternLM2 技术报告;
6 月发布 InternLM2.5-7B、InternLM2.5-7B-Chat 和 InternLM2.5-7B-Chat-1M;
7 月发布了 1.8B、7B 和 20B 大小的 InternLM2-Reward 系列奖励模型;
8 月发布了 InternLM2.5-1.8B、InternLM2.5-1.8B-Chat、InternLM2.5-20B 和 InternLM2.5-20B-Chat。

参考文献:

Baichuan

Baichuan 是百川智能开发的一个开源可商用的大规模预训练语言模型,支持中英双语,上下文窗口长度为 4096。首先开放了 Baichuan-7B 版,随后更新了 Baichuan-13B 版,该版本训练语料 tokens 达 1.4 万亿 ,超过 LLaMA-13B 40%。

至 Baichuan 2 版中,训练语料 tokens 达 2.6 万亿,发布版本包括Base(7B、13B)、Chat(7B、13B)和Chat-4bits(7B、13B)。

参考文献:

趋动云『社区项目』中相关项目体验入口:


趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。
趋动云的使命是连接算力·连接人:
?通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。
?通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。

趋动云
连接算力・连接人


注册即领
10元
算力金
更多福利,扫码添加小助手 邀你入群~
做新手任务
再得180元算力金
请注册后联系小助手,获取新手任务

▼HOT 趋动云火热注册中!点击 “阅读原文” 即可尝鲜~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

开源大模型 Llama Gemma Qwen 趋动云
相关文章