常见的 AI 模型格式

来源：博客链接

过去两年，开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布，并被用于实际应用中。然而，开发者在使用这些模型时面临的一个挑战是模型格式的多样性。

在本文中，我们将探讨当下常见的 AI 模型格式，包括：

GGUF

PyTorch

Safetensors

ONNX

我们将分析每种格式的优缺点，并提供使用建议，帮助你选择最适合的格式。

GGUF

GGUF 最初是为 llama.cpp 项目开发的。GGUF 是一种二进制格式，旨在实现快速的模型加载和保存，并易于阅读。模型通常使用 PyTorch 或其他框架开发，然后转换为 GGUF 格式以与 GGML 一起使用。

随着时间的推移，GGUF 已成为开源社区中共享 AI 模型最流行的格式之一。它得到了许多知名推理运行时的支持，包括 llama.cpp、ollama 和 vLLM。

目前，GGUF 主要用于语言模型。虽然也可以将其用于其他类型的模型，例如通过 stable-diffusion.cpp 实现的扩散模型，但这并不像在语言模型中的应用那样普遍。

GGUF 文件包含以下部分：

一个以键值对组织的元数据部分。该部分包含有关模型的信息，例如其架构、版本和超参数。一个张量元数据部分。该部分包括模型中张量的详细信息，例如它们的形状、数据类型和名称。最后，一个包含张量数据本身的部分。

GGUF 格式和 GGML 库还提供了灵活的量化方案，能够在保持良好精度的同时实现高效的模型存储。一些最常见的量化方案包括：

Q4_K_M

IQ4_XS

重要性矩阵

IQ2_M

IQ4_XS

Q8_0

GGUF 格式的 Llama-3.1 8B 模型示例，链接在此

让我们回顾一下 GGUF 的优缺点：

优点

mmap()

缺点

大多数模型需要从其他格式（如 PyTorch、Safetensors）转换为 GGUF。并非所有模型都可转换。部分模型不受 llama.cpp 支持。模型保存为 GGUF 格式后，修改或微调并不容易。

GGUF 主要用于生产环境中的模型服务，其中快速加载时间至关重要。它也用于开源社区内的模型共享，因为其格式简单，便于分发。

有用资源：

PyTorch (.pt/.pth)

.pt/.pth 扩展名代表 PyTorch 的默认序列化格式，存储包含学习参数（权重、偏置）、优化器状态和训练元数据的模型状态字典。

PyTorch 模型可以保存为两种格式：

.pt

.pth

PyTorch 格式基于 Python 的 pickle 模块，该模块用于序列化 Python 对象。为了理解 pickle 的工作原理，让我们看以下示例：

import picklemodel_state_dict = { "layer1": "hello", "layer2": "world" }pickle.dump(model_state_dict, open("model.pkl", "wb"))

The pickle.dump() 函数将 model_state_dict 字典序列化并保存到名为 model.pkl. 的文件中。输出文件现在包含字典的二进制表示:

model.pkl hex view

要将序列化的字典加载回 Python，我们可以使用 pickle.load() 函数:

import picklemodel_state_dict = pickle.load(open("model.pkl", "rb"))print(model_state_dict)

如你所见，pickle 模块提供了一种简单的方法来序列化 Python 对象。然而，它也有一些局限性：

安全性

包括恶意代码

pickle 文件如何被植入后门

效率

加载速度慢

内存使用率高

可移植性

如果你仅在 Python 和 PyTorch 环境中工作，PyTorch 格式可能是一个合适的选择。然而，近年来，AI 社区一直在转向更高效和安全的序列化格式，例如 GGUF 和 Safetensors。

有用资源：

Safetensors

由 Hugging Face 开发的 safetensors 解决了传统 Python 序列化方法（如 PyTorch 使用的 pickle）中存在的安全性和效率问题。该格式使用受限的反序列化过程来防止代码执行漏洞。

一个 safetensors 文件包含：

注意：虽然在理论上元数据可以保存在文件中，但在实践中，模型元数据通常存储在一个单独的 JSON 文件中。这既可能是优点也可能是缺点，具体取决于使用场景。

safetensors 格式是 Hugging Face 的 transformers 库使用的默认序列化格式。它在开源社区中广泛用于共享、训练、微调和部署 AI 模型。Hugging Face 上发布的新模型都以 safetensors 格式存储，包括 Llama、Gemma、Phi、Stable-Diffusion、Flux 等许多模型。

有用资源：

ONNX

开放神经网络交换（Open Neural Network Exchange，ONNX）格式提供了一种与供应商无关的机器学习模型表示方法。它是 ONNX 生态系统的一部分，该生态系统包括用于不同框架（如 PyTorch、TensorFlow 和 MXNet）之间互操作的工具和库。

ONNX 模型以 .onnx 扩展名的单个文件保存。与 GGUF 或 Safetensors 不同，ONNX 不仅包含模型的张量和元数据，还包含模型的计算图。

在模型文件中包含计算图使得在处理模型时具有更大的灵活性。例如，当发布新模型时，你可以轻松地将其转换为 ONNX 格式，而无需担心模型的架构或推理代码，因为计算图已经保存在文件中。

ONNX 格式的计算图示例，由 Netron 生成

优点

灵活性：在模型文件中包含计算图使得在不同框架之间转换模型时更加灵活。可移植性：得益于 ONNX 生态系统，ONNX 格式可以轻松部署在各种平台和设备上，包括移动设备和边缘设备。

缺点

对量化张量的支持有限。ONNX 本身不支持量化张量，而是将它们分解为整数张量和比例因子张量。这可能导致在处理量化模型时质量下降。复杂架构可能需要为不支持的层使用操作符回退或自定义实现。这可能会在将模型转换为 ONNX 格式时导致性能损失。

总体而言，如果你正在处理移动设备或浏览器内推理，ONNX 是一个不错的选择。

有用资源：

硬件支持

在选择模型格式时，重要的是要考虑模型将部署在哪种硬件上。下表显示了每种格式的硬件支持建议：

硬件	GGUF	PyTorch	Safetensors	ONNX
CPU	✅ (最佳)	🟡	🟡	✅
GPU	✅	✅	✅	✅
移动设备部署	✅	🟡 (通过 executorch)	❌	✅
Apple 芯片	✅	🟡	✅ (通过 MLX 框架)	✅

说明：

✅: 完全支持🟡: 部分支持或性能较低❌: 不支持

结论

在本文中，我们探讨了当今使用的一些常见 AI 模型格式，包括 GGUF、PyTorch、Safetensors 和 ONNX。每种格式都有其自身的优缺点，因此根据具体的用例和硬件需求选择合适的格式至关重要。

脚注

mmap：内存映射文件是一种操作系统功能，允许将文件映射到内存中。这对于在不将整个文件加载到内存中的情况下读写大文件非常有益。

延迟加载（lazy-loading）：延迟加载是一种技术，它将数据的加载推迟到实际需要时。这有助于在处理大型模型时减少内存使用并提高性能。

计算图（computation graph）：在机器学习的上下文中，计算图是一种流程图，展示了数据如何通过模型流动以及每一步如何执行不同的计算（例如加法、乘法或激活函数的应用）。

英文原文: blog.ngxson.com/common-ai-m…
原文作者: Xuan Son Nguyen
译者: Adeena

GGUF

PyTorch (.pt/.pth)

Safetensors

ONNX

硬件支持

结论

脚注

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签