大模型越来越小，并且更加智能！

原创 PaperAgent 2024-07-19 11:53 湖北

基于大模型过往的发展趋势，特别是今天GPT-4o Mini、Mistral NeMo接连发布，AI大佬Andrej Karpathy做出如下预判：“我们会看到一些非常非常小的模型，它们能够“思考”得非常好且可靠”；而且大模型的发展路线是：“模型必须首先变得更大，然后才能变得更小”。

观点解读

大模型现状：当前模型之所以如此庞大，是因为在训练过程中非常浪费，要记住大量知识——整个互联网，甚至要记住常见数字的SHA哈希值，导致这些知识与“思考"能力交织在一起。

训练数据的优化：为了实现更小但更智能的模型，需要首先让模型变得更大，以便它们能够自动帮助重构和优化训练数据。这是一个逐步改进的阶梯式过程，一个模型帮助生成下一个模型的训练数据，直至得到“完美的训练集”。

小模型的可能：尽管GPT-2 规模的模型可能在某些方面（如多模态语言理解能力）不如更大的模型，但是如果在完美训练集上训练，也可能成为非常强大/聪明的模型，更加智能。

大模型+小模型协同

如果小型模型能够表现良好，那么使用更多的小型模型来生成每个回答是有意义的。可以让10个助手生成一个答案/视频/音频，然后让最终的（最聪明的）助手汇总最佳回答。

OpenAI GPT-4o Mini

GPT-4o Mini的MMLU 得分为 82%，其质量超过了其他较小模型，包括 Gemini 1.5 Flash（79%）和 Claude 3 Haiku（75%）。

GPT-4o Mini价格低廉，它的价格也比这些模型更便宜。报道的价格为 0.15 美元/100 万个输入token和 0.6 美元/100 万个输出token。

GPT-4o Mini且上下文窗口大，为 128k，对于长上下文用例（包括大型文档 RAG）来说，非常引人注目。

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

Mistral NeMo

Mistral NeMo是Mistral AI与NVIDIA最新推出的最佳小型模型。这是一种最先进的 12B 模型，上下文长度为 128k，并根据 Apache 2.0 许可发布。在10B 这个级别，Gemma 刚领先了不到两周，Mistral NeMo 又来了。

https://mistral.ai/news/mistral-nemo/https://huggingface.co/mistralai/Mistral-Nemo-Base-2407

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签