原创 PaperAgent 2024-07-19 11:53 湖北
基于大模型过往的发展趋势,特别是今天GPT-4o Mini、Mistral NeMo接连发布,AI大佬Andrej Karpathy做出如下预判:“我们会看到一些非常非常小的模型,它们能够“思考”得非常好且可靠”;而且大模型的发展路线是:“模型必须首先变得更大,然后才能变得更小”。
观点解读
大模型现状:当前模型之所以如此庞大,是因为在训练过程中非常浪费,要记住大量知识——整个互联网,甚至要记住常见数字的SHA哈希值,导致这些知识与“思考"能力交织在一起。
训练数据的优化:为了实现更小但更智能的模型,需要首先让模型变得更大,以便它们能够自动帮助重构和优化训练数据。这是一个逐步改进的阶梯式过程,一个模型帮助生成下一个模型的训练数据,直至得到“完美的训练集”。
小模型的可能:尽管GPT-2 规模的模型可能在某些方面(如多模态语言理解能力)不如更大的模型,但是如果在完美训练集上训练,也可能成为非常强大/聪明的模型,更加智能。
大模型+小模型协同
如果小型模型能够表现良好,那么使用更多的小型模型来生成每个回答是有意义的。可以让10个助手生成一个答案/视频/音频,然后让最终的(最聪明的)助手汇总最佳回答。
OpenAI GPT-4o Mini
GPT-4o Mini的MMLU 得分为 82%,其质量超过了其他较小模型,包括 Gemini 1.5 Flash(79%)和 Claude 3 Haiku(75%)。
GPT-4o Mini价格低廉,它的价格也比这些模型更便宜。报道的价格为 0.15 美元/100 万个输入token和 0.6 美元/100 万个输出token。
GPT-4o Mini且上下文窗口大,为 128k,对于长上下文用例(包括大型文档 RAG)来说,非常引人注目。
https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
Mistral NeMo
Mistral NeMo是Mistral AI与NVIDIA最新推出的最佳小型模型。这是一种最先进的 12B 模型,上下文长度为 128k,并根据 Apache 2.0 许可发布。在10B 这个级别,Gemma 刚领先了不到两周,Mistral NeMo 又来了。
https://mistral.ai/news/mistral-nemo/
https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。