PaperAgent 2024年07月19日
大模型越来越小,并且更加智能!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI领域的重量级人物Andrej Karpathy预测,未来将出现非常小但能“思考”得非常好的模型。他认为模型的发展路线是先变大后变小,目前模型的庞大是因为训练过程中的知识浪费。为了优化训练数据,需要通过逐步增大模型来实现。同时,小型模型在完美训练集上也可能表现出色,未来可能实现大模型与小模型的协同工作。

🌟Andrej Karpathy预测,未来将出现非常小但能“思考”得非常好的模型,这是模型发展的新趋势。

🔍当前模型之所以庞大,是因为在训练过程中需要记住大量知识,包括整个互联网的内容,以及常见数字的SHA哈希值,这些知识与“思考”能力交织在一起。

🚀为了实现更小但更智能的模型,需要首先让模型变得更大,以便它们能够自动帮助重构和优化训练数据,这是一个逐步改进的阶梯式过程。

🌱尽管小型模型如GPT-2可能在某些方面不如大型模型,但如果在完美训练集上训练,它们也可能成为非常强大/聪明的模型。

🤝大模型与小模型的协同工作模式将成为可能,使用多个小型模型生成答案,然后由最聪明的模型汇总最佳回答。

原创 PaperAgent 2024-07-19 11:53 湖北

基于大模型过往的发展趋势,特别是今天GPT-4o MiniMistral NeMo接连发布,AI大佬Andrej Karpathy做出如下预判:“我们会看到一些非常非常小的模型,它们能够“思考”得非常好且可靠”;而且大模型的发展路线是:“模型必须首先变得更大,然后才能变得更小”。

观点解读

大模型+小模型协同

如果小型模型能够表现良好,那么使用更多的小型模型来生成每个回答是有意义的。可以让10个助手生成一个答案/视频/音频,然后让最终的(最聪明的)助手汇总最佳回答。

OpenAI GPT-4o Mini

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

Mistral NeMo

Mistral NeMo是Mistral AI与NVIDIA最新推出的最佳小型模型。这是一种最先进的 12B 模型,上下文长度为 128k,并根据 Apache 2.0 许可发布。在10B 这个级别,Gemma 刚领先了不到两周,Mistral NeMo 又来了。

https://mistral.ai/news/mistral-nemo/https://huggingface.co/mistralai/Mistral-Nemo-Base-2407

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Andrej Karpathy AI模型 小型模型 训练数据优化 模型协同
相关文章