2025-05-13 12:02 浙江
最近,我的朋友包包投入大量时间写了一本书,《百面大模型》(羊驼书),现已出版。
这本书核心目标是解决大模型从业者面试过程中的八股文难题,但也不局限于此,这本书也是一本QA形式的知识点合集,适合用来查漏补缺。
为什么写这本书?
写这本书的初心,其实不仅限于大模型本身。在几年前做这个公众号时候,我写过一篇文章,《班车日更80天,我收获了什么》,讲述了自己在上班通勤期间每天1500字输出内容的一段经历。在文章中提出了一个观点是,人需要建立一个自己定义的客观正反馈系统。
我举个例子,比如你是职场打工人,就一定能体会到这种感觉。
自己干的好不好,他是一个第三方评价者的一言堂相对评级。你们干得都很好,不好意思,公司对绩效和资源强制正态分配,我还得编个理由说服你接受。
在这样的环境下,你会发现很多人为了适应生存,做事的唯一动机和目标变成去讨好评价者,把自己的正反馈寄托在讨好别人身上,患得患失。如果一个人长期在被无法客观评价这种环境下,会出现两种典型的负面心态。
第一,自我怀疑,被别人负面的评价定义了自己。言外之意,评价者组织语言PUA你,让你接受这一切,你其实做得很好,有人说你还不够好。
第二,对抗心态。觉得体系里的评价者,做事的动机都有偏。走向另一个极端,除了自己都是傻叉,变得固执傲慢和封闭。
客观地认识自己和认识世界,在这个充满目的性的世界,是有阻碍的。解决这个问题的方法,是建立非标的正反馈体系,认同价值观的多元。
参次多态,乃是幸福本源。这是我特别喜欢的王小波的最喜欢的一句话,写书建立一个自己定义客观的正反馈系统的手段之一。比如博客文章的阅读数,书籍的销量,leaderboard的分数,做的AI应用的用户数,这些都是自己可以定义客观的正反馈系统的手段之一。都能给一个人充足的幸福和自信。
换言之,生存之余,要给这个残酷世界一点输出,去寻找马斯洛需求层次里更高级的东西。
以上,解答了自己为什么立项要写这本书,下面作为一个大模型从业者的视角来看,写这本的充分和必要性。
在国内的大模型元年——2023年,我们就定下选题基调,并于23年底正式开始写作,其首要目标就是提供一个基础知识、细节原理和宝贵经验相结合的大模型技术宝典,从而让人人都能深入了解和学习大模型的基础原理,无论对于领域相关人士查找和深入理解相关知识,还是对于领域外人士快速了解大模型的原理,都是大有帮助的。
老粉都知道,我之前在知乎上写过很多深度学习的trick,也就是前大模型时代自然语言处理研发基础知识和进阶技巧。
大模型引领技术革新的早期,我也投身于大模型研发工作,追赶技术潮流。由于大语言模型这一领域人才众多,不断有非常强力的新鲜血液加入,相关的研究成果也日新月异。
难得的是,在这一年多的时间里,我们持续跟进业界的前沿进展,包括最新的DeepSeek R1相关的内容都有涵盖,写书过程中,将个人的研发经验、前沿论文与开源社区认知做到了有机结合,最终写成这样一本高质量、内容涵盖大模型全流程技术基础的书籍。
形式上,我们采用了面向大模型工程师求职者经常遇到的近百道面试题的形式组织全书,行文方面考虑了来自不同背景读者的知识基础,图文并茂,细节翔实,真正考虑到了读者可能提出的问题,并在重难点前后提供了详细的铺垫与解释。
可以给大家看一些部分内容,诚意满满。
大模型训练中各种并行方式。
vllm的核心创新之一,PagedAttention原理。
还有些很好玩的题目,为什么大模型训练中都不用Dropout了?
等等很多~!
最后,为了感谢各位读者的一直以来的支持,在我们送出总共3本上面介绍的图书,依然是老规矩:评论区留言并点赞数前3的读者将直接送书
到5月14日22:00截止。
(为防止刷量,5月14日18时对留言前10名做个截图作为证据,与最终点赞数量作对比。)