ShowMeAI 2024年07月24日
一份LLM资源清单,围观技术大佬的日常;大型AI数据中心搭建攻略(美国版);为啥大模型做不好数学计算?| ShowMeAI日报
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI日报聚焦大模型数学能力、AI辅助阅读、企业GenAI浪潮、AI项目失败教训、AI数据中心建设等话题,并分享了一份技术大牛的LLM资源清单。文章分析了大模型在数学考试中失分的原因,探讨了AI辅助阅读的新思路,以及企业如何在这轮GenAI浪潮中获得胜利。此外,文章还总结了AI项目失败的6个血泪教训,并详细介绍了AI数据中心的组成部分、电力限制和发展趋势。最后,文章分享了一份包含各种LLM资源的清单,涵盖了项目、YouTube频道、书籍、重要项目、工具库、可靠来源等内容。

🤔 大模型在数学考试中失分的主要原因是:主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。公式记忆能力较强,但是无法在解题过程中灵活引用。LLM 不擅长数学运算,直接原因是 Tokenizer (分词) 的设计。Tokenizer 负责将文本分割成一系列的 token,这些 token 是模型理解和生成文本的基本单元。但是,在计算过程中,Tokenizer 将本该连续的字符串分成了彼此独立的 token,丧失了数学意义,自然也就没办法进行准确的数学运算。

📚 AI辅助阅读的新思路:不要只盯着要点总结,还纠结「不全or不准」啦!AI辅助阅读应该聚焦于「结合参考资料,深度探索某个观点」,成为一个「读书搭子」。但目前此类 Prompt、Agent、App 存在一些问题,例如无法替代阅读体验、回答不全面、生成内容错误等。

🚀 企业如何在这轮 GenAI 浪潮中获得胜利:AI通过将工作任务从传统的人类服务中解绑,并重新整合进软件系统,从而转变了工作模式,提升了工作效率。GenAI能够将工作分解为具体任务,并将这些任务重新组合为软件,从而使工作流从「服务主导」转向「软件主导」,最终实现更高效地执行任务。

⚠️ AI 项目失败的 6 个血泪教训:问题定义不明确、与现有系统的整合不充分、需求收集不准确和缺乏成功指标、对潜在风险认识不足、缺乏行业专业知识、公司内部人员准备不足。

🏗️ 如何构建 AI 数据中心:数据中心是一个专门建造的巨型建筑,用于容纳成千上万台计算机以及其他操作它们所需的设备。数据中心消耗了大量电力,因此需要大型变压器、高容量的电力设备和强大的散热设备。数据中心的性能指标包括电力使用效率 (PUE) 和可靠程度层级。

📚 一份技术大大的「LLM 资源清单」:包含了各种 LLM 资源,涵盖了项目、YouTube 频道、书籍、重要项目、工具库、可靠来源等内容。例如,作者推荐的 YouTube 频道包括 CGP Grey、Computerphile、Robert Miles、3Blue1Brown、Andrej Karpathy、Machine Learning Street Talk、Dwarkesh Patel、Yannic Kilcher、Linus Lee 等。

🧰 工具、库和平台:Ollama、Hugging Face、Langchain、Perplexity、cursor.sh、Google AI Studio、Arc Browser、Google scholar chrome extension、Myst 等。

💻 项目、重要项目、社交:项目、重要项目、Discord 服务器、Meetup 小组等。

📚 研究论文:包含了大量的研究论文,可以帮助读者深入了解 LLM 的相关知识。

✅ 可靠来源:包含了各种可靠的 LLM 资源来源,例如博客、网站、论坛等。

💡 这份 LLM 资源清单非常全面,可以帮助读者从入门到入行,从上手到上道,并了解 LLM 领域的最新进展。

原创 日报组 2024-06-21 23:59 北京

日报关键词:?大模型做不好数学题的原因;AI辅助读书的新可能;企业GenAI浪潮获胜手册;?AI项目失败的6个血泪教训;?如何构建AI数据中心;?一份技术大佬的「LLM 资源清单」……点击阅读全文

ShowMeAI

专业◎洞察◎清晰◎实用

用知识加速每一次技术进步!

推荐语

朋友们!伙伴们 ?

如果觉得咱们日报还行,请留下欢迎给你的朋友

这对 ShowMeAI 真的很重要!(拜托拜托 ?


为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起

司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。

结果如上图所示,Qwen2-72B、GPT-4o书生·浦语2.0文曲星 (InternLM2-20B-WQX) 成为本次大模型高考的前三甲,得分率均超过70%。


但是!参与测试的所有大模型,「数学」考试都没过及格线 (90分)

根据官方披露的原因,大模型在数学考试中失分的主要原因是:

⋙ 了解详细报道

OpenCompass 公开了所有评测细节 → https://github.com/open-compass/GAOKAO-Eval


大语言模型 (LLM) 无法对数字进行准确运算的底层原因是什么?

这是知乎上最近讨论比较热门的话题,@张俊林、@苏剑林等大佬的高赞回答&评论区互动,也都非常精彩!欢迎围观~

简单来说,LLM 不擅长数学运算,直接原因是 Tokenizer (分词) 的设计


简单解释一下,Tokenizer (分词) 是 LLM 的核心组成部,负责将文本分割成一系列的 token。这些 token 是模型理解和生成文本的基本单元。

使用 OpenAI 官网提供的 Tokenizer  演示工具,可以看到 GPT-3.5 和 GPT-4 大模型在计算  88888888-55555555+333333333 过程中,把本该连续的字符串分成了彼此独立的 token,丧失了数学意义,自然也就没办法进行准确的数学运算

OpenAI Tokenizer 演示网站 → https://platform.openai.com/tokenizer

知乎问题 (高赞回答很不错) → https://www.zhihu.com/question/654932431

探索 AI 辅助阅读的新可能:不要只盯着要点总结,还纠结「不全or不准」啦!

对人类来说,阅读书籍 (读书) 往往是带有某种「光环」的

大部分人能轻松接受 AI 辅助写一段话、总结一篇文章、翻译一篇论文,却对「AI辅助读书」充满担忧:它不能替代我的阅读体验,它对这个话题的回答不全面,它这里生成的内容是错的……!!

而目前此类 Prompt、Agent、App (比如微信读书) 的确存在这些问题。


那有没有可能!这个辅助方向,它就是错的呢?!


Dan McKinley 分享了自己一次很特别的试验:看看在读书过程中 AI 能否「结合参考资料,深度探索某个观点」,俗称「读书搭子」。

事情的起源有点偶然:最近读书时偶然发现,作者就某个观点给出的索引资料,似乎不能提供很好的支持。他心血来潮,想看看最先进的大模型能否帮助自己深度探索一下。

Round 1

直接询问AI的看法

Round 2

要求AI对给定的资料进行打分

Round 3

要求AI对给定的资料进行排名

Round 4

取多次的平均值

Round 5

看看负面评价的排名


探索有点不成功 ? 不过思路还是很好的!

提醒我们,使用AI工具时,要让它做那些我们不擅长的事情!而不是用AI替代那些人类完成度接近满分的场景,然后反过来挑剔AI不太行。

原文 → https://mcfunley.com/i-tried-to-use-ai-to-read-an-ai-book

企业如何在这轮 GenAI 浪潮中获得胜利:Two ways. Gradually, then suddenly.

Two ways. Gradually, then suddenly. 这句话出自海明威经典小说《太阳照常升起 (The Sun Also Rises)》,经常被引用形容事物的一种演变规律:在很长一段时间里,发展缓慢且不易察觉,但最终会突然爆发

这是一份企业在 GenAI 时代的生存手册,从 8 个角度,详细阐述了企业会面临的挑战、详细的解决方案以及会遇到的阻碍。日报概述这 8 部分最核心的观点,非常推荐阅读原文或者查看完整报告!

    逻辑 (The Logic) :AI通过将工作任务从传统的人类服务中解绑,并重新整合进软件系统,从而转变了工作模式,提升了工作效率。

    机遇 (The Opportunity)服务即软件 (Service-as-a-Software) 这一概念为企业提供了将复杂工作流程转化为软件解决方案的机会,开辟了创造新竞争优势的可能性。

    企业环境 (The Enterprise Context) :在2024年的企业环境中,性能的重要性超越了单纯的创新。企业需要深刻理解当前商业环境的要求,并探索如何利用AI技术来提升企业级性能。

    工作流捕获 (Workflow Capture) :捕获整个工作流程,而非单一任务的自动化,是企业AI成功的关键。这涉及到将工作流程从人工服务转变为软件驱动的过程。

    商业模式优势 (Business Model Advantage)工作流的捕获为企业带来了新的商业模式优势,即基于服务性能的收费模式,这与传统的基于产品销售的模式形成了鲜明对比。

    挑战与威胁 (Challenges and Threats) :AI技术的快速发展带来了不连续性的改进,为企业带来了新的挑战和威胁。企业必须适应技术环境的快速变化,并准备应对新兴的竞争者。

    竞争优势与企业账户扩展 (Competitive Advantage and Enterprise Account Expansion) :企业需要构建防御机制,形成护城河,以抵御新兴竞争者的冲击,并利用AI技术来扩展其账户和市场份额,这包括对关键工作流程和决策点的控制。

    胜者与败者 (Winners and Losers)企业AI的成功最终取决于企业适应AI技术发展的能力,以及它们是否能够利用这些技术获得市场竞争优势,并在市场中确立领导地位。


详细介绍 2 个文章提到的重点概念或实现路径。原文/原报告中此类信息很多,感兴趣拉到下方获取链接~

工作的拆解与重组

工作由一系列任务构成,这些任务既可以由人类服务完成,也可以由软件来执行。

GenAI 能够将工作分解为具体任务,并将这些任务重新组合为软件。这会显著改变企业的工作模式。


服务主导 → 软件主导

顺着上面一条说,企业工作模式的改变,会导致内部工作流从「服务主导」转向「软件主导」,也就是关键知识和管理工作,被AI接手了。上图分五步展示了这个过程:

    服务主导的工作流:初始阶段,工作流主要依赖人类决策和手动操作,软件用于更简单的任务 (如数据处理或自动化)。

    分解:AI执行特定任务的能力不断提高,工作流一步步被优化,逐步减少对人类手动工作的依赖。

    组件化把AI正式纳入当前工作流,而且某些特定任务被组件化,完全成为可被调用的软件模块。

    重新组合:将工作流进行重新组合,按照新的决策序列完成重组。

    软件主导的工作流:重组之后会出现一个软件主导的工作流,能更高效地执行任务。

原文 → https://platforms.substack.com/p/how-to-win-at-enterprise-ai-a-playbook

前往知识星球下载完整报告 (48页/英文) → https://t.zsxq.com/Lj4s1 资源编码【R270】

AI 项目失败的 6 个血泪教训:还是要尊重商业常识

我们在之前的日报,都在聊 AI 创业怎么成功  ? 这期聊了如何获取创业 idea ,  这期聊了AI应用的几种设计模式

今天来聊一些失败的经验教训。

问题定义不明确

与现有系统的整合不充分

需求收集不准确和缺乏成功指标

对潜在风险认识不足

缺乏行业专业知识

公司内部人员准备不足

原文 → https://dlabs.ai/blog/key-reasons-why-ai-projects-fail-and-how-to-avoid-them/

手把手教你在美国搭建「百万卡」级别的 AI 数据中心 (bushi

我们在之前 ? 这期日报 整理过一期超棒播客的要点,即AI爆发导致的能源问题 & 解决方案,其中就提到美国高科技公司正在大规模建设 AI 数据中心

这次!更内部和专业的分享来了!非常详细地介绍了 AI 数据中心的组成部分当前在美国面临的严重电力限制数据中心的关键评价指标 (能源效率和可靠性)数据中心未来的发展趋势……

而且!文章细节非常丰富,各种数据和报告超链接咔咔甩,的确是非常专业。日报整理部分新内容,感兴趣强烈推荐看原文哦~

数据中心的组成要素

数据中心,这个词指的是一个简单的基本结构:一个包含计算机或其他IT设备的空间

不过,我们所认为的现代数据中心,是专门建造的巨型建筑,用于容纳成千上万台被堆叠在大型机架上的计算机,以及其他操作它们所需的设备,如网络交换机、电源和备用电池等。

数据中心消耗了大量电力,意味着数据中心需要大型变压器、高容量的电力设备,如开关设备,有时甚至需要一个新的变电站来将它们连接到输电线路。这也意味着数据中心有超高的散热需求,也就需要同样强大的设备来迅速将热量排出,并通过庞大的冷却循环系统完成循环。

电力使用效率 PUE

数据中心的一个常见性能指标是电力使用效率 (PUE) ,即数据中心消耗的总电力与IT设备消耗的电力之比。比率越低,用于运行计算机之外的事物的电力就越少,数据中心的效率就越高

如上图所示,数据中心 PUE 随着时间的推移稳步下降,如今平均PUE已降至 1.5 左右。而且超级数据中心做得更好:Meta 平均数据中心PUE仅为1.09,Google 也在 1.1 附近

PUE 数据得以改善的原因,是使用了更高效的组件 (例如具有更低转换损失的不间断电源系统) 、更好的数据中心架构 (改为热通道、冷通道布局) 以及在更高温度下运行数据中心以减少冷却需求等等。

数据中心可靠程度层级

大型数据中心可能服务于数百万客户,服务中断会轻易造成每分钟数万美元的损失。因此数据中心被设计为最小化停机风险

如上图所示,数据中心的可靠性根据分层系统进行评级,从Tier I 到Tier IV,等级越高表示可靠性越高大多数美国的大数据中心位于Tier III和Tier IV之间。它们拥有备份柴油发电机、防止单点故障的冗余组件、电力和冷却的多个独立路径等。

Tier IV数据中心理论上将实现99.995%的正常运行时间,尽管实际上人为错误往往会降低这种可靠性水平。一个2N冗余电源系统,其中每个电源组件 (公用事业供电、发电机、UPS等) 都有完整的备份。

原文 (其他话题也解释得非常详细,包括AI数据中心得全球选址、英伟达芯片的发展方向、冷却方式的进一步进化等) → https://www.construction-physics.com/p/how-to-build-an-ai-data-center

一份技术大大的「LLM 资源清单」:从入门到入行,从上手到上道

这份 LLM 主题的资源清单有点不一样!

它出自一位技术同学之手,非常全面地反映了一位 AI 开发者的日常


清单有点长,日报选两个有趣、通用的介绍一下。都是国外的资料,感兴趣可以前往原文获取超链接~

YouTube 频道

    CGP Grey:作者最喜爱的频道之一,这条「How AIs, like ChatGPT, Learn」视频被作者认为是AI领域的最佳入门视频。

    Computerphile:与 Numberphile 和 Sixty Symbols 一样,都是由 Brady Haran 创建的视频频道。推荐 Mike Pound 和 Robert Miles 的视频,可以帮助打开数据科学、机器学习和人工智能的大门。

    Robert Miles:创作者是一名AI安全研究员,他的 GPT-2 和 「Attention is all you need」论文解读视频,对作者的影响尤其深远。

    3Blue1Brown:最佳的数学教育资源,特别是线性代数和神经网络系列。

    Andrej Karpathy:大佬的「zero to hero」播放列表,为语言模型的普及教育做出了非常重要的贡献。

    Machine Learning Street Talk:技术播客,采访了机器学习领域各种各样的从业者,非常有趣。

    Dwarkesh Patel:目前最受欢迎的播客节目,对话式的播客格式,还有对AI主题的深入探讨。

    Yannic Kilcher:主要阅读优秀的机器学习论文阅读,Discord 社区也很活跃。

    Linus Lee:Notion AI负责人,可以通过他的演示来关注未来 UX 设计的变化,尤其是与模型的交互方式。


工具、库和平台

    Ollama:一个允许在本地运行大型语言模型的工具,使用Go语言编写,并通过cgo与llama.cpp交互。

    Hugging Face:一个共享机器学习模型的平台,提供了丰富的教程和社区支持,可以看作是机器学习领域的GitHub。

    Langchain:提供了代理协调功能,但作者计划将来可能会使用Swarms替代,因为Swarms提供了更优秀的多代理协调。

    Perplexity:一个搜索引擎,提供了比传统搜索引擎更清洁的搜索结果,没有广告干扰。

    cursor.sh:Visual Studio Code的一个分支,集成了更强大的AI功能,特别是对于代码生成和理解。

    Google AI Studio:提供了低廉的按令牌成本和更优化的代码生成界面,作者认为它在生成代码方面优于标准界面。

    Arc Browser:一个浏览器,具有AI搜索功能和直接访问ChatGPT的选项,极大地提升了作者的浏览体验。

    Google scholar chrome extension:一个浏览器插件,可以方便地查看论文的参考文献,通过悬停元素直接链接到引用的论文。

    Myst:一个工具,用于制作精美的Jupyter笔记本,可以导出为PDF等格式,作者考虑将其用于代码相关的博客文章。

原文 (尤其论文清单,那叫一个详细和全面啊) → https://joshcarp.notion.site/LLM-resources-fe118332b84f49c286b8045922c7f5a2

     THE   END     

转载原创文章请添加微信 AhaNanQiao

↓ 分享·收藏·在看·点赞

阅读原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 AI 辅助阅读 企业 GenAI AI 项目 AI 数据中心 LLM 资源清单
相关文章