原创 sanlang谈AI 2024-06-28 21:36 广东
今天一觉醒过来,一觉就到优雅的周五我的心情Be Like上车优雅拿出手机,开始看看世界又咋滴了,不刷不知道,一
今天一觉醒过来,一觉就到优雅的周五
我的心情Be Like
上车优雅拿出手机,开始看看世界又咋滴了,不刷不知道,一刷吓一跳,
啥!一觉醒来!发生了啥
真是人间一日,AI一年,陆游博士又来一张猛图,好家伙,27B的参数,把Qwen2-72B,Llama-3-70b打翻了!
我掐指一算,难道今日谷歌要翻身了?谷歌要赢了!?
等!等!Arena ELO Score? 原来是竞技场,那没事了,这东西向来玄乎,今天你上明天我下,我们来看实际的一点的,MMLU才是王道。
什么是MMLU?
大规模多任务语言理解能力(MMLU)评分是一个综合基准,它提供了语言模型认知能力的全景图。与 Elo 系统的竞技排名不同,MMLU 评估的是模型在从文学、历史到科学和数学等各个知识领域的理解和推理能力.
等!等!等!大官网怎么只放了这几个大模型,Grok-1按照AI界时光流水,都是上个宇宙的模型了把,技术报告还拿Qwen1.5欺负了下,欺负上一个宇宙模型算什么英雄!于是我拿开我的模型大宝库,来过两招
第一场:最新开源小模型
邀请最近开源的智谱GLM-4-9B过来和两大国际友人切磋两招
可以明显看到来自智谱最新开源的GLM-4-9B,简直是全面碾压...Gemma2-9B与Llama3-8B。
实际在该段位(Small小模型)上,智谱不仅仅是超过Gemma2和Llama3,而是在目前已知开源的知名小模型中,智谱的GLM-4-9B,全球第二!可不能小看这个位置,Gemma已经是第二次开源发布了,Llama3已经是第三次开源发布!我们也能看到Gemma 与Llama不断在成长。
说起智谱最近真的是给了太多的惊喜,上周的数学高考测试,最便宜的1元钱智谱GLM-4-Air竟然能杀入前三,冷门迭起,没看过该文章的同学快去补习下,点击图片可以看视频~。
AI 高考及格率只有 33%!掀开 AI 的遮羞布一探究竟!
第二场:最新开源中大模型比分
邀请最近开源的Qwen2.0 72B,过来欺负欺负Gemma2。
Gemma 2.0的27B...和Qwen2.0也不在一个性能线上,被Qwen2.0一顿胖揍,全面碾压,原谅他只有27B,既然只有27B就和27B的打一打,何必来碰瓷70B以及Qwen1.5...
所以给我一头雾水,谷歌Gemma2发布到底是做啥...也是憋了大半年大招了,出门就被一顿胖揍。
玩笑归玩笑,本次Gemma2发布彰显谷歌在开源领域持续投入与研究的决心,虽然成绩上没有做到拿到第一,但是与Gemma1相比,本次Gemma2进步也不小。但是在竞争的如火如荼的AI赛道,这一点小进步很明显并不够。
闭源商业模型,或许有100种方法夸赞自己牛逼,给自己加上各种前置定于,成为第一。但是开源赛道并不是,它的一切都被放在聚光灯下,等待着所有人的检视,在这里,一切技巧都化为须有,化成两个字“实力”。
智谱从GLM-10B开始播种,到ChatGLM开始让全球认识它,到GLM4走向领先。Qwen也大致相似,Qwen开始蓄力,Qwen2.0走向领先,这里头都没有无缘无故的胜利,如果有,那一定是无数AI日以继夜奋斗的努力。不信自己去Github看看他们的开源历史,我只能说,中国AI,自有名字!!
智谱从GLM-10B开始播种,到ChatGLM让全球认识,再到GLM-4走向领先。Qwen的路径也大致相似,从Qwen1.5开始让全球认识,到Qwen2.0走向领先。这里头没有无缘无故的胜利,如果有!
那一定是无数AI日以继夜奋斗的努力。不信自己去Github看看他们的开源历史,我只能说,中国AI,自有名字!!