原创 海野 2024-12-04 10:48 北京
好家伙,我真的好家伙。刚起床就被一个话题砸醒!
被字节索赔800万的实习生田柯宇,拿到了NeurIPS的Best Paper??
?????
且看获奖论文是他在字节实习期间做的工作,看作者和机构也有bytedance。
论文PDF链接:
https://openreview.net/attachment?id=gojL67CfS8&name=pdf
先是字节模型训练遭实习生攻击一事炸开了锅,再是前段时间字节使出了雷霆手段,要求田柯宇赔偿损失800万元和合理支出2万元,现在又跳出来个顶会NeurIPS的Best Paper的获奖者。
火上加火!过于传奇!
不过,但是,今年NeurIPS还没开奖哇!据悉大会的注册者可以看到,
我看了下这篇论文的评审链接,审稿人给出的得分是[7, 8, 8, 8]。
openreview链接:
https://openreview.net/forum?id=gojL67CfS8
X上还有人说是今年的第六高得分论文,不知真假,NeurIPS会议马上就要召开了,到时候结果就揭晓了。
随之,知乎上的这个话题讨论也火了。
据公布,一共有两篇论文获得最佳论文奖。
一篇是北京大学、字节跳动研究者共同完成的,也就是田柯宇一作的这篇论文。
另一篇是新加坡国立大学、 Sea AI Lab 研究者共同完成的,论文是 "Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators"。
NeurIPS 2024共收15671篇有效论文投稿,但最终接收率只有25.8%。如果还被评为best paper,那这一论文更是顶级中的顶级。
论文作者团队来自北京大学和字节跳动,其中田柯宇还是一作。
论文提出了一种新的图像生成范式 Visual AutoRegressive modeling (VAR) , VAR重新定义了图像上的自回归学习,将其视为从粗糙到精细的“下一尺度预测”或“下一分辨率预测”。
与传统的光栅扫描“下一标记预测”不同。VAR更简单,更直观,使得自回归(AR)变换器能够快速学习视觉分布,并且具有良好的泛化能力。
从结果上看,VAR在ImageNet 256×256基准测试中显著提高了自回归(AR)基线的性能,Fréchet Inception Distance (FID)从18.65降低到1.73,Inception Score (IS)从80.4提高到350.2。并且推理速度提高了20倍。
VAR模型还展现出与LLMs相似的scaling规律,即随着模型大小的增加,测试性能持续提升,且与模型参数或训练计算量之间存在明显的幂律关系。
与Diffusion Transformer(DiT)相比,从图像质量(FID/IS)、推理速度、数据效率和模型扩展性等多个维度来讲,VAR的性能都要更加优秀。
VAR的提出,也是第一次让GPT风格的自回归模型在图像生成方面,超越了扩散模型。
此前,VAR范式更是一度被人称为“视觉生成的Scaling Law”。
现在还能在github上找到VAR的开源代码,截至成稿,星标已经来到了4.5k。
结果,田柯宇刚被字节索赔,就中了顶会的best paper,那这不是妥妥的龙傲天剧情吗?三十年河东,三十年河西…
最后,问一个很“知乎”的问题:
如果是你,800万和NeurIPS的best paper,你选哪个?