这几天基本上ds模型被扒差不多了,我来说说我理解的争议点。
首先ds是不是抄袭,肯定不是,ds自己的模型,整合一些新技术。那ds有没有突破或者自己的技术,其实也没有,技术都是现有的,除了知识蒸馏其他模型提高技术在学术上都存在,只能说其他大模型公司太慢效率不行,没有用
其次ds为啥能省钱,主要是蒸馏技术,不是那些moe,汇编调用。蒸馏技术就是把精华蒸馏出来。美国大公司一般怎么做大模型,他们先采集几十亿或者更多数据,然后训练自己的模型。但ds没有那么大算力,所以他讨个巧,去gpt问了大量数据,然后拿这些数据去训练ds自己的模型,理论上只要你数据够广,你这个模型就会接近gpt,所以为啥很多人测试ds跟gpt很像的原因。但这样数据量少了,成本就低了。就是说gpt是学所有数据,ds是学gpt,然后再整合一些新的技术,很多方面性能反而超过gpt了。
最后说说争议,知识蒸馏不是新的,也是可以用的,但都是规定有限使用在学术界上。openai有规定用gpt就不能滥用蒸馏,所以去年秋天已经有大量ds采数据账号被封。举个例子,中国拍个无间道,韩国也想拍,但中国要3亿版权费,韩国就买了10张电影票,去电影院把剧情提炼,回来加上一些社会新热点,整一个新的电影出来爆火世界。至于这样做合法或者其他,大家自己思考。