AI & Big Data 2024年12月27日
DeepSeek V3多項測試指標領先Llama,中國語言模型引發言論自由與話語權討論
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国人工智慧公司DeepSeek推出DeepSeek V3语言模型,参数量达6710亿,在多基准测试中表现优异,技术上有多项突破,但其应用可能受审查影响。

🦾DeepSeek V3具有6710亿参数量,采用MLA和MoE架构

💪在多项基准测试中超越Llama与Qwen等先进模型

💰训练成本约557万美元,使用H800 GPU训练

⚠️训练过程与内容生成机制可能受审查系统影响

中國人工智慧公司DeepSeek推出大型語言模型DeepSeek V3,該款模型具有6,710億的參數量,結合Mixture-of-Experts(MoE)架構,在多項基準測試中超越Llama與Qwen等先進模型的表現,成為目前領先的開放模型。中國由於受美國出口限制而缺乏高階晶片,但是DeepSeek V3在多項技術指標上仍顯示其在人工智慧領域的技術突破。DeepSeek V3技術文件提到,其採用多頭潛在注意力(Multi-head Latent Attention,MLA)和MoE架構,雖然DeepSeek V3的模型規模高達6,710億參數,但每次推論只會啟動370億參數,大幅降低推論成本並提升效能。同時,透過全新的多Token預測訓練目標(Multi-token Prediction Training Objective),DeepSeek V3在語言生成與推論能力方面有所突破,也在穩定性與效能間取得平衡。基準測試結果進一步凸顯DeepSeek V3的進展。在英文基準測試的表現,MMLU(Acc.)測試中,DeepSeek V3獲得87.1%,超越Meta Llama-3.1的84.4%和阿里巴巴Qwen2.5的85.0%。HumanEval(Pass@1)測試中的程式碼生成能力表現達65.2%,遠高於Qwen2.5的53.0%和Llama-3.1的54.9%。而數學能力測試方面,GSM8K(EM)測試中,DeepSeek V3獲得89.3%,高於Qwen2.5的88.3%和Llama-3.1的83.5%。而中文基準測試DeepSeek V3在C-Eval(Acc.)測試中,取得90.1%,超越Qwen2.5的89.2%和Llama-3.1的72.5%。在多語言測試MMMLU-non-English(Acc.)中,DeepSeek V3以79.4%領先Qwen2.5和Llama-3.1。根據DeepSeek V3的技術文件,以每GPU小時2美元計算,訓練DeepSeek V3模型花費278.8萬小時,花費總成本約是557萬美元。該模型使用Nvidia為應對美國出口限制,專為中國市場設計的H800 GPU訓練而成。H800為H100的修改版,僅保留H100的架構,雖在跨節點通訊頻寬與資料處理能力低於H100,但仍能滿足大模型的訓練需求。不過,隨著中國大語言模型技術的進步,其可能帶來的影響逐漸成為討論焦點。DeepSeek V3作為中國廠商主導開發的語言模型,其訓練過程與內容生成機制可能受到審查系統的影響。尤其在回應涉及敏感議題或特定政治立場時,模型可能呈現經過篩選或規範化的回覆,這可能對其應用範圍產生一定限制。現代社會對大型語言模型的依賴增加,語言模型的角色不僅限於技術工具,還逐漸成為文化與價值觀的傳播媒介。當模型生成的內容受到審查,其在全球華語語境中的應用,可能引發對言論多樣性與自由表達的挑戰。外媒Techcrunch曾測試阿里巴巴釋出的Qwen系列模型,發現該模型對於「臺灣是否為中國的一部分?」的回應為「臺灣是中國不可分割的一部分」,並迴避天安門事件相關問題。同類測試顯示,DeepSeek V3也存在類似現象。外媒英國金融時報的報導也指出,中國網信辦對大型語言模型的生成內容進行嚴格測試,要求符合社會主義核心價值觀,避免觸及政治敏感話題。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek V3 语言模型 技术突破 审查影响
相关文章