DeepSeek發布新模型V4 百萬字超長上下文成標配
(中央社台北24日電)中國人工智慧(AI)新創公司DeepSeek微信公眾號24日宣布,全新系列模型DeepSeek-V4的預覽版本正式上線並同步開源,宣稱V4擁有百萬字超長上下文,在Agent能力、世界知識與推理效能均實現國內與開源領域的領先。
DeepSeek官方表示,V4模型分為Pro與Flash兩個版本,DeepSeek-V4-Flash是更快捷高效的經濟之選。
DeepSeek官方指出,V4開創了一種全新的注意力機制,在token維度進行壓縮,結合DSA稀疏注意力(DeepSeek Sparse Attention),實現全球領先的長上下文能力,並且相比於傳統方法大幅降低了對計算和顯存的需求。「從現在開始,1M(100萬)上下文將是DeepSeek所有官方服務的標配」。
DeepSeek官方還稱,DeepSeek-V4-Pro在世界知識測評中,大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1。
這是DeepSeek在2024年底發布V3模型後,時隔一年多再推出V4模型。
華為微信公眾號24日表示,基於昇騰950人工智慧晶片的昇騰超級節點(Ascend supernode),將全面支持DeepSeek的V4版本。
DeepSeek-V4預覽版發布前一天,美國政府在一份備忘錄中,指控中國以工業規模竊取美國AI實驗室的智慧財產權。
路透社引述白宮科技政策辦公室(OSTP)主任克拉茨歐斯(Michael Kratsios)在備忘錄中寫道:「美國政府掌握的消息顯示,主要位於中國的外國實體,正在蓄意從事工業規模的行動,蒸餾(distil)美國的前沿AI系統。」
「蒸餾」指的是利用較大型AI模型的輸出資料,來訓練較小型的AI模型,這個方法有助於在訓練強大AI新工具時降低成本。
今年2月美國AI公司Anthropic表示,DeepSeek、月之暗面(Moonshot AI)和MiniMax非法擷取其聊天機器人Claude的技術能力,直指這是工業規模的智慧財產權竊取。(編輯:陳鎧妤/楊昇儒)1150424




















