台經社以3大指標評比 AI模型性能和開發價值
(中央社訊息服務20251016 10:51:46)Artificial Analysis列出每款AI模型在3大指標上的表現:Intelligence(智能)、Speed(速度),以及 Price(價格),以這3項作為衡量模型性能和商業應用價值的核心指標。台經社根據Artificial Analysis,以Intelligence、Speed,以及 Price三項指標比較目前使用AI模型,其結果及意涵分析如下。
在智能方面:GPT-5(high)以 68 分居首,顯示在綜合智能上領先群雄;其次是GPT-5 (medium)66 分、Grok 4.5 65分與Sonnet 63分,這幾款屬於高階封閉模型。Gemini 2.5與Claude 4.1分別60與59分,顯示Google與Anthropic系列雖具實力,但略低於OpenAI最新版本。中段群包括gpt-oss-120B 58 分與 Qwen 2.5 (Alibaba) 57分,反映開源與中國廠牌模型已接近第一梯隊。尾端為 DeepSeek V3.2 (54) 與 Llama 4 Maverick (36),顯示開源模型與 Meta 版本在「智能」方面仍落後。整體來看,商用封閉模型(GPT、Claude、Gemini)仍居領先,開源模型逐步追趕但尚有明顯差距。
在速度方面:最快的是gpt-oss-120B達327 tokens/s,顯示OpenAI在OSS版本的推論效能極高;其次Gemini 2.5 Pro 265與 Flash (Sep) 173,屬於 Google 系統的高速表現。GPT-5 (medium) 與 GPT-5 (high) 分別 170 與 155,代表高智能版本雖稍慢,但仍維持實用速度。中段為Llama 4 Maverick 125與Qwen 2.35B-A2B2 50B約125-100,速度良好但略慢於頂尖封閉模型。Claude 4.5、Sonnet、Opus 約 60–70,屬中速;DeepSeek V3.2 (25) 與 Exp (25) 最慢,可能因模型架構或伺服器延遲導致。整體顯示 OpenAI與Google 的運行效率最佳,開源與中國系統仍以穩定為主。
在價格方面:最便宜的是gpt-oss-120B (0.3 USD) 與 Grok 4 Fast (0.3),並列最低成本;接著DeepSeek V3.2 (0.3) 與Llama 4 Maverick (0.4) 也極具成本優勢。Gemini 2.5 (0.8) 仍屬低價;Flash (Sep) 與 Qwen 2.35B (2.6) 屬中價位;A2B2 50B 與 GPT-5 (high/medium) 約 3.4 美元,屬於高品質模型的合理成本。Claude 4.5 與 Sonnet (6) 相對昂貴,而 Claude 4.1 與Opus (30)為所有模型中最貴,成本幾乎是GPT-5的十倍。整體來看,低價模型主要來自開源(OpenAI OSS、DeepSeek、Llama),高價則集中於 Anthropic 系列。
台經社總結,若以「智能領先、速度可用、成本合理」三項綜合評估,GPT-5 系列與Gemini 2.5 Pro仍是目前整體表現最均衡的模型,而開源OSS與DeepSeek系列則在成本競爭上表現突出,適合追求投資報酬極大化的應用場景。「AI模型性能和商業應用價值之三大衡量指標」請上台經社網頁https://www.bioeconomy.tw/esg/
關鍵詞:台經社、評價、AI、指標


