更多訊息

台經社以3大指標評比 AI模型性能和開發價值

發稿時間：2025/10/16 10:51:46

(中央社訊息服務20251016 10:51:46)Artificial Analysis列出每款AI模型在3大指標上的表現：Intelligence（智能）、Speed（速度），以及 Price（價格），以這3項作為衡量模型性能和商業應用價值的核心指標。台經社根據Artificial Analysis，以Intelligence、Speed，以及 Price三項指標比較目前使用AI模型，其結果及意涵分析如下。

在智能方面：GPT-5（high）以 68 分居首，顯示在綜合智能上領先群雄；其次是GPT-5 （medium）66 分、Grok 4.5 65分與Sonnet 63分，這幾款屬於高階封閉模型。Gemini 2.5與Claude 4.1分別60與59分，顯示Google與Anthropic系列雖具實力，但略低於OpenAI最新版本。中段群包括gpt-oss-120B 58 分與 Qwen 2.5 (Alibaba) 57分，反映開源與中國廠牌模型已接近第一梯隊。尾端為 DeepSeek V3.2 (54) 與 Llama 4 Maverick (36)，顯示開源模型與 Meta 版本在「智能」方面仍落後。整體來看，商用封閉模型（GPT、Claude、Gemini）仍居領先，開源模型逐步追趕但尚有明顯差距。

在速度方面：最快的是gpt-oss-120B達327 tokens/s，顯示OpenAI在OSS版本的推論效能極高；其次Gemini 2.5 Pro 265與 Flash (Sep) 173，屬於 Google 系統的高速表現。GPT-5 (medium) 與 GPT-5 (high) 分別 170 與 155，代表高智能版本雖稍慢，但仍維持實用速度。中段為Llama 4 Maverick 125與Qwen 2.35B-A2B2 50B約125-100，速度良好但略慢於頂尖封閉模型。Claude 4.5、Sonnet、Opus 約 60–70，屬中速；DeepSeek V3.2 (25) 與 Exp (25) 最慢，可能因模型架構或伺服器延遲導致。整體顯示 OpenAI與Google 的運行效率最佳，開源與中國系統仍以穩定為主。

在價格方面：最便宜的是gpt-oss-120B (0.3 USD) 與 Grok 4 Fast (0.3)，並列最低成本；接著DeepSeek V3.2 (0.3) 與Llama 4 Maverick (0.4) 也極具成本優勢。Gemini 2.5 (0.8) 仍屬低價；Flash (Sep) 與 Qwen 2.35B (2.6) 屬中價位；A2B2 50B 與 GPT-5 (high/medium) 約 3.4 美元，屬於高品質模型的合理成本。Claude 4.5 與 Sonnet (6) 相對昂貴，而 Claude 4.1 與Opus (30)為所有模型中最貴，成本幾乎是GPT-5的十倍。整體來看，低價模型主要來自開源（OpenAI OSS、DeepSeek、Llama），高價則集中於 Anthropic 系列。

台經社總結，若以「智能領先、速度可用、成本合理」三項綜合評估，GPT-5 系列與Gemini 2.5 Pro仍是目前整體表現最均衡的模型，而開源OSS與DeepSeek系列則在成本競爭上表現突出，適合追求投資報酬極大化的應用場景。「AI模型性能和商業應用價值之三大衡量指標」請上台經社網頁https://www.bioeconomy.tw/esg/

關鍵詞：台經社、評價、AI、指標

台經社評估AI模型性能和商業應用價值（圖表來源：Artificial Analysis）