社區裡常看到「某某模型又屠榜了」,但落到業務裡,先要回答三個實際問題。
1. 任務主要是推理還是檢索?
強推理(數學證明、複雜程式重構)傾向選推理專長的模型;大量檢索+摘要(客服、內部知識庫)可能更看嵌入與 RAG 工程,基座模型差距會被縮小。
2. 單次上下文要裝多少原文?
長合約、長程式庫,要確認視窗與價格是否同時可接受。有時「先摘要再問答」比硬塞全文便宜且更穩。
3. 失敗時代價是什麼?
醫療、金融、公共安全場景,寧可多一步人工審核,也要把自動化的邊界寫清楚。模型再強也不消除產品責任。
榜單是參考,情境與風險才是決策主語。