LLM的效能評比
三不五時就有公司發佈最新的LLM,每次總挑對自己有利的部分來講,而某些使用者根據自己的使用經驗所分享的資訊不見得全面、合理、正確。
要知道LLM的效能可以用多種項目和多個面向來衡量,對使用者而言,最基本的是品質(quality)、速度(speed)、價格(price)這三項。想要高品質的LLM,通常得接受較慢的速度,以及付出較高的價格,這是工程或商業上必須做權衡(tradeoff)的議題。
附圖取自於某標榜獨立評測分析AI模型效能的網站[1],提供的資料不只上述的三項,還有更多的面向,例如除了一秒可輸出多少tokens的速度之外,還有等待第一個token出現的時間延遲(latency),還可以比較不同的雲端業者對特定模型的速度與收費。(搜集這些資料應該不會太難,大概就是透過API呼叫雲端業者的AI模型服務來跑一些標竿測試吧?)
以Meta剛釋出的Llama 3.3 70B為例,綜合測試的品質在12個模型中排第6好,速度排第3快,價格排第3低,在CP值上算是表現得還不錯。何況它還是開源的,可以下載到自己的設備上跑。
如果只看綜合測試的結果,恐怕會覺得Llama 3.3 70B完勝Llama 3.1 405B,後者不應該繼續存在。雖然新版的通常比較厲害,但70B真的厲害到能完勝舊版的405B嗎?如果進一步看分項測試的成績,會發現3.3 70B的品質的確在某些項目比3.1 405B好,但有些項目則是3.1 405B勝出,因此3.1 405B並不是沒有用的。
話說我們長年做效能分析的人,對於這類測試都會有一個疑慮,那就是新產品往往會針對測試做優化,以拿到更好的成績。訓練AI模型的過程中如果拿考古題來特訓,自然會拿高分,但這種高分真的代表學習成效或智力嗎?如同考試,這些測試標竿(benchmarks)應該經常更新、與時俱進才好。
我對目前的測試標竿持保留態度。