MoE 分片:混合專家模型的平行化策略
在 I-00 篇中,我們列出了 LLM 推論與傳統模型服務的五項差異。前四項——可變長度運算、兩階段資源特徵、不斷增長的記憶體需求,以及快取感知路由——每一項都已經在本系列的專文中討論過了。第五項則只用一句話帶過:「部分現代 LLM 使用混合專家模型(MoE, mixture of experts)架構,不同的輸入會啟動模型的不同部分。將 MoE 模型分散部署到多張 GPU 上,所需的分片(sharding)策略與密集模型(dense model)截然不同。」 那句話刻意寫得很短,因為要真正說清楚得另外花篇幅把基礎打好。這篇就是在做這件事。讀完之後,你會明白為什麼許多正式環境中的高能力模型——包括 DeepSeek-R1、Mixtral 和 Llama 4——採用了一種與前四篇所假設的密集模型根本不同的內部架構,也會理解為什麼這種架構需要不同的策略來將運算分散到多張 GPU 上。 本系列到目前為止討論的模型都是密集模型。在密集模型中,每個參數都參與每次前向傳播。當一個 token…