跳至主要內容
智慧系統

智慧 零售分析 系統

即時感知、主動預警、數據分析

邊緣即時運算 多感測器融合 LLM 輔助決策
專案實績
解決方案

核心產品

為關鍵場域與智慧決策提供完整解決方案。

01
01/04

軌道入侵偵測

專為鐵路安全設計的 LiDAR 光達入侵偵測系統。監控軌道走廊與月台區域,偵測障礙物與潛在危險,確保營運安全。

軌道安全 障礙物偵測 月台監控
軌道入侵偵測 1

討論您的專案

需要客製化感知解決方案?與我們的團隊聯繫。

聯絡我們

訂閱最新消息

掌握 LiDAR 感知與智慧場域管理的最新資訊。

最新資訊

部落格文章

Inference Infrastructure

MoE 分片:混合專家模型的平行化策略

在 I-00 篇中,我們列出了 LLM 推論與傳統模型服務的五項差異。前四項——可變長度運算、兩階段資源特徵、不斷增長的記憶體需求,以及快取感知路由——每一項都已經在本系列的專文中討論過了。第五項則只用一句話帶過:「部分現代 LLM 使用混合專家模型(MoE, mixture of experts)架構,不同的輸入會啟動模型的不同部分。將 MoE 模型分散部署到多張 GPU 上,所需的分片(sharding)策略與密集模型(dense model)截然不同。」 那句話刻意寫得很短,因為要真正說清楚得另外花篇幅把基礎打好。這篇就是在做這件事。讀完之後,你會明白為什麼許多正式環境中的高能力模型——包括 DeepSeek-R1、Mixtral 和 Llama 4——採用了一種與前四篇所假設的密集模型根本不同的內部架構,也會理解為什麼這種架構需要不同的策略來將運算分散到多張 GPU 上。 本系列到目前為止討論的模型都是密集模型。在密集模型中,每個參數都參與每次前向傳播。當一個 token…

#MoE #Expert Parallelism #GPU Memory Management
Huang Tzu Lin 27 分鐘 閱讀文章