Elon Musk 在 19 天內設置了 100,000 個 Nvidia H200 GPU,黃仁勳:通常要花 4 年時間
Elon Musk 和 xAI 背後的團隊實現了工程奇蹟,在長達 19 天的時間裡建立了一個包含 100,000 個 H200 Blackwell GPU 的超級叢集。 Nvidia 執行長 Jensen Huang在 X 上向矽谷特斯拉車主成員講述了 Elon Musk 令人難以置信的安裝能力的故事。
黃帶著敬畏和敬意描述了馬斯克 19 天的冒險經歷,稱他的努力是「超人的」。據稱,xAI 團隊在不到三週的時間內就從「概念」階段過渡到與 Nvidia 的「裝備」完全相容。這包括在新建的超級叢集上執行 xAI 的首次人工智慧訓練。
從開始到結束,該過程涉及建造 GPU 駐留的大型 X 工廠,並為整個工廠配備液體冷卻和電源,以使所有 200,000 個 GPU 運作。更不用說英偉達和伊隆馬斯克的工程團隊之間的所有協調,以協調一致的方式精確地運送和安裝所有硬體和基礎設施。
黃仁勳表示,從長遠來看,一個資料中心平均需要四年才能完成伊隆馬斯克和他的團隊在 19 天內完成的工作。僅三年時間就將專門用於規劃,而最後一年將用於運輸設備、安裝設備並使其全部正常運作。
黃也詳細描述了 Nvidia 硬體上的網路有多麼複雜。他解釋說,英偉達的設備聯網與傳統資料中心伺服器的聯網不同。 “一個節點中的電線數量……計算機的背面都是電線。”
Elon Musk 對 100,000 個 H200 GPU 的整合「以前從未做過」(根據黃仁勳的說法),並且可能不會被其他公司再次複製,至少在很長一段時間內不會。
延伸影片閱讀: