Vũ khí bí mật của Elon Musk trong cuộc đua AI không chỉ là Grok. Đó là nhà máy giúp Grok trở nên khả thi.
xAI đã làm được điều không ai nghĩ là có thể: họ đã xây dựng siêu máy tính Colossus với 200.000 GPU chỉ trong 122 ngày. Nhanh hơn gấp mười lần so với bất kỳ sản phẩm nào của Microsoft hay Meta. Sau đó, chỉ trong 90 ngày tiếp theo, xAI đã tăng gấp đôi công suất lên 400.000 GPU.
Và không dừng lại ở đó. xAI có kế hoạch mở rộng Colossus lên 1 triệu GPU.
Colossus không chỉ là một siêu máy tính. Nó là một Gigafactory của ngành Điện toán , câu trả lời của kỷ nguyên AI cho mô hình sản xuất của Tesla.
Bài viết này sẽ giải thích:
- Cách xAI được xây dựng với tốc độ chóng mặt
- Tại sao mô hình này đe dọa sự thống trị của các công ty siêu quy mô
- Điều này có ý nghĩa gì đối với cuộc đua cơ sở hạ tầng AI toàn cầu
Đây chính là bản thiết kế cho nhà máy AI trong tương lai của bạn.
Colossus của xAI không chỉ là một siêu máy tính mà còn là Gigafactory của ngành điện toán, báo hiệu sự chuyển dịch công nghiệp hóa tương tự như chúng ta đã khám phá trong bản thiết kế Nhà máy AI 100 địa điểm của Nvidia .
Quá trình xây dựng: Từ nhà máy bỏ hoang đến trung tâm thần kinh AI
- xAI đã tái sử dụng một nhà máy Electrolux rộng 785.000 feet vuông ở Nam Memphis.
- Nó bắt đầu với công suất chỉ 8MW , chạy bằng máy phát điện diesel di động và Megapack.
- Trong vòng 19 ngày kể từ khi giao hàng, họ đã đào tạo Grok về 100.000 GPU NVIDIA H100 .
Tốc độ này không chỉ ấn tượng mà còn mang tính chiến lược. Musk biết rằng nếu ông không thể nén thời gian tính toán, xAI sẽ không bao giờ bắt kịp OpenAI hay Anthropic.
Làm mát: Cụm GPU làm mát bằng chất lỏng lớn nhất từng được chế tạo
- 200.000 GPU, mỗi GPU tiêu thụ 700W, cần làm mát bằng chất lỏng trực tiếp vào chip.
- Giá đỡ GPU Universal 4U của Supermicro được thiết kế sẵn để triển khai với mật độ cực cao.
- Bộ trao đổi nhiệt cửa sau giúp mỗi giá đỡ “làm mát trung tính” với căn phòng.
Đây không phải là đổi mới chỉ vì đổi mới. Đây là sự cần thiết. Bạn không thể vận hành một chương trình đào tạo trị giá hàng nghìn tỷ token trong cái nóng 90°F của Memphis mà không có hệ thống làm mát đẳng cấp thế giới.
Đây không phải là sự đổi mới vì mục đích riêng mà là sự tồn tại trong điều kiện nhiệt độ 90°F, nơi thiết kế làm mát linh hoạt đã trở thành một lợi thế quan trọng đối với các nhà điều hành trung tâm dữ liệu .
Công suất: Câu đố tỷ watt
- TVA cuối cùng đã cấp 150MW điện lưới và dự kiến sẽ cấp thêm 150MW nữa.
- Tesla Megapacks (168 chiếc) đã ổn định các điểm đột biến.
- 35 tua-bin khí (sau đó được thu nhỏ lại) đã được lắp đặt trong giai đoạn xây dựng ban đầu.
Musk thậm chí còn mua một cơ sở rộng 1 triệu feet vuông ở Whitehaven và được cho là cả một nhà máy điện ở nước ngoài để vận chuyển đến Mỹ cho các giai đoạn sau.
Tính toán sẽ chẳng là gì nếu không có năng lượng. Colossus cho thấy cơ sở hạ tầng năng lượng giờ đây chính là cơ sở hạ tầng AI .
Mạng: Tại sao xAI từ bỏ InfiniBand
Hầu hết các siêu máy tính siêu lớn vẫn sử dụng InfiniBand.
Colossus chạy trên Spectrum-X Ethernet của NVIDIA, một bước tiến có thể định nghĩa lại siêu máy tính.
- 400Gbps cho mỗi GPU, cộng thêm 400Gbps cho mỗi máy chủ CPU
- BlueField-3 SuperNIC cho RDMA ở quy mô lớn
- Hiệu suất thông lượng dữ liệu 95%
Tại sao? Tiêu chuẩn mở, chi phí thấp hơn và khả năng kết hợp cho tương lai nhiều bên thuê.
Điều này có ý nghĩa gì đối với cuộc chạy đua vũ trang AI
Trong khi OpenAI xây dựng Stargate với Oracle và SoftBank, xAI đang theo đuổi sự tích hợp theo chiều dọc, sở hữu chip, nguồn điện, giá đỡ và mặt bằng.
Siêu máy tính chính là hào nước.
Và Colossus chứng minh rằng bạn không cần 3 năm và 20 tỷ đô la để xây dựng một công trình như vậy.
Bạn chỉ cần tốc độ, tính mô-đun và ý chí để phá vỡ mọi thứ làm chậm bạn.
Nhưng đây là điều đáng chú ý
Tốc độ đó phải trả giá:
- Phản ứng dữ dội về môi trường từ các tua-bin khí ở khu dân cư người da đen.
- Mối lo ngại về an toàn AI liên quan đến sự thiên vị của Grok và dữ liệu đào tạo từ X.
- Giám sát chặt chẽ theo quy định đối với giấy phép phát thải và việc rút nước.
Tuy nhiên, xAI vẫn tiếp tục phát triển và Colossus thế hệ tiếp theo có thể sẽ được trang bị nhà máy điện riêng.
Suy nghĩ cuối cùng
Trong kỷ nguyên AI, người chiến thắng không chỉ là đội có mô hình tốt nhất.
Nhóm này sẽ kiểm soát nền tảng vật lý của trí tuệ: GPU, electron và nước làm mát.
xAI đang xây dựng tương lai đó. Nhanh hơn bất kỳ ai khác.

