Chúng ta nói về trung tâm dữ liệu theo khía cạnh năng lượng và tính toán. Có bao nhiêu megawatt khả dụng? Có thể lắp bao nhiêu GPU trong một rack?
Nhưng trên thực tế, năng lượng chỉ là một nửa câu chuyện. Nửa còn lại, thường vô hình với người ngoài, chính là làm mát.
Hệ thống làm mát quyết định liệu năng lượng đó có thể được sử dụng hiệu quả hay không. Nó quyết định liệu các rack có hoạt động ở mức 100% công suất hay bị giới hạn dưới áp lực nhiệt. Và khi khối lượng công việc AI đẩy mật độ nhiệt vượt xa các tiêu chuẩn thông thường, hệ thống làm mát đang chuyển từ chi tiết kỹ thuật sang vấn đề phòng họp.
Bài học này phân tích khái niệm làm mát, tầm quan trọng của nó và cách ngành công nghiệp đang phát triển từ không khí lạnh sang ngâm chất lỏng khi kỷ nguyên AI định nghĩa lại ý nghĩa của việc vận hành ở quy mô lớn.
Tại sao làm mát lại quan trọng như nguồn điện
Mỗi watt điện đi vào máy chủ cuối cùng đều biến thành nhiệt. Nhiệt lượng đó phải được loại bỏ, nếu không hệ thống sẽ hỏng.
Trước đây, CPU tạo ra tải nhiệt có thể kiểm soát được. Nhưng GPU ngày nay có thể tiêu thụ 700 watt hoặc hơn cho mỗi chip, và các cụm hàng chục nghìn chip tạo ra các vùng nóng tập trung mà chỉ riêng tản nhiệt bằng không khí không thể xử lý được.
Làm mát không còn chỉ là vấn đề sống còn. Nó còn liên quan đến hiệu suất, thời gian hoạt động và kinh tế. Đối với các nhà vận hành, làm mát kém đồng nghĩa với việc các tủ rack không thể hoạt động ở mật độ tối đa, dẫn đến tình trạng công suất bị đình trệ. Đối với các nhà đầu tư, điều này đồng nghĩa với lợi nhuận thấp hơn, do các hợp đồng điện năng sử dụng chưa hết công suất sẽ kéo theo IRR. Đối với các nhà cung cấp dịch vụ siêu quy mô, điều này đồng nghĩa với việc SLA bị phá vỡ và các nhóm AI gặp khó khăn.
Nghịch lý ở đây rất đơn giản: càng tăng công suất, việc làm mát càng trở nên khó khăn . Và tình trạng tắc nghẽn đang diễn ra nhanh hơn nhiều so với dự đoán.
Hệ thống làm mát giúp AI hoạt động
Các trung tâm dữ liệu sử dụng nhiều lớp làm mát, mỗi lớp có sự đánh đổi về chi phí, mật độ và khả năng mở rộng.
Phương pháp truyền thống dựa vào các thiết bị CRAC ( Hệ thống Điều hòa Không khí Phòng Máy tính ) luân chuyển không khí lạnh, thường thông qua sàn nâng hoặc ống dẫn trên trần, vào các lối đi lạnh. Máy chủ đẩy không khí nóng vào các lối đi nóng, sau đó được thu hồi và làm mát lại. CRAC vẫn chiếm ưu thế trong việc đồng đặt máy chủ cho doanh nghiệp và bán lẻ, nhưng chúng gặp khó khăn khi công suất trên 10–15 kW mỗi rack, khiến chúng không đủ đáp ứng cho các triển khai AI nặng.
Một bước tiến nữa là các thiết bị CRAH ( Máy xử lý không khí phòng máy tính ), sử dụng nước lạnh được cung cấp bởi các nhà máy lớn tại chỗ. CRAH hiệu quả hơn CRAC sử dụng chất làm lạnh và hiện là xương sống của hầu hết các công trình siêu quy mô.
Trước khi thay thế hệ thống, người vận hành thường bắt đầu với việc quản lý luồng khí. Việc ngăn chặn luồng khí nóng và luồng khí lạnh, tấm chắn, ống dẫn gió hồi và điều chỉnh bố trí tấm ốp có thể mang lại hiệu suất tăng gấp đôi mà không tốn nhiều chi phí đầu tư. Thiết kế luồng khí là giải pháp tiết kiệm nhất để nâng cao hiệu suất làm mát.
Ngoài các biện pháp này, ngành công nghiệp đang chuyển sang làm mát bằng chất lỏng trực tiếp lên chip . Bằng cách bơm chất làm mát trực tiếp lên CPU và GPU, người vận hành đạt được khả năng truyền nhiệt cao hơn nhiều so với không khí, cho phép mật độ 50–100 kW mỗi rack hoặc hơn. Tuy nhiên, đây không phải là một cải tiến. Làm mát bằng chất lỏng trực tiếp đòi hỏi phải xem xét lại thiết kế rack, ống phân phối, phát hiện rò rỉ và hợp đồng dịch vụ. Đây là một sự thay đổi về mặt kiến trúc.
Giải pháp triệt để nhất là làm mát nhúng , trong đó toàn bộ máy chủ được nhúng trong chất lỏng điện môi hấp thụ nhiệt trực tiếp. Ngâm mình trong nước hứa hẹn mật độ tản nhiệt vô song và hoạt động gần như im lặng. Tuy nhiên, giải pháp này gặp phải những rào cản về khả năng tương thích phần cứng, độ phức tạp của dịch vụ và tính bảo thủ văn hóa trong các bộ phận CNTT. Giải pháp này đang được ưa chuộng tại các cơ sở đào tạo AI, nhưng việc áp dụng rộng rãi vẫn còn khá sớm.
Các số liệu quan trọng
Hiệu quả làm mát không chỉ phụ thuộc vào việc nó có hoạt động hay không mà còn được đánh giá dựa trên hiệu quả và tính bền vững.
Tải làm mát, được đo bằng kilowatt hoặc tấn, xác định lượng năng lượng nhiệt cần loại bỏ trên mỗi tải CNTT. PUE, hay Hiệu quả Sử dụng Điện năng , là thước đo được trích dẫn rộng rãi nhất, và làm mát là yếu tố biến đổi lớn nhất trong tỷ lệ này. Chỉ cần giảm 0,1 PUE ở quy mô siêu lớn cũng có thể tiết kiệm hàng triệu đô la mỗi năm. WUE, hay Hiệu quả Sử dụng Nước , hiện cũng quan trọng không kém. Các cơ quan quản lý và cộng đồng đang xem xét kỹ lưỡng việc sử dụng nước của trung tâm dữ liệu, và đặc biệt là các hệ thống làm mát vòng hở đang phải đối mặt với những rủi ro chính trị và ESG ngày càng gia tăng.
Đối với hội đồng quản trị và các nhà tài chính, những con số này không phải là chuyện vặt vãnh về mặt kỹ thuật. Chúng quyết định biên lợi nhuận hoạt động, sự chấp thuận của cơ quan quản lý và cuối cùng là hệ số định giá.
Nơi đổi mới làm mát dẫn đầu
Meta đã và đang tích cực triển khai hệ thống làm mát trực tiếp lên chip trên khắp các cơ sở AI, kết hợp với việc tái chế nước để tăng mật độ rack trong khi vẫn kiểm soát được chi phí vận hành. Chiến lược này giúp khối lượng công việc AI khả thi về mặt kinh tế ở quy mô lớn.
Microsoft đã tiến xa hơn nữa với Dự án Natick, đặt máy chủ dưới nước biển và thử nghiệm phương pháp ngâm kết hợp với làm mát bằng nước biển. Mặc dù chưa phải là mô hình chính thống, nhưng thí nghiệm này đã cho thấy cách tiếp cận nhiệt độ và địa điểm đặt máy chủ triệt để có thể thiết lập lại cả về mặt kinh tế lẫn thiết kế.
Các công ty khởi nghiệp như Submer và Nautilus đang thúc đẩy các trung tâm dữ liệu nhúng và nổi, cung cấp các nền tảng chuyên biệt mà các công ty hiện tại có thể mua lại để đẩy nhanh quá trình áp dụng. Những dự án này không chỉ đại diện cho tiến bộ kỹ thuật mà còn là cơ hội đầu tư mạo hiểm và động lực M&A.
Tương lai của hệ thống làm mát trong kỷ nguyên AI
AI đang buộc phải thiết lập lại cấu trúc. Kỷ nguyên điều chỉnh luồng khí gia tăng đang nhường chỗ cho các cơ sở hạ tầng sẵn sàng cho chất lỏng được thiết kế cho các giá đỡ tiêu thụ 50–100 kW trở lên.
Thập kỷ tới có thể sẽ được định hình bởi môi trường lai, nơi khối lượng công việc của doanh nghiệp vẫn được làm mát bằng không khí trong khi khối lượng công việc AI đòi hỏi các giải pháp lỏng. Các nhà vận hành phải thiết kế các cơ sở có khả năng hỗ trợ cả hai.
Các hệ thống làm mát không dùng nước, vòng kín và sử dụng môi chất lạnh, sẽ được mở rộng khi tình trạng khan hiếm nước và áp lực pháp lý gia tăng. Dự kiến WUE sẽ xuất hiện cùng với PUE trong các báo cáo ESG, khi các nhà đầu tư yêu cầu trách nhiệm giải trình.
Tính bền vững sẽ trở thành yếu tố khác biệt trong việc ra quyết định của khách hàng. Khách hàng sẽ không chỉ quan tâm đến thời gian hoạt động; họ còn xem xét kỹ lưỡng lượng khí thải carbon và nước của mỗi chu kỳ suy luận hoặc đào tạo.
Và cuối cùng, các chiến lược làm mát sẽ được đưa vào phòng họp. Chúng sẽ xuất hiện trong các cuộc họp báo cáo thu nhập, bản cáo bạch, chiến lược cơ sở hạ tầng quốc gia và các cuộc tranh luận chính sách. Thiết kế nhiệt đang chuyển từ một vấn đề kỹ thuật sang vấn đề phân bổ vốn.
Những lầm tưởng và quan niệm sai lầm về làm mát
Nhiều người cho rằng không khí luôn là đủ. Nhưng ở mật độ AI, nó đơn giản là không thể chịu được nhiệt. Những người khác lại cho rằng làm mát bằng chất lỏng quá rủi ro. Rủi ro rò rỉ là có thật, nhưng kỹ thuật hiện đại đã giảm thiểu chúng, và những người áp dụng sớm đã chứng minh được tính khả thi ở quy mô lớn. Một quan niệm sai lầm cuối cùng là làm mát chỉ đơn thuần là chi phí vận hành. Trên thực tế, các lựa chọn làm mát ảnh hưởng đến chi phí đầu tư, sử dụng đất, tuân thủ tính bền vững và giá trị bán lại tài sản. Bản thân nó đã là một chiến lược tài sản.
Tại sao làm mát hiện là một lợi thế cạnh tranh
Trong nhiều thập kỷ, hệ thống làm mát vốn vô hình, ẩn mình trong tầng hầm, nhà máy trên mái và ống dẫn. Ngày nay, nó là một biến số quyết định khả năng cạnh tranh.
Các nhà đầu tư nên xem xét kỹ lưỡng các chiến lược làm mát với cùng mức độ nghiêm ngặt như khi áp dụng cho các hợp đồng điện. Các nhà vận hành phải quyết định xem nên cải tạo các cơ sở hiện có hay xây dựng lại hoàn toàn để chuyển sang sử dụng chất lỏng. Các công ty công nghệ cần điều chỉnh lộ trình chip cho phù hợp với cơ sở hạ tầng làm mát. Các nhà hoạch định chính sách phải cân nhắc giữa khả năng cạnh tranh của ngành công nghiệp với việc sử dụng nước và các mối lo ngại về tính bền vững.
Những người thành thạo về làm mát không chỉ cắt giảm chi phí mà còn giành được khách hàng, đạt được sự chấp thuận của cơ quan quản lý và giành được thị phần.
Bài học cuối cùng
Trước đây, việc làm mát được giao cho các kỹ sư. Giờ đây, nó được tranh luận trong phòng họp.
Trong thời đại AI, ai kiểm soát được nhiệt độ thì người đó sẽ chiến thắng.
Những người chiến thắng sẽ không phải là những người có megawatt rẻ nhất, mà là những người có chiến lược nhiệt thông minh nhất, những người có thể cân bằng hiệu suất, tính bền vững và tính kinh tế ở quy mô lớn.

