Thứ Hai ngày 23 tháng 12 năm 2024

NVIDIA công bố siêu máy tính DGX GH200 AI

Ngày 29-5-2023, mở đầu loạt keynote chính của các nhà lãnh đạo doanh nghiệp công nghệ lớn toàn cầu tại Triển lãm công nghệ máy tính thương niên lớn nhất thê giới COMPUTEX Taipei 2023 (diễn ra tại Taipei từ 30-5 đến 2-6-2023), ông Jensen Huang, nhà sáng lập và CEO của NVIDIA, đã có bài phát biểu dài 2 tiếng đồng hồ. Trong đó, ông đã giới thiệu về siêu máy tính DGX GH200 AI.

Ông Jensen Huang trình bày keynote tại COMPUTEX Taipei ngày 29-5-2023. (Ảnh: MediaOnline).

NVIDIA ngày 29-5-2023 đã công bố một lớp siêu máy tính (supercomputer) có AI bộ nhớ lớn là NVIDIA DGX GH200 chạy siêu chip (superchip) mới NVIDIA GH200 Grace Hopper và hệ thống NVIDIA NVLink Switch System – được tạo ra để cho phép phát triển các mô hình khổng lồ, thế hệ tiếp theo cho các ứng dụng ngôn ngữ AI tạo sinh (generative AI), hệ thống đề xuất (recommender systems) và khối lượng công việc phân tích dữ liệu.

Siêu máy tính NVIDIA DGX GH200.

Không gian bộ nhớ chia sẻ khổng lồ của NVIDIA DGX GH200 sử dụng công nghệ kết nối NVLink với Hệ thống chuyển mạch (Switch System NVLink để kết hợp 256 siêu chip GH200, cho phép chúng hoạt động như một GPU duy nhất. Điều này cung cấp 1 exaflop hiệu năng và 144 terabyte bộ nhớ dùng chung – bộ nhớ nhiều hơn gần 500 lần so với NVIDIA DGX A100 thế hệ trước được giới thiệu vào năm 2020.

Ông Jensen Huang: “AI tạo sinh, mô hình ngôn ngữ lớn (large language model, LLM) và hệ thống đề xuất là động cơ kỹ thuật số (digital engines) của nền kinh tế hiện đại. Siêu máy tính AI DGX GH200 tích hợp các công nghệ mạng và điện toán tăng tốc tiên tiến nhất của NVIDIA để mở rộng ranh giới của AI.”

Các siêu chip GH200 loại bỏ nhu cầu kết nối PCIe giữa CPU với GPU truyền thống bằng cách kết hợp CPU NVIDIA Grace dựa trên Arm với GPU NVIDIA H100 Tensor Core trong cùng một gói, sử dụng các kết nối chip NVIDIA NVLink-C2C. Điều này giúp tăng băng thông giữa GPU và CPU lên gấp 7 lần so với công nghệ PCIe mới nhất (PCIe Gen 5.0), giảm mức tiêu thụ điện năng kết nối hơn 5 lần và cung cấp khối xây dựng GPU kiến trúc Hopper 600GB cho siêu máy tính DGX GH200.

DGX GH200 là siêu máy tính đầu tiên ghép đôi siêu chip Grace Hopper với hệ thống chuyển mạch NVIDIA NVLink, một kết nối mới cho phép tất cả các GPU trong hệ thống DGX GH200 hoạt động cùng nhau như một GPU duy nhất. Hệ thống thế hệ trước chỉ cung cấp tám GPU được kết hợp với NVLink dưới dạng một GPU mà không ảnh hưởng đến hiệu năng.

Kiến trúc DGX GH200 cung cấp băng thông NVLink nhiều hơn 48 lần so với thế hệ trước, mang lại sức mạnh của một siêu máy tính AI khổng lồ với sự đơn giản trong việc lập trình một GPU.

Google Cloud, Meta và Microsoft nằm trong số những công ty đầu tiên được cho là sẽ có quyền truy cập vào DGX GH200 để khám phá các khả năng của nó đối với khối lượng công việc AI tạo sinh. NVIDIA cũng dự định cung cấp thiết kế DGX GH200 dưới dạng bản thiết kế (blueprint) cho các nhà cung cấp dịch vụ đám mây và các công ty siêu máy tính khác (hyperscaler) để họ có thể tùy chỉnh thêm cho cơ sở hạ tầng của mình.

Ông Mark Lohmeyer, Phó Chủ tịch Điện toán tại Google Cloud, cho biết: “Việc xây dựng các mô hình thế hệ tiên tiến đòi hỏi các cách tiếp cận sáng tạo đối với cơ sở hạ tầng AI. Quy mô NVLink mới và bộ nhớ dùng chung của siêu chip Grace Hopper giải quyết các tắc nghẽn chính trong AI quy mô lớn và chúng tôi mong muốn khám phá các khả năng của nó cho Google Cloud và các sáng kiến AI tạo sinh của chúng tôi.”

Ông Alexis Björlin, Phó Chủ tịch Cơ sở hạ tầng, Hệ thống AI và Nền tảng tăng tốc tại Meta, cho biết: “Khi các mô hình AI phát triển lớn hơn, chúng cần cơ sở hạ tầng mạnh mẽ có thể mở rộng quy mô để đáp ứng nhu cầu ngày càng tăng. Thiết kế Grace Hopper của NVIDIA mong muốn cung cấp cho các nhà nghiên cứu khả năng khám phá những cách tiếp cận mới để giải quyết những thách thức lớn nhất của họ.”

Ông Girish Bablani, Phó Chủ tịch Nhóm Cơ sở hạ tầng Azure của Microsoft, cho biết: “Đào tạo các mô hình AI lớn theo truyền thống là một nhiệm vụ tốn nhiều thời gian và tài nguyên. Tiềm năng để DGX GH200 hoạt động với các bộ dữ liệu có kích thước hàng terabyte sẽ cho phép các nhà phát triển tiến hành nghiên cứu nâng cao ở quy mô lớn hơn và tốc độ nhanh hơn.”

NVIDIA đang xây dựng siêu máy tính AI dựa trên DGX GH200 của riêng mình để cung cấp sức mạnh cho công việc của các nhà nghiên cứu và nhóm phát triển.

Được đặt tên là NVIDIA Helios, siêu máy tính này sẽ có bốn hệ thống DGX GH200. Mỗi thiết bị sẽ được kết nối với mạng NVIDIA Quantum-2 InfiniBand để tăng cường thông lượng dữ liệu nhằm đào tạo các mô hình AI lớn. Helios sẽ bao gồm 1.024 siêu chip Grace Hopper và dự kiến sẽ ra mắt vào cuối năm 2023.

Siêu máy tính DGX GH200 bao gồm phần mềm NVIDIA để cung cấp giải pháp trọn gói, chìa khóa trao tay cho khối lượng công việc phân tích dữ liệu và AI lớn nhất. Phần mềm NVIDIA Base Command cung cấp khả năng quản lý luồng công việc AI, quản lý cụm cấp doanh nghiệp, thư viện tăng tốc điện toán, lưu trữ và cơ sở hạ tầng mạng cũng như phần mềm hệ thống được tối ưu hóa để chạy khối lượng công việc AI.

Ngoài ra còn có NVIDIA AI Enterprise, lớp phần mềm của nền tảng NVIDIA AI. Nó cung cấp hơn 100 khung, mô hình được đào tạo trước và công cụ phát triển để hợp lý hóa quá trình phát triển và triển khai AI sản xuất bao gồm AI tạo sinh, thị giác máy tính, AI lời nói, …

NVIDIA cho biết: siêu máy tính NVIDIA DGX GH200 dự kiến sẽ ra mắt vào cuối năm 2023.

I.L.N.

Nguồn do NVIDIA cung cấp.