Thế hệ GPU NVIDIA Hopper Tensor Core H100 đang được sản xuất đại trà

Các nhà sản xuất máy tính hàng đầu thế giới như Dell Technologies, HPE, Lenovo, Supermicro, cùng các nhà cung cấp dịch vụ đám mây AWS, Google Cloud, Microsoft Azure, Oracle Cloud Infrastructure sẽ sản xuất các phiên bản GPU NVIDIA Hopper H100 và bán ra vào tháng 10-2022.

Tại Hội nghị Công nghệ GPU (GTC) 2022 do NVIDIA tổ chức từ ngày 19 đến 22-9-2022, Công ty NVIDIA đã thông báo rằng các hệ thống dựa trên NVIDIA H100 Tensor Core GPU đang được sản xuất hoàn chỉnh từ các đối tác công nghệ toàn cầu và được lên kế hoạch để tung ra làn sóng sản phẩm và dịch vụ đầu tiên dựa trên kiến trúc NVIDIA Hopper đột phá vào tháng 10-2022.

Được NVIDIA công bố vào tháng 4-2022, H100 có 80 tỷ bóng bán dẫn và được tích hợp một loạt đột phá công nghệ. Trong số đó có công cụ Transformer Engine mới đầy mạnh mẽ cùng kết nối NVIDIA NVLink thế hệ thứ 4 để tăng tốc các mô hình AI lớn nhất, như hệ thống đề xuất nâng cao và mô hình ngôn ngữ lớn (large language model, LLM), đồng thời thúc đẩy các đổi mới trong các lĩnh vực như AI đàm thoại và khám phá y dược.

Ông Jensen Huang, người sáng lập và Giám đốc điều hành của NVIDIA, chia sẻ: “Hopper là engine mới của các nhà máy AI có khả năng xử lý và tinh chỉnh hàng núi dữ liệu để đào tạo các mô hình cùng hàng nghìn tỷ thông số được sử dụng để thúc đẩy những tiến bộ trong AI dựa trên ngôn ngữ, robot, chăm sóc sức khỏe và khoa học đời sống. Transformer Engine của Hopper sẽ nâng cao hiệu suất lên đến mức độ lớn, đưa AI và HPC quy mô lớn đến tầm tay của các công ty và nhà nghiên cứu.”

Hopper cũng đi kèm với công nghệ Secure Multi-Instance GPU (MIG) thế hệ thứ 2 của NVIDIA, cho phép một GPU duy nhất được phân chia thành nhiều phân vùng bảo mật hoạt động độc lập và tách biệt.

Hopper có một số cải tiến so với Ampere, kiến trúc tiền nhiệm được giới thiệu vào năm 2020. Đáng kể nhất là Transformer Engine mới. Các Transformer là các mô hình học sâu (deep learning) được sử dụng rộng rãi và là mô hình tiêu chuẩn được lựa chọn để xử lý ngôn ngữ tự nhiên. NVIDIA cho biết H100 Transformer Engine có thể tăng tốc mạng nơ-ron (neural network) lên gấp sáu lần so với Ampere mà không làm mất độ chính xác.

Ngoài kiến trúc Hopper và Transformer Engine, một số cải tiến quan trọng khác giúp GPU H100 mang đến bước nhảy vọt tiếp theo trong nền tảng trung tâm dữ liệu máy tính tăng tốc của NVIDIA, bao gồm GPU đa phiên bản thế hệ thứ hai, điện toán bảo mật, NVIDIA NVLink thế hệ thứ tư và DPX Instructions.

Bản quyền sử dụng 5 năm cho bộ phần mềm NVIDIA AI Enterprise hiện đã đi kèm với H100 cho các máy chủ chính thống. Điều này giúp tối ưu hóa việc phát triển và triển khai các quy trình làm việc của AI cũng như bảo đảm các tổ chức có quyền truy cập vào các khuôn khổ và công cụ AI cần thiết để xây dựng các chatbot AI, công cụ đề xuất, tầm nhìn AI và hơn thế nữa.

Hopper trên toàn cầu

Trong khi các GPU thông thường vốn được biết đến là không có hiệu suất năng lượng, theo NVIDIA, H100 cho phép các công ty cắt giảm chi phí triển khai AI, mang lại hiệu năng AI tương tự với hiệu suất năng lượng cao hơn 3,5 lần và tổng chi phí sở hữu (total-cost-of-ownership, TCO) thấp hơn 3 lần, đồng thời sử dụng ít node máy chủ hơn 5 lần so với thế hệ trước.

Đối với những khách hàng muốn ngay lập tức dùng thử công nghệ mới, NVIDIA thông báo rằng H100 trên máy chủ Dell PowerEdge server hiện đã có trên Website NVIDIA LaunchPad, nơi cung cấp phòng thí nghiệm thực hành miễn phí, cho phép các công ty truy cập vào phần cứng và phần mềm NVIDIA AI mới nhất.

Khách hàng cũng có thể bắt đầu đặt hàng hệ thống NVIDIA DGX H100, bao gồm 8 GPU H100 và mang lại hiệu suất 32 petaflop ở độ chính xác FP8. Phần mềm NVIDIA Base Command và NVIDIA AI Enterprise hỗ trợ mọi hệ thống DGX, cho phép triển khai từ một nút duy nhất đến NVIDIA DGX SuperPOD hỗ trợ phát triển AI nâng cao của các mô hình ngôn ngữ lớn và khối lượng công việc lớn khác.

Các hệ thống hỗ trợ H100 từ các nhà sản xuất máy tính hàng đầu thế giới dự kiến sẽ xuất xưởng trong những tuần tới, với hơn 50 mẫu máy chủ trên thị trường vào cuối năm 2022 và hàng chục mẫu nữa vào nửa đầu năm 2023. Các đối tác xây dựng hệ thống bao gồm Atos, Cisco, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Lenovo và Supermicro.

Ngoài ra, một số cơ sở giáo dục đại học và nghiên cứu hàng đầu thế giới sẽ sử dụng H100 để cung cấp sức mạnh cho siêu máy tính thế hệ tiếp theo của họ. Trong số đó có Trung tâm Siêu máy tính Barcelona, Phòng Thí nghiệm Quốc gia Los Alamos, Trung tâm Siêu máy tính Quốc gia Thụy Sĩ (CSCS), Trung tâm Máy tính Tiên tiến Texas và Đại học Tsukuba.

H100 tiến lên đám mây

Amazon Web Services, Google Cloud, Microsoft Azure và Oracle Cloud Infrastructure sẽ là những công ty đầu tiên triển khai các phiên bản H100 trên đám mây của họ, bắt đầu từ năm 2023.

Bà Nidhi Chappell, Tổng Giám đốc Azure AI Infrastructure của Microsoft, cho biết. “Chúng tôi mong muốn cho phép thế hệ tiếp theo của các mô hình AI trên GPU H100 mới nhất trong Microsoft Azure. Với những tiến bộ trong kiến trúc Hopper cùng với các khoản đầu tư của chúng tôi vào Azure AI siêu máy tính, chúng tôi sẽ có thể giúp đẩy nhanh sự phát triển của AI trên toàn thế giới.”

Ông Karan Batta, Phó Chủ tịch, Quản lý sản phẩm của Oracle Cloud Infrastructure (OCI), cho biết: “Chúng tôi mong muốn cung cấp cho khách hàng GPU H100 mới nhất từ NVIDIA để giúp họ tăng tốc quá trình máy học và khối lượng công việc HPC khắt khe nhất của họ. Ngoài ra, việc sử dụng thế hệ GPU H100 tiếp theo của NVIDIA cho phép chúng tôi hỗ trợ khối lượng công việc nội bộ đòi hỏi khắt khe của mình và giúp các khách hàng chung của chúng tôi có được những đột phá trong lĩnh vực chăm sóc sức khỏe, phương tiện tự hành, robot và IoT.”

Hỗ trợ phần mềm NVIDIA

Công nghệ Transformer Engine tiên tiến của H100 cho phép các doanh nghiệp phát triển nhanh chóng các mô hình ngôn ngữ lớn với mức độ chính xác cao hơn. Khi các mô hình này tiếp tục phát triển về quy mô, sự phức tạp cũng tăng theo, đôi khi cần phải đào tạo hàng tháng trời.

Để giải quyết vấn đề này, một số khuôn khổ học sâu và mô hình ngôn ngữ lớn hàng đầu thế giới đang được tối ưu hóa trên H100, bao gồm NVIDIA NeMo Megatron, Microsoft DeepSpeed, Google JAX, PyTorch, TensorFlow và XLA. Các khuôn khổ này kết hợp với kiến trúc Hopper sẽ tăng tốc đáng kể hiệu suất của AI để giúp đào tạo các mô hình ngôn ngữ lớn trong vòng vài ngày hoặc vài giờ.