Anasayfa » NVIDIA H100

NVIDIA H100

NVIDIA® H100

SKU: NVH100TCGPU-KIT

NVIDIA H100 PCIe

Her Veri Merkezi için Benzeri Görülmemiş Performans, Ölçeklenebilirlik ve Güvenlik

NVIDIA® H100 Tensor Core GPU, her veri merkezi için benzeri görülmemiş performans, ölçeklenebilirlik ve güvenlik ile büyük ölçekli yapay zeka ve HPC için büyük bir sıçrama sağlar ve yapay zeka geliştirme ve dağıtımını kolaylaştırmak için NVIDIA AI Enterprise yazılım paketini içerir. H100, trilyon parametreli dil modelleri için özel bir Transformer Engine ile exascale ölçekli iş yüklerini hızlandırır. Küçük işler için H100, doğru boyutta Çok Örnekli GPU (MIG) bölümlerine ayrılabilir. Hopper Confidential Computing ile bu ölçeklenebilir işlem gücü, paylaşılan veri merkezi altyapısında hassas uygulamaların güvenliğini sağlayabilir. NVIDIA AI Enterprise’ın H100 PCIe satın alımlarına dahil edilmesi, geliştirme süresini kısaltır ve AI iş yüklerinin dağıtımını basitleştirir ve H100’ü en güçlü uçtan uca AI ve HPC veri merkezi platformu haline getirir.

NVIDIA Hopper mimarisi, her veri merkezine benzeri görülmemiş performans, ölçeklenebilirlik ve güvenlik sunar. Hopper, Transformer Engine gibi yeni işlem çekirdeği özelliklerinden daha hızlı ağa kadar önceki nesillerin üzerine inşa edilerek veri merkezini önceki nesle göre büyüklük sırasına göre hızlandırır. NVIDIA NVLink, iki H100 kartı arasında ultra yüksek bant genişliğini ve son derece düşük gecikme süresini destekler ve bellek havuzlama ve performans ölçeklendirmeyi destekler (uygulama desteği gereklidir). İkinci nesil MIG, 7 kat daha güvenli kiracılar için QoS’yi (hizmet kalitesi) en üst düzeye çıkarmak amacıyla GPU’yu izole edilmiş doğru boyutlu örneklere güvenli bir şekilde böler. Hızlandırılmış yapay zeka iş akışlarının geliştirilmesini ve dağıtımını optimize eden bir yazılım paketi olan NVIDIA AI Enterprise’ın (H100 PCIe’ye özel) dahil edilmesi, bu yeni H100 mimari yenilikleri sayesinde performansı en üst düzeye çıkarır. Bu teknoloji atılımları, dünyanın şimdiye kadar üretilmiş en gelişmiş GPU’su olan H100 Tensor Core GPU’yu beslemektedir.

Performance Highlights
FP64	26 TFLOPS
FP64 Tensor Core	51 TFLOPS
FP32	51 TFLOPS
TF32 Tensor Core	51 TFLOPS \| Sparsity
BFLOAT16 Tensor Core	1513 TFLOPS \| Sparsity
FP16 Tensor Core	1513 TFLOPS \| Sparsity
FP8 Tensor Core	3026 TFLOPS \| Sparsity
INT8 Tensor Core	3026 TOPS \| Sparsity
GPU Memory	80GB HBM2e
GPU Memory Bandwidth	2.0 TB/sec
Maximum Power Consumption	350 W

1. L4’ün FP8’i T4’ün FP16’sına kıyasla.
2. 720p30’da 8x L4 AV1 düşük gecikmeli P1 ön ayar kodlaması.
3. 8x L4 vs 2S Intel 8362 CPU sunucu performans karşılaştırması: CV-CUDA ön ve son işleme, kod çözme, çıkarım (SegFormer), kodlama, TRT 8.6 ile uçtan uca video işlem hattı vs OpenCV kullanan sadece CPU işlem hattı.

Dünyanın En Gelişmiş Çipi

NVIDIA’nın hızlandırılmış bilgi işlem ihtiyaçları için özel olarak tasarlanmış son teknoloji TSMC 4N süreci kullanılarak 80 milyar transistörle üretilen H100, dünyanın şimdiye kadar üretilmiş en gelişmiş çipidir. Veri merkezi ölçeğinde yapay zeka, HPC, bellek bant genişliği, ara bağlantı ve iletişimi hızlandırmak için önemli gelişmeler içeriyor.

NVIDIA Hopper Mimarisi

NVIDIA Hopper GPU mimarisi tarafından desteklenen NVIDIA H100 Tensor Core GPU, NVIDIA’nın veri merkezi platformları için hızlandırılmış bilgi işlem performansında bir sonraki büyük sıçramayı sunar. H100, küçük kurumsal iş yüklerinden exascale HPC’ye ve trilyon parametreli yapay zeka modellerine kadar çeşitli iş yüklerini güvenli bir şekilde hızlandırır. TSMC’nin NVIDIA için özelleştirilmiş 4N süreci kullanılarak 80 milyar transistörle hayata geçirilen ve çok sayıda mimari ilerleme içeren H100, dünyanın şimdiye kadar üretilmiş en gelişmiş çipidir.

Dördüncü Nesil Tensör Çekirdekleri

Yeni dördüncü nesil Tensör Çekirdekleri, SM başına hızlanma, ek SM sayısı ve H100’ün daha yüksek saatleri dahil olmak üzere A100’e kıyasla çipten çipe 6 kata kadar daha hızlıdır. SM başına Tensör Çekirdekleri, önceki nesil 16 bit kayan nokta seçeneklerine kıyasla, eşdeğer veri türlerinde A100 SM’nin 2 katı MMA (Matris Çarpma-Toplama) hesaplama hızı ve yeni FP8 veri türünü kullanarak A100’ün 4 katı hız sunar. Sparsity özelliği, derin öğrenme ağlarında ince taneli yapılandırılmış seyreklikten yararlanarak standart Tensor Core işlemlerinin performansını iki katına çıkarır.

Yapısal Seyreklik

Yapay zeka ağları büyüktür, milyonlarca ila milyarlarca parametreye sahiptir. Doğru tahminler için bu parametrelerin hepsine ihtiyaç yoktur ve bazıları, doğruluktan ödün vermeden modelleri “seyrek” hale getirmek için sıfıra dönüştürülebilir. H100’deki Tensör Çekirdekleri seyrek modeller için 2 kata kadar daha yüksek performans sağlayabilir. Seyreklik özelliği yapay zeka çıkarımına daha kolay fayda sağlarken, model eğitiminin performansını da artırabilir.

Transformer Engine Yapay Zekayı Güçlendiriyor, 30 Kata Kadar Daha Yüksek Performans

Transformer modelleri, günümüzde BERT’ten GPT-3’e kadar yaygın olarak kullanılan dil modellerinin bel kemiğidir. Başlangıçta doğal dil işleme (NLP) kullanım durumları için geliştirilen Transformer’ın çok yönlülüğü, bilgisayarla görme, ilaç keşfi ve daha fazlasına giderek daha fazla uygulanmaktadır. Boyutları katlanarak artmaya devam ediyor, şimdi trilyonlarca parametreye ulaşıyor ve iş ihtiyaçları için pratik olmayan büyük matematik bağlı hesaplama nedeniyle eğitim sürelerinin aylara uzamasına neden oluyor. Transformer Engine, dünyanın en önemli yapay zeka modeli yapı taşı olan Transformer’dan oluşturulan modellerin eğitimini hızlandırmak için özel olarak tasarlanmış yazılım ve özel Hopper Tensor Core teknolojisini kullanır. Hopper Tensör Çekirdekleri, transformatörlerin yapay zeka hesaplamalarını önemli ölçüde hızlandırmak için karışık 8 bit kayan nokta (FP8) ve FP16 hassasiyet formatlarını uygulama yeteneğine sahiptir.

Yeni DPX Talimatları

Dinamik programlama, karmaşık bir özyinelemeli problemi daha basit alt problemlere ayırarak çözmeye yarayan algoritmik bir tekniktir. Alt problemlerin sonuçlarını daha sonra yeniden hesaplamak zorunda kalmamak için saklayarak, üstel problem çözme süresini ve karmaşıklığını azaltır. Dinamik programlama çok çeşitli kullanım durumlarında yaygın olarak kullanılır. Örneğin, Floyd-Warshall, nakliye ve teslimat filoları için en kısa rotaları eşleştirmek için kullanılabilen bir rota optimizasyon algoritmasıdır. Smith-Waterman algoritması DNA dizisi hizalama ve protein katlama uygulamaları için kullanılır. Hopper, dinamik programlama algoritmalarını CPU’lara kıyasla 40 kat (DPU talimatları CPU karşılaştırmasına göre 40 kat) ve NVIDIA Ampere mimarili GPU’lara kıyasla 7 kat hızlandırmak için DPX talimatlarını sunar. Bu da hastalık teşhisinde, gerçek zamanlı yönlendirme optimizasyonlarında ve hatta grafik analizlerinde önemli ölçüde daha hızlı süreler elde edilmesini sağlar.

Yeni Thread Block Cluster Özelliği

Tek bir SM üzerindeki tek bir İş Parçacığı Bloğundan daha büyük bir ayrıntıda yerelliğin programatik kontrolüne izin verir. Bu, programlama hiyerarşisine bir seviye daha ekleyerek CUDA programlama modelini genişletir ve artık İş Parçacıkları, İş Parçacığı Blokları, İş Parçacığı Blok Kümeleri ve Izgaraları içerir. Kümeler, birden fazla SM üzerinde eş zamanlı olarak çalışan birden fazla İş Parçacığı Bloğunun senkronize olmasını ve birlikte veri alıp vermesini sağlar.

Geliştirilmiş Eşzamansız Yürütme Özellikleri

Yeni Asenkron Yürütme özellikleri arasında, büyük veri bloklarını global bellek ve paylaşılan bellek arasında çok verimli bir şekilde aktarabilen yeni bir Tensör Bellek Hızlandırıcı (TMA) birimi bulunmaktadır. TMA ayrıca bir Kümedeki İş Parçacığı Blokları arasında asenkron kopyalamaları da destekler. Atomik veri hareketi ve senkronizasyon yapmak için yeni bir Asenkron İşlem Bariyeri de bulunmaktadır.

İkinci Nesil Çok Örnekli GPU (MIG) Teknolojisi

Daha önce Ampere’de tanıtılan Multi-Instance GPU (MIG) ile bir GPU, kendi bellekleri, önbellekleri ve hesaplama çekirdekleri ile daha küçük, tamamen izole edilmiş birkaç örneğe bölünebilir. Hopper mimarisi, yedi adede kadar güvenli GPU örneğinde sanallaştırılmış ortamlarda çok kiracılı, çok kullanıcılı yapılandırmaları destekleyerek MIG’yi daha da geliştirir ve her örneği donanım ve hipervizör düzeyinde gizli bilgi işlemle güvenli bir şekilde izole eder. Her MIG örneği için özel video kod çözücüler, paylaşılan altyapı üzerinde güvenli, yüksek verimli akıllı video analizi (IVA) sunar. Hopper’ın eş zamanlı MIG profilleme özelliği sayesinde yöneticiler doğru boyutta GPU hızlandırmasını izleyebilir ve kullanıcılar için kaynak tahsisini optimize edebilir. Daha küçük iş yüklerine sahip araştırmacılar, tam bir CSP örneği kiralamak yerine, bir GPU’nun bir bölümünü güvenli bir şekilde izole etmek için MIG kullanmayı seçebilir ve verilerinin dinlenme, aktarım ve hesaplama sırasında güvende olduğundan emin olabilirler.

Yeni Gizli Bilgi İşlem Desteği

Günümüzün gizli bilgi işlem çözümleri CPU tabanlıdır ve bu da yapay zeka ve HPC gibi yoğun bilgi işlem gerektiren iş yükleri için çok sınırlıdır. NVIDIA Confidential Computing, NVIDIA Hopper mimarisinin yerleşik bir güvenlik özelliğidir ve NVIDIA H100’ü dünyanın gizli bilgi işlem özelliklerine sahip ilk hızlandırıcısı yapar. Kullanıcılar, H100 GPU’ların eşsiz hızlandırmasına erişirken kullanımdaki verilerinin ve uygulamalarının gizliliğini ve bütünlüğünü koruyabilir. Tek bir H100 GPU’da, bir düğümdeki birden fazla H100 GPU’da veya bireysel MIG örneklerinde çalışan tüm iş yükünü güvence altına alan ve izole eden donanım tabanlı bir güvenilir yürütme ortamı (TEE) oluşturur. GPU ile hızlandırılan uygulamalar TEE içinde değişmeden çalışabilir ve bölümlere ayrılması gerekmez. Kullanıcılar, yapay zeka ve HPC için NVIDIA yazılımının gücünü NVIDIA Confidential Computing tarafından sunulan donanım güven kökünün güvenliğiyle birleştirebilir.

HBM2e Bellek Alt Sistemi

H100, veri merkezlerine büyük miktarda işlem getiriyor. Bu işlem performansını tam olarak kullanmak için NVIDIA H100 PCIe, önceki nesle göre yüzde 50 artışla saniyede 2 terabayt (TB/sn) bellek bant genişliğiyle sınıfında lider olan HBM2e belleği kullanıyor. H100, 80 gigabayt (GB) HBM2e belleğe ek olarak 50 megabayt (MB) L2 önbellek içerir. Bu daha hızlı HBM bellek ve daha büyük önbelleğin birleşimi, hesaplama açısından en yoğun yapay zeka modellerini hızlandırma kapasitesi sağlar.

Dördüncü Nesil NVIDIA NVLink

Tüm indirgeme işlemlerinde 3 kat bant genişliği artışı ve PCIe Gen 5’in yaklaşık 5 katı bant genişliğinde çalışan çoklu GPU IO için 900 GB/sn toplam bant genişliği ile önceki nesil NVLink’e göre %50 genel bant genişliği artışı sağlar.

Son Teknoloji CPU’lar ve DPU’lar için PCIe Gen5

H100, NVIDIA’nın PCIe Gen5’i destekleyen ilk GPU’sudur ve 128GB/s’de (çift yönlü) mümkün olan en yüksek hızları sağlar. Bu hızlı iletişim, en yüksek performanslı CPU’ların yanı sıra güvenli HPC ve AI iş yükleri için 400 Gb/sn’ye kadar Ethernet veya NDR 400 Gb/sn InfiniBand ağ hızlandırma sağlayan NVIDIA ConnectX-7 SmartNIC’ler ve BlueField-3 DPU’lar ile optimum bağlantı sağlar.

Kurumsal Hazır: Yapay Zeka Yazılımı Geliştirme ve Dağıtımı Kolaylaştırıyor

Yapay zekanın kurumsal olarak benimsenmesi artık ana akım haline geldi ve kuruluşlar, bu yeni dönem için kendilerini geleceğe hazırlayacak uçtan uca, yapay zekaya hazır bir altyapıya ihtiyaç duyuyor. Ana akım sunuculara (PCIe) yönelik NVIDIA H100 Tensor Core GPU’lar, NVIDIA AI Enterprise yazılımıyla birlikte gelir ve eğitim, çıkarım ve veri biliminde en yüksek performansla yapay zekayı neredeyse her kuruluş için erişilebilir hale getirir. NVIDIA H100 ile birlikte NVIDIA AI Enterprise, yapay zekaya hazır bir platform oluşturmayı basitleştirir, kurumsal düzeyde destekle yapay zeka geliştirme ve dağıtımını hızlandırır ve daha hızlı içgörü elde etmek ve iş değerine daha erken ulaşmak için performans, güvenlik ve ölçeklenebilirlik sunar.

NVIDIA H100

NVIDIA® H100

NVIDIA H100 PCIe

Her Veri Merkezi için Benzeri Görülmemiş Performans, Ölçeklenebilirlik ve Güvenlik

Performance Highlights

FP64

FP64 Tensor Core

FP32

TF32 Tensor Core

BFLOAT16 Tensor Core

FP16 Tensor Core

FP8 Tensor Core

INT8 Tensor Core

GPU Memory

GPU Memory Bandwidth

Maximum Power Consumption