I. Giriş
A. NVIDIA H200 NVL’ye Genel Bakış
Yapay zeka (AI), yüksek performanslı bilgi işlem (HPC) ve veri analitiği alanları, benzeri görülmemiş bir hızla gelişmeye devam ederken, bu ilerlemenin temelini oluşturan hesaplama gücüne olan talep de artmaktadır. NVIDIA, bu talebi karşılamak üzere tasarladığı H200 Tensor Core Grafik İşlem Birimi (GPU) ile endüstri için yeni bir ölçüt belirlemektedir. NVIDIA Hopper™ mimarisine dayanan H200, özellikle üretken yapay zeka ve büyük dil modelleri (LLM’ler) gibi devasa veri kümeleriyle çalışan uygulamalar için çığır açan performans ve bellek yetenekleri sunmaktadır. H200’ün PCIe tabanlı bir versiyonu olan H200 NVL, bu gücü daha geniş bir kurumsal sunucu yelpazesine taşıyarak, alan kısıtlamaları olan veri merkezleri için bile her ölçekteki yapay zeka ve HPC iş yükünü hızlandırma potansiyeli sunmaktadır.
B. Raporun Amacı ve Kapsamı
Bu rapor, NVIDIA H200 NVL GPU’sunu temel alarak, müşterilerin çeşitli iş yüklerine göre en uygun GPU modelini, kart sayısını ve sunucu yapılandırmasını belirlemelerine yardımcı olmak amacıyla hazırlanmıştır. Rapor, H200 NVL’nin temel özelliklerini ve avantajlarını detaylandıracak, en az 10 farklı kullanım senaryosu ve uygulama için düşük, orta ve yüksek iş yükü modellerine göre önerilen kart sayılarını sunacaktır. Ayrıca, H200 NVL için doğru sunucu altyapısının seçilmesi ve NVIDIA AI Enterprise (NVAE) yazılım platformunun bu çözümlere kattığı değer hakkında kapsamlı bilgiler sağlayacaktır. Bu kılavuz, GPU kartları ve sunucuları satan işletmelerin, müşterilerine en etkili ve verimli çözümleri sunmalarına olanak tanımayı hedeflemektedir.
II. NVIDIA H200 NVL: Temel Özellikler ve Avantajlar
A. Mimari ve Teknik Özellikler
NVIDIA H200 NVL, NVIDIA Hopper™ mimarisinin gücünü temel alır ve özellikle büyük ölçekli yapay zeka ve HPC iş yükleri için tasarlanmıştır.2 En dikkat çekici özelliklerinden biri, 141 GB kapasiteli HBM3e belleğe sahip olmasıdır. Bu bellek, saniyede 4.8 terabayt (TB/s) gibi muazzam bir bant genişliği sunar. Bu, önceki nesil H100 GPU’ya kıyasla bellek kapasitesinde neredeyse iki kat, bellek bant genişliğinde ise 1.4 kat artış anlamına gelir. Bu yüksek bellek kapasitesi ve bant genişliği, özellikle büyük dil modelleri (LLM’ler) ve karmaşık bilimsel simülasyonlar gibi yoğun bellek gerektiren uygulamalar için kritik öneme sahiptir. Verilerin GPU belleğine daha hızlı yüklenmesini ve işlenmesini sağlayarak darboğazları azaltır ve genel performansı artırır.
Hesaplama gücü açısından H200 NVL, çeşitli hassasiyet seviyelerinde etkileyici TFLOPS değerleri sunar. Örneğin, FP64 hassasiyetinde 30-34 TFLOPS, FP32 hassasiyetinde 60-67 TFLOPS performans gösterebilirken, Tensor Core’ları sayesinde TF32’de 835-989 TFLOPS, BFLOAT16/FP16’da 1,671-1,979 TFLOPS ve FP8’de 3,341-3,958 TFLOPS gibi çok daha yüksek değerlere ulaşabilir. Bu çoklu hassasiyet desteği, farklı iş yüklerinin gereksinimlerine göre hız ve doğruluk arasında optimum dengeyi kurmayı mümkün kılar.
H200 NVL, 600W’a kadar yapılandırılabilir bir Maksimum Termal Tasarım Gücüne (TDP) sahiptir.1 Ayrıca, Çoklu Örnek GPU (Multi-Instance GPU – MIG) teknolojisini destekleyerek, tek bir H200 NVL kartının her biri yaklaşık 16.5 GB belleğe sahip yedi adede kadar bağımsız GPU örneğine bölünebilmesine olanak tanır. Bu özellik, özellikle farklı ölçeklerde birden fazla iş yükünü aynı anda çalıştırması gereken ortamlar (örneğin, üniversite araştırma kümeleri veya çok sayıda küçük AI/ML geliştirme ekibine sahip işletmeler) için kaynak kullanımını ve maliyet etkinliğini önemli ölçüde artırır.6 MIG, pahalı bir H200 NVL kaynağının boşta kalmasını önleyerek, daha küçük çıkarım görevlerinin, geliştirme veya test süreçlerinin eş zamanlı olarak çalışmasına izin verir ve böylece yatırım getirisini (ROI) en üst düzeye çıkarır.
Bağlantı özellikleri arasında, GPU’lar arası yüksek hızlı iletişim için 2 veya 4 yollu NVIDIA NVLink™ köprüsü (GPU başına 900 GB/s) ve sisteme bağlantı için PCIe Gen5 (128 GB/s) bulunur.
B. H100’e Göre Performans Artışları
NVIDIA H200 NVL, önceki nesil amiral gemisi olan H100 GPU’ya kıyasla önemli performans iyileştirmeleri sunmaktadır. En belirgin fark, H200’ün sahip olduğu 141 GB HBM3e bellek ve 4.8 TB/s bellek bant genişliğidir; bu değerler H100’ün 80 GB HBM3 belleği ve 3.35 TB/s bant genişliğine göre sırasıyla yaklaşık %76 daha fazla kapasite ve %43 daha fazla bant genişliği anlamına gelir. Bu artırılmış bellek özellikleri, özellikle büyük dil modellerinin (LLM) çıkarım performansında kendini gösterir. Örneğin, Llama2 70B modelinin çıkarımında H100’e kıyasla 1.9 kata kadar, GPT-3 175B modelinin çıkarımında ise 1.6 kata kadar daha hızlı performans elde edildiği rapor edilmiştir. Bazı kaynaklar, Llama2 70B için H100’e göre çıkarım performansının iki katına çıktığını belirtmektedir. Yapılan MLPerf çıkarım testlerinde H200 NVL, H100 NVL’ye göre yaklaşık %74-85 performans avantajı göstermiştir.
H200 NVL’nin bu üstün bellek kapasitesi, “çözüme ulaşma süresi” ve “problem ölçeği fizibilitesi” açısından devrim niteliğindedir. LLM’ler için 141 GB bellek, Llama2 70B veya 100B+ parametreli daha büyük modellerin tek bir H200 NVL kartına veya daha az sayıda karta sığabilmesi anlamına gelir. Bu, birçok GPU arasında karmaşık tensör/boru hattı paralelliği ihtiyacını azaltır, bu da ek yük ve geliştirme karmaşıklığı getirir. HPC uygulamaları (örneğin, moleküler dinamik, fizik simülasyonları) için daha büyük veri kümeleri veya daha ayrıntılı simülasyonlar doğrudan GPU belleğine yüklenebilir, bu da hesaplama sırasında sistem RAM’inden veya depolamadan yapılan maliyetli veri aktarımlarını azaltır. Bu durum, yalnızca ham hesaplama hızından değil, aynı zamanda azaltılmış G/Ç beklemelerinden ve basitleştirilmiş ölçeklemeden dolayı “çözüme ulaşma süresini” doğrudan kısaltır. Ayrıca, daha önceki GPU’lardaki bellek kısıtlamaları nedeniyle daha önce mümkün olmayan problem boyutlarını artık pratik hale getirir.
HPC iş yüklerinde de H200, CPU’lara kıyasla 110 kata kadar daha hızlı sonuçlar sunabilmektedir. H200 NVL’nin HPC performansı, H100 NVL’ye göre 1.3 kata kadar iyileşme gösterebilir.8 Karışık HPC iş yüklerinde H200’ün, H100’e kıyasla 1.7 kat daha fazla performans sağladığı belirtilmiştir.14 Bu performans artışları, H200’ün daha gelişmiş bellek alt sistemine ve potansiyel mimari optimizasyonlarına bağlanabilir.
Enerji verimliliği açısından H200, H100 ile benzer bir güç profilinde (H200 NVL için 600W, H100 PCIe için 350-400W, H200 SXM için 700W, H100 SXM için 700W) daha yüksek performans sunar. Bu, watt başına daha fazla performans anlamına gelir ve LLM çıkarım iş yükleri için enerji kullanımını ve toplam sahip olma maliyetini (TCO) %50’ye kadar azaltabilir.
C. Kurumsal Kullanım için PCIe Form Faktörünün Önemi
NVIDIA H200 NVL’nin PCIe (Peripheral Component Interconnect Express) çift yuvalı hava soğutmalı form faktöründe sunulması, kurumsal veri merkezleri için önemli avantajlar sağlar. PCIe, sunucularda grafik kartları ve diğer genişletme kartları için yaygın olarak kullanılan standart bir arayüzdür. H200 NVL’nin bu standart form faktörde olması, onu çok çeşitli OEM (Orijinal Ekipman Üreticisi) sunucularıyla uyumlu hale getirir ve mevcut hava soğutmalı veri merkezi altyapılarına kolayca entegre edilmesini sağlar. Bu, NVIDIA’nın daha özel ve genellikle sıvı soğutma gerektiren HGX (SXM) platformlarına kıyasla daha geniş bir benimseme ve esneklik sunar.
Kuruluşlar, özel altyapı değişikliklerine veya büyük yatırımlara gerek kalmadan en son GPU teknolojisinden yararlanabilirler. PCIe form faktörü, özellikle alan ve güç kısıtlamaları olan veya mevcut altyapılarını kapsamlı bir şekilde değiştirmek istemeyen işletmeler için H200’ün güçlü yeteneklerine erişimi demokratikleştirir. H200 NVL, bu sayede daha geniş bir sunucu OEM yelpazesi tarafından benimsenebilir, bu da müşterilere daha fazla seçenek ve rekabetçi fiyatlandırma sunar.
Ancak, çoklu GPU yapılandırmalarında (bir sunucuda 2, 4 veya hatta 8 H200 NVL), NVLink köprüleme stratejisi (2 yollu veya 4 yollu), doğrudan GPU’dan GPU’ya iletişim yollarını ve bant genişliğini belirler. Bu, 8 GPU’lu bir HGX H200 SXM sistemindeki tam bağlantılı NVSwitch yapısından daha az tekdüzedir. GPU’lar arası iletişime duyarlı iş yüklerinin performansı, belirli PCIe sunucusundaki bu NVLink topolojisine büyük ölçüde bağlı olacaktır. Örneğin, aynı CPU soketi altındaki GPU’ların eşleştirilmesinin en iyisi olduğunu belirtmektedir. Bu nedenle, daha fazla sunucu seçeneği mevcut olsa da, müşterilerin iş yüklerinin iletişim ihtiyaçlarına uygun olduğundan emin olmak için çoklu H200 NVL sunucularındaki belirli NVLink uygulamasını dikkatlice incelemeleri gerekir.
III. H200 NVL için İş Yükü Profilleri ve Önerilen Kart Sayıları
NVIDIA H200 NVL’nin sunduğu yüksek bellek kapasitesi, bant genişliği ve hesaplama gücü, onu çok çeşitli zorlu iş yükleri için ideal bir çözüm haline getirmektedir. Ancak, optimum kart sayısı, iş yükünün özel gereksinimlerine (model boyutu, veri kümesi boyutu, hassasiyet ihtiyaçları, çıktı/gecikme hedefleri) bağlı olarak önemli ölçüde değişir. Bu nedenle, her bir iş yükü için düşük, orta ve yüksek yoğunluklu senaryolara göre yapılandırılmış öneriler sunulmaktadır.
1. Büyük Dil Modeli (LLM) Eğitimi (Fine-Tuning ve Sıfırdan Eğitim)
- Profil: Milyarlarca parametreye sahip büyük dil modellerinin (örn. GPT-3, Llama, PaLM) belirli görevler veya alanlar için ince ayarlanması (fine-tuning) veya daha küçük modellerin sıfırdan eğitilmesi. Bu süreç, büyük miktarda GPU belleği, yüksek bellek bant genişliği ve ham hesaplama performansı (özellikle TF32, BFLOAT16, FP16 hassasiyetlerinde) gerektirir. H200 NVL’nin 141 GB belleği, daha büyük modellerin ve yığın boyutlarının (batch sizes) tek bir GPU’ya sığmasına olanak tanır, bu da eğitim verimliliğini artırır. Transformer Motoru ve FP8 hassasiyeti, eğitimi A100 GPU’lara göre 5 kata kadar hızlandırabilir.5
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Daha küçük LLM’lerin (örn. <20B parametre) ince ayarı, araştırma ve deneyler, daha küçük veri kümeleriyle sıfırdan eğitim.
- Orta: 4 H200 NVL. Orta büyüklükteki LLM’lerin (örn. 20B-70B parametre) kapsamlı ince ayarı veya sıfırdan eğitimi, daha büyük veri kümeleri, daha hızlı iterasyon. NVLink köprüleri, GPU’lar arası verimli iletişim için kritik öneme sahiptir.
- Yüksek: 8 H200 NVL (sunucu başına, potansiyel olarak çoklu sunucular). Çok büyük LLM’lerin (>70B parametre) ince ayarı veya daha küçük ölçekli temel modellerin sıfırdan eğitimi, çok büyük veri kümeleri, üretim düzeyinde model geliştirme. Bu ölçekte, sunucular arası yüksek hızlı ağ bağlantısı da önemlidir.
1. Büyük Dil Modeli (LLM) Eğitimi (Fine-Tuning ve Sıfırdan Eğitim)
- Profil: Milyarlarca parametreye sahip büyük dil modellerinin (örn. GPT-3, Llama, PaLM) belirli görevler veya alanlar için ince ayarlanması (fine-tuning) veya daha küçük modellerin sıfırdan eğitilmesi. Bu süreç, büyük miktarda GPU belleği, yüksek bellek bant genişliği ve ham hesaplama performansı (özellikle TF32, BFLOAT16, FP16 hassasiyetlerinde) gerektirir. H200 NVL’nin 141 GB belleği, daha büyük modellerin ve yığın boyutlarının (batch sizes) tek bir GPU’ya sığmasına olanak tanır, bu da eğitim verimliliğini artırır. Transformer Motoru ve FP8 hassasiyeti, eğitimi A100 GPU’lara göre 5 kata kadar hızlandırabilir.5
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Daha küçük LLM’lerin (örn. <20B parametre) ince ayarı, araştırma ve deneyler, daha küçük veri kümeleriyle sıfırdan eğitim.
- Orta: 4 H200 NVL. Orta büyüklükteki LLM’lerin (örn. 20B-70B parametre) kapsamlı ince ayarı veya sıfırdan eğitimi, daha büyük veri kümeleri, daha hızlı iterasyon. NVLink köprüleri, GPU’lar arası verimli iletişim için kritik öneme sahiptir.
- Yüksek: 8 H200 NVL (sunucu başına, potansiyel olarak çoklu sunucular). Çok büyük LLM’lerin (>70B parametre) ince ayarı veya daha küçük ölçekli temel modellerin sıfırdan eğitimi, çok büyük veri kümeleri, üretim düzeyinde model geliştirme. Bu ölçekte, sunucular arası yüksek hızlı ağ bağlantısı da önemlidir.
- Tablo: Büyük Dil Modeli (LLM) Eğitimi – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Model Boyutu/Görev | Temel Faydalar |
Düşük | 1-2 | <20B parametreli LLM ince ayarı, deneyler | Hızlı prototipleme, daha küçük modeller için yeterli bellek |
Orta | 4 | 20B-70B parametreli LLM eğitimi/ince ayarı | Daha büyük yığın boyutları, daha hızlı eğitim, NVLink ile verimli ölçeklenme |
Yüksek | 8+ | >70B parametreli LLM ince ayarı, temel model geliştirme | Maksimum bellek ve hesaplama, en zorlu eğitim görevleri için ölçeklenebilirlik |
III. H200 NVL için İş Yükü Profilleri ve Önerilen Kart Sayıları
NVIDIA H200 NVL’nin sunduğu yüksek bellek kapasitesi, bant genişliği ve hesaplama gücü, onu çok çeşitli zorlu iş yükleri için ideal bir çözüm haline getirmektedir. Ancak, optimum kart sayısı, iş yükünün özel gereksinimlerine (model boyutu, veri kümesi boyutu, hassasiyet ihtiyaçları, çıktı/gecikme hedefleri) bağlı olarak önemli ölçüde değişir. Bu nedenle, her bir iş yükü için düşük, orta ve yüksek yoğunluklu senaryolara göre yapılandırılmış öneriler sunulmaktadır.
1. Büyük Dil Modeli (LLM) Eğitimi (Fine-Tuning ve Sıfırdan Eğitim)
- Profil: Milyarlarca parametreye sahip büyük dil modellerinin (örn. GPT-3, Llama, PaLM) belirli görevler veya alanlar için ince ayarlanması (fine-tuning) veya daha küçük modellerin sıfırdan eğitilmesi. Bu süreç, büyük miktarda GPU belleği, yüksek bellek bant genişliği ve ham hesaplama performansı (özellikle TF32, BFLOAT16, FP16 hassasiyetlerinde) gerektirir. H200 NVL’nin 141 GB belleği, daha büyük modellerin ve yığın boyutlarının (batch sizes) tek bir GPU’ya sığmasına olanak tanır, bu da eğitim verimliliğini artırır. Transformer Motoru ve FP8 hassasiyeti, eğitimi A100 GPU’lara göre 5 kata kadar hızlandırabilir.5
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Daha küçük LLM’lerin (örn. <20B parametre) ince ayarı, araştırma ve deneyler, daha küçük veri kümeleriyle sıfırdan eğitim.
- Orta: 4 H200 NVL. Orta büyüklükteki LLM’lerin (örn. 20B-70B parametre) kapsamlı ince ayarı veya sıfırdan eğitimi, daha büyük veri kümeleri, daha hızlı iterasyon. NVLink köprüleri, GPU’lar arası verimli iletişim için kritik öneme sahiptir.
- Yüksek: 8 H200 NVL (sunucu başına, potansiyel olarak çoklu sunucular). Çok büyük LLM’lerin (>70B parametre) ince ayarı veya daha küçük ölçekli temel modellerin sıfırdan eğitimi, çok büyük veri kümeleri, üretim düzeyinde model geliştirme. Bu ölçekte, sunucular arası yüksek hızlı ağ bağlantısı da önemlidir.
- Tablo: Büyük Dil Modeli (LLM) Eğitimi – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Model Boyutu/Görev | Temel Faydalar |
Düşük | 1-2 | <20B parametreli LLM ince ayarı, deneyler | Hızlı prototipleme, daha küçük modeller için yeterli bellek |
Orta | 4 | 20B-70B parametreli LLM eğitimi/ince ayarı | Daha büyük yığın boyutları, daha hızlı eğitim, NVLink ile verimli ölçeklenme |
Yüksek | 8+ | >70B parametreli LLM ince ayarı, temel model geliştirme | Maksimum bellek ve hesaplama, en zorlu eğitim görevleri için ölçeklenebilirlik |
III. H200 NVL için İş Yükü Profilleri ve Önerilen Kart Sayıları
NVIDIA H200 NVL’nin sunduğu yüksek bellek kapasitesi, bant genişliği ve hesaplama gücü, onu çok çeşitli zorlu iş yükleri için ideal bir çözüm haline getirmektedir. Ancak, optimum kart sayısı, iş yükünün özel gereksinimlerine (model boyutu, veri kümesi boyutu, hassasiyet ihtiyaçları, çıktı/gecikme hedefleri) bağlı olarak önemli ölçüde değişir. Bu nedenle, her bir iş yükü için düşük, orta ve yüksek yoğunluklu senaryolara göre yapılandırılmış öneriler sunulmaktadır.
1. Büyük Dil Modeli (LLM) Eğitimi (Fine-Tuning ve Sıfırdan Eğitim)
- Profil: Milyarlarca parametreye sahip büyük dil modellerinin (örn. GPT-3, Llama, PaLM) belirli görevler veya alanlar için ince ayarlanması (fine-tuning) veya daha küçük modellerin sıfırdan eğitilmesi. Bu süreç, büyük miktarda GPU belleği, yüksek bellek bant genişliği ve ham hesaplama performansı (özellikle TF32, BFLOAT16, FP16 hassasiyetlerinde) gerektirir. H200 NVL’nin 141 GB belleği, daha büyük modellerin ve yığın boyutlarının (batch sizes) tek bir GPU’ya sığmasına olanak tanır, bu da eğitim verimliliğini artırır. Transformer Motoru ve FP8 hassasiyeti, eğitimi A100 GPU’lara göre 5 kata kadar hızlandırabilir.5
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Daha küçük LLM’lerin (örn. <20B parametre) ince ayarı, araştırma ve deneyler, daha küçük veri kümeleriyle sıfırdan eğitim.
- Orta: 4 H200 NVL. Orta büyüklükteki LLM’lerin (örn. 20B-70B parametre) kapsamlı ince ayarı veya sıfırdan eğitimi, daha büyük veri kümeleri, daha hızlı iterasyon. NVLink köprüleri, GPU’lar arası verimli iletişim için kritik öneme sahiptir.
- Yüksek: 8 H200 NVL (sunucu başına, potansiyel olarak çoklu sunucular). Çok büyük LLM’lerin (>70B parametre) ince ayarı veya daha küçük ölçekli temel modellerin sıfırdan eğitimi, çok büyük veri kümeleri, üretim düzeyinde model geliştirme. Bu ölçekte, sunucular arası yüksek hızlı ağ bağlantısı da önemlidir.
- Tablo: Büyük Dil Modeli (LLM) Eğitimi – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Model Boyutu/Görev | Temel Faydalar |
Düşük | 1-2 | <20B parametreli LLM ince ayarı, deneyler | Hızlı prototipleme, daha küçük modeller için yeterli bellek |
Orta | 4 | 20B-70B parametreli LLM eğitimi/ince ayarı | Daha büyük yığın boyutları, daha hızlı eğitim, NVLink ile verimli ölçeklenme |
Yüksek | 8+ | >70B parametreli LLM ince ayarı, temel model geliştirme | Maksimum bellek ve hesaplama, en zorlu eğitim görevleri için ölçeklenebilirlik |
III. H200 NVL için İş Yükü Profilleri ve Önerilen Kart Sayıları
NVIDIA H200 NVL’nin sunduğu yüksek bellek kapasitesi, bant genişliği ve hesaplama gücü, onu çok çeşitli zorlu iş yükleri için ideal bir çözüm haline getirmektedir. Ancak, optimum kart sayısı, iş yükünün özel gereksinimlerine (model boyutu, veri kümesi boyutu, hassasiyet ihtiyaçları, çıktı/gecikme hedefleri) bağlı olarak önemli ölçüde değişir. Bu nedenle, her bir iş yükü için düşük, orta ve yüksek yoğunluklu senaryolara göre yapılandırılmış öneriler sunulmaktadır.
1. Büyük Dil Modeli (LLM) Eğitimi (Fine-Tuning ve Sıfırdan Eğitim)
- Profil: Milyarlarca parametreye sahip büyük dil modellerinin (örn. GPT-3, Llama, PaLM) belirli görevler veya alanlar için ince ayarlanması (fine-tuning) veya daha küçük modellerin sıfırdan eğitilmesi. Bu süreç, büyük miktarda GPU belleği, yüksek bellek bant genişliği ve ham hesaplama performansı (özellikle TF32, BFLOAT16, FP16 hassasiyetlerinde) gerektirir. H200 NVL’nin 141 GB belleği, daha büyük modellerin ve yığın boyutlarının (batch sizes) tek bir GPU’ya sığmasına olanak tanır, bu da eğitim verimliliğini artırır. Transformer Motoru ve FP8 hassasiyeti, eğitimi A100 GPU’lara göre 5 kata kadar hızlandırabilir.5
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Daha küçük LLM’lerin (örn. <20B parametre) ince ayarı, araştırma ve deneyler, daha küçük veri kümeleriyle sıfırdan eğitim.
- Orta: 4 H200 NVL. Orta büyüklükteki LLM’lerin (örn. 20B-70B parametre) kapsamlı ince ayarı veya sıfırdan eğitimi, daha büyük veri kümeleri, daha hızlı iterasyon. NVLink köprüleri, GPU’lar arası verimli iletişim için kritik öneme sahiptir.
- Yüksek: 8 H200 NVL (sunucu başına, potansiyel olarak çoklu sunucular). Çok büyük LLM’lerin (>70B parametre) ince ayarı veya daha küçük ölçekli temel modellerin sıfırdan eğitimi, çok büyük veri kümeleri, üretim düzeyinde model geliştirme. Bu ölçekte, sunucular arası yüksek hızlı ağ bağlantısı da önemlidir.
- Tablo: Büyük Dil Modeli (LLM) Eğitimi – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Model Boyutu/Görev | Temel Faydalar |
Düşük | 1-2 | <20B parametreli LLM ince ayarı, deneyler | Hızlı prototipleme, daha küçük modeller için yeterli bellek |
Orta | 4 | 20B-70B parametreli LLM eğitimi/ince ayarı | Daha büyük yığın boyutları, daha hızlı eğitim, NVLink ile verimli ölçeklenme |
Yüksek | 8+ | >70B parametreli LLM ince ayarı, temel model geliştirme | Maksimum bellek ve hesaplama, en zorlu eğitim görevleri için ölçeklenebilirlik |
2. Yüksek Verimli LLM Çıkarımı
- Profil: Sohbet botları, içerik üretimi, özetleme gibi uygulamalar için LLM’lerin sunulması. Genellikle gecikmeye duyarlı (TTFT – ilk jetona kadar geçen süre) ve verimliliğe duyarlı (TPS – saniye başına jeton) iş yükleridir. H200 NVL’nin büyük belleği, daha büyük yığın boyutlarına ve daha fazla KV çiftinin önbelleğe alınmasına olanak tanıyarak TPS’yi artırır. Yüksek bant genişliği TPS için kritiktir. FP8/INT8 hassasiyet desteği çıkarımı daha da hızlandırır. H200, Llama2 70B / GPT-3 175B için H100’e göre 1.6x-1.9x daha hızlı çıkarım sunar.2 H200’ler büyük modeller (100B+ parametre), büyük yığın boyutları ve uzun giriş dizileri (on binlerce jeton) için iyidir.
- Yapılandırma Katmanları:
- Düşük: 1 H200 NVL. Bir veya birkaç küçük/orta LLM (<70B) sunma veya orta düzeyde trafiğe sahip daha büyük modeller, geliştirme/test. MIG, birden fazla küçük model için kullanılabilir.
- Orta: 2-4 H200 NVL. Birden fazla büyük model (70B-100B+) veya yüksek eşzamanlı kullanıcı yüküne sahip tek çok büyük modeller sunma. Düşük gecikme ve yüksek verimlilik gerektiren uygulamalar için iyi.
- Yüksek: 4-8 H200 NVL (sunucu başına, potansiyel olarak çoklu sunucular). Çok büyük modeller (örn. Llama 3.1 405B 8), büyük yığın boyutları, çok sayıda kullanıcıya sahip zorlu gerçek zamanlı uygulamalar için maksimum verimlilik.
- Tablo: Yüksek Verimli LLM Çıkarımı – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Model Boyutu/Görev | Temel Faydalar |
Düşük | 1 | <70B LLM’ler, orta trafik, geliştirme/test, MIG ile çoklu model | Uygun maliyetli başlangıç, esnek kaynak bölme |
Orta | 2-4 | 70B-100B+ LLM’ler, yüksek eşzamanlılık | Düşük gecikme, yüksek TPS, daha büyük modeller için artırılmış bellek |
Yüksek | 4-8+ | >100B LLM’ler, çok yüksek trafik, gerçek zamanlı uygulamalar | Maksimum verimlilik, en büyük modelleri ve yığın boyutlarını işleme kapasitesi |
3. Bilimsel Simülasyon: Moleküler Dinamik (örn. GROMACS, NAMD, AMBER)
- Profil: Atomların ve moleküllerin hareketini ve etkileşimini simüle etme. Genellikle bellek bant genişliğine bağlıdır ve güçlü FP64/FP32 performansı gerektirir. H200 NVL’nin 4.8 TB/s bellek bant genişliği anahtardır. H200, CPU’lara göre 110 kata kadar daha hızlı sonuçlar sunar ve H200 NVL, H100 NVL’ye göre HPC performansında 1.3 kata kadar iyileşme sağlayabilir.3 H200, karışık iş yüklerinde H100’ün HPC performansının 1.7 katını sağlar.
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Küçük ila orta ölçekli moleküler sistemler, araştırma projeleri, yöntem geliştirme.
- Orta: 2-4 H200 NVL. Daha büyük sistemler, daha uzun simülasyon süreleri, akademik laboratuvarlar veya küçük endüstri projeleri için üretim çalışmaları. NVLink, çoklu GPU ölçeklemesine yardımcı olur.
- Yüksek: 4-8 H200 NVL. Çok büyük biyomoleküler sistemler, karmaşık kuvvet alanları, yüksek verimli tarama veya uzun zaman ölçekli simülasyonlar.
- Tablo: Moleküler Dinamik – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Sistem Boyutu/Görev | Temel Faydalar |
Düşük | 1-2 | Küçük/orta moleküler sistemler, yöntem geliştirme | Araştırma için erişilebilir performans, yüksek bellek bant genişliği |
Orta | 2-4 | Daha büyük sistemler, üretim çalışmaları | Artırılmış simülasyon hızı, daha karmaşık modeller için NVLink ölçeklemesi |
Yüksek | 4-8 | Çok büyük sistemler, yüksek verimli tarama, uzun simülasyonlar | En zorlu moleküler dinamik görevleri için maksimum performans ve bellek |
4. Bilimsel Simülasyon: Fizik, Mühendislik ve Kuantum Kimyası (örn. MILC, CP2K, Quantum Espresso, ICON, Chroma)
- Profil: Kuantum kromodinamiği (MILC, Chroma), hesaplamalı kimya (CP2K, Quantum Espresso), iklim/hava durumu modellemesi (ICON) gibi alanlarda çeşitli simülasyonlar. Bunlar hesaplama açısından yoğun (FP64/FP32) ve/veya bellek bant genişliğine duyarlı olabilir. H200 NVL’nin güçlü FP64 (30-34 TFLOPS) ve yüksek bant genişliği faydalıdır. Bu uygulamalar, H200’ün bellek bant genişliğinden yararlanarak CPU’lara göre 110 kata kadar daha hızlı sonuçlar elde edebilir. H200’ün bellek iyileştirmeleri kuantum simülasyonlarında kazanımlar sağlar.8
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Orta ölçekli simülasyonlar, kod geliştirme ve test etme, bireysel araştırmacı projeleri.
- Orta: 2-4 H200 NVL. Araştırma grupları için üretim çalışmaları, daha karmaşık modeller, daha büyük veri kümeleri.
- Yüksek: 4-8 H200 NVL (veya çoklu sunucular). Büyük ölçekli, yüksek çözünürlüklü simülasyonlar, ulusal laboratuvar veya büyük kurumsal araştırma.
- Tablo: Fizik/Mühendislik/Kuantum Kimyası – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Uygulama/Görev | Temel Faydalar |
Düşük | 1-2 | Orta ölçekli simülasyonlar, kod geliştirme/test | Güçlü FP64 performansı, yüksek bellek bant genişliği ile hızlı veri erişimi |
Orta | 2-4 | Üretim çalışmaları, karmaşık modeller | Daha hızlı çözüme ulaşma süresi, daha büyük problem boyutlarını ele alma |
Yüksek | 4-8+ | Büyük ölçekli, yüksek çözünürlüklü simülasyonlar | En zorlu bilimsel hesaplamalar için maksimum ölçeklenebilirlik ve performans |
5. Gelişmiş Veri Analitiği ve Büyük Ölçekli Veri İşleme (örn. RAPIDS kullanarak)
- Profil: Veri yükleme, işleme ve büyük veri kümeleri üzerinde makine öğrenimi dahil olmak üzere veri bilimi işlem hatlarının hızlandırılması. H200 NVL’nin büyük belleği, devasa veri kümelerini GPU belleğinde tutabilir ve yüksek bant genişliği işlemeyi hızlandırır. NVIDIA RAPIDS paketi, GPU hızlandırmasından yararlanır. H200, yüksek bant genişliği sayesinde “kapsamlı karmaşık veri kümelerini” işleyebilir.
- Yapılandırma Katmanları:
- Düşük: 1 H200 NVL. 141 GB içine sığan veri kümelerini işleme, keşifsel veri analizi, daha küçük model eğitimi.
- Orta: 2-4 H200 NVL. Daha büyük veri kümelerini (GPU’lar arası veri paylaşımı için NVLink gerektiren) işleme, daha karmaşık analitik iş akışları, terabayt ölçeğindeki verilerin daha hızlı işlenmesi.
- Yüksek: 4-8 H200 NVL. Çok büyük veri kümeleri (çoklu terabayt), akan veriler üzerinde gerçek zamanlı analitik, yapay zeka işlem hatları için zorlu ETL süreçleri.
- Tablo: Gelişmiş Veri Analitiği – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Veri Boyutu/Görev | Temel Faydalar |
Düşük | 1 | <141GB veri kümeleri, keşifsel analiz | Büyük veri kümelerini GPU belleğinde tutma, RAPIDS ile hızlı işleme |
Orta | 2-4 | Terabayt ölçeğinde veri kümeleri, karmaşık iş akışları | NVLink ile ölçeklenebilir performans, daha hızlı ETL ve model eğitimi |
Yüksek | 4-8 | Çoklu terabayt veri kümeleri, gerçek zamanlı akış analitiği | En büyük veri analitiği zorlukları için maksimum bellek ve işleme hızı |
6. Bilgisayarla Görü ve Çoklu Modal Yapay Zeka
- Profil: Görüntü tanıma, nesne tespiti, segmentasyon, video analizi ve görüntü ile metin gibi diğer veri türlerini birleştiren çoklu modal modeller için karmaşık derin öğrenme modellerinin eğitimi. Yüksek çözünürlüklü görüntüler/videolar ve karmaşık modeller için büyük bellek. Eğitim için yüksek hesaplama gücü. H200, görüntü-metin gömme süreçlerini hızlandırarak nesne tanıma ve görsel arama gibi uygulamalar için model eğitimini hızlandırır. NVAE, NVIDIA Metropolis aracılığıyla bilgisayarla görü yapay zekasını destekler.
- Yapılandırma Katmanları:
- Düşük: 1 H200 NVL. Orta derecede karmaşık modellerin eğitimi, önceden eğitilmiş görü modellerinin ince ayarı, yüksek çözünürlüklü görüntüler üzerinde çıkarım.
- Orta: 2-4 H200 NVL. Daha büyük, daha karmaşık görü transformatörlerinin veya çoklu modal modellerin sıfırdan eğitimi, büyük video veri kümelerinin işlenmesi.
- Yüksek: 4-8 H200 NVL. Görü için son teknoloji temel modellerin eğitimi, çok büyük ölçekli görüntü/video veri kümesi işleme, gerçek zamanlı yüksek çözünürlüklü video analitiği.
- Tablo: Bilgisayarla Görü ve Çoklu Modal Yapay Zeka – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Model/Görev | Temel Faydalar |
Düşük | 1 | Orta karmaşıklıkta modeller, ince ayar, yüksek çözünürlüklü çıkarım | Büyük bellek kapasitesi, hızlı eğitim/çıkarım |
Orta | 2-4 | Büyük görü transformatörleri, çoklu modal modeller, video işleme | Artırılmış eğitim hızı, daha karmaşık mimariler için ölçeklenebilirlik |
Yüksek | 4-8 | Temel görü modelleri, çok büyük ölçekli veri işleme | En zorlu görü ve çoklu modal yapay zeka görevleri için maksimum performans ve bellek |
7. Finansal Hizmetler Yapay Zekası (Sahtekarlık Tespiti, Risk Modelleme, Algoritmik Ticaret)
- Profil: İşlemlerde anormallik tespiti, karmaşık risk simülasyonları (örn. Monte Carlo) ve yüksek frekanslı ticaret algoritmaları için yapay zeka modellerinin eğitimi ve dağıtımı. Büyük veri kümelerinin hızlı işlenmesini, düşük gecikmeli çıkarımı gerektirir. H200, derin öğrenme modellerinin işlem modellerini analiz etmesini ve finans ve siber güvenlik endüstrileri için kritik olan daha hızlı içgörüler sunarak anormallikleri ölçekte tespit etmesini sağlar. GPU hızlandırmalı yapay zeka, saniyeler içinde risk hesaplaması, gelişmiş sahtekarlık tespiti ve otomasyon sunar.
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Model geliştirme ve geriye dönük test, daha küçük kurumlar veya belirli portföyler için sahtekarlık tespiti.
- Orta: 2-4 H200 NVL. Risk modellerinin üretim dağıtımı, orta ölçekli işlem hacimleri için gerçek zamanlı sahtekarlık tespiti, daha karmaşık ticaret algoritmalarının eğitimi.
- Yüksek: 4-8 H200 NVL (potansiyel olarak çoklu sunucular). Büyük ölçekli gerçek zamanlı sahtekarlık analitiği, karmaşık piyasa simülasyonu, yüksek frekanslı ticaret altyapısı, kurum çapında risk yönetimi.
-
- Tablo: Finansal Hizmetler Yapay Zekası – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu Önerilen H200 NVL Kart Sayısı Tipik Uygulama/Görev Temel Faydalar Düşük 1-2 Model geliştirme/test, küçük ölçekli sahtekarlık tespiti Hızlı analiz, karmaşık modeller için yeterli bellek Orta 2-4 Üretim risk modelleri, orta hacimli gerçek zamanlı analiz Artırılmış işlem hacmi, daha düşük gecikme, ölçeklenebilir performans Yüksek 4-8+ Büyük ölçekli gerçek zamanlı analitik, HFT, piyasa simülasyonu En zorlu finansal yapay zeka uygulamaları için maksimum hız ve kapasite
8. Genomik, Proteomik ve İlaç Keşfi İşlem Hatları
- Profil: Geniş genomik ve proteomik veri kümelerinin analizi, moleküler kenetlenme, protein katlanma simülasyonları ve yapay zeka odaklı ilaç keşfi. Bu görevler hesaplama açısından yoğundur ve genellikle büyük veri kümeleri içerir. H200’ün yetenekleri, araştırmacıların genomik alanında benzeri görülmemiş hızlarda simülasyonlar ve veri analizleri yapmasına olanak tanır. Oregon State Üniversitesi ve La Trobe Üniversitesi gibi araştırma kurumları, genomik, malzeme bilimi ve tıbbi yenilikler için DGX H200 sistemlerini kullanmaktadır.
- Yapılandırma Katmanları:
- Düşük: 1-2 H200 NVL. Bireysel araştırma projeleri, daha küçük kohortların analizi, standart biyoenformatik işlem hatlarının çalıştırılması.
- Orta: 2-4 H200 NVL. Daha büyük genomik çalışmalar, karmaşık protein simülasyonları, yapay zeka odaklı ilaç taramasının ilk aşamaları.
- Yüksek: 4-8 H200 NVL (veya kümeler). Popülasyon ölçeğinde genomik analiz, yüksek verimli sanal tarama, ilaç hedefi tanımlama ve tasarımı için büyük yapay zeka modellerinin eğitimi.
-
- Tablo: Finansal Hizmetler Yapay Zekası – H200 NVL Yapılandırma Katmanları
- Tablo: Genomik/İlaç Keşfi – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu Önerilen H200 NVL Kart Sayısı Tipik Araştırma/Görev Temel Faydalar Düşük 1-2 Bireysel projeler, küçük kohort analizi, standart işlem hatları Büyük veri kümeleri için yüksek bellek, hesaplama yoğun görevlerde hızlanma Orta 2-4 Büyük genomik çalışmalar, protein simülasyonları, ilk ilaç taraması Daha hızlı analiz süreleri, daha karmaşık araştırmalar için artırılmış kapasite Yüksek 4-8+ Popülasyon ölçeğinde analiz, YVT, büyük YZ model eğitimi En zorlu yaşam bilimleri araştırmaları için maksimum performans ve ölçek
- Tablo: Finansal Hizmetler Yapay Zekası – H200 NVL Yapılandırma Katmanları
9. Dijital İkiz Geliştirme ve Karmaşık Endüstriyel Simülasyon
- Profil: Fiziksel varlıkların, süreçlerin veya ortamların karmaşık simülasyonlarının oluşturulması ve çalıştırılması. Fizik simülasyonu, yapay zeka model entegrasyonu ve potansiyel olarak gerçek zamanlı etkileşim için önemli hesaplama gücü gerektirir. H200’lü Azure VM’leri dijital ikiz ve robotik simülasyon uygulamaları için kullanılır.
- Yapılandırma Katmanları:
- Düşük: 1 H200 NVL. Daha küçük bileşenlerin veya sistemlerin simülasyonu, dijital ikiz modellerinin geliştirilmesi, gerçek zamanlı olmayan analiz.
- Orta: 2-4 H200 NVL. Daha karmaşık sistemlerin (örn. bir fabrika üretim hattı) simülasyonu, öngörücü bakım için yapay zeka entegrasyonu, yakın gerçek zamanlı etkileşim.
- Yüksek: 4-8 H200 NVL. Büyük ölçekli, son derece ayrıntılı dijital ikizler (örn. tüm bir şehir manzarası, karmaşık fizik içeren karmaşık makineler), çoklu veri akışlarıyla gerçek zamanlı, etkileşimli simülasyonlar.
- Tablo: Dijital İkiz ve Endüstriyel Simülasyon – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Simülasyon Ölçeği/Görev | Temel Faydalar |
Düşük | 1 | Küçük bileşenler/sistemler, model geliştirme | Karmaşık simülasyonlar için giriş seviyesi, yeterli bellek ve hesaplama gücü |
Orta | 2-4 | Karmaşık sistemler (örn. üretim hattı), YZ entegrasyonu | Daha hızlı simülasyon döngüleri, yakın gerçek zamanlı etkileşim kapasitesi |
Yüksek | 4-8 | Büyük ölçekli, ayrıntılı dijital ikizler, gerçek zamanlı etkileşim | En zorlu dijital ikiz uygulamaları için maksimum sadakat ve performans |
10. Kurumsal Bilgi Sistemleri için Artırılmış Üretim (RAG)
- Profil: Büyük özel belge depolarından veya veritabanlarından ilgili bilgileri alarak LLM yanıtlarını geliştirme. Verimli vektör veritabanı araması (genellikle CPU/RAM yoğundur ancak gömme üretimi için GPU hızlandırmalı olabilir) ve LLM çıkarımı içerir. H200 NVL’nin büyük belleği, bağlam pencereleri ve LLM sunumu için yardımcı olur.4 H200, LLM’ye büyük bağlam beslendiği RAG için önemli olan uzun giriş dizileri için çok uygundur. NVAE/NIM, RAG’ı destekler.
- Yapılandırma Katmanları:
- Düşük: 1 H200 NVL. Departman içi kullanım için RAG sistemleri, orta büyüklükteki bilgi tabanları, geliştirme ve prototipleme.
- Orta: 2-4 H200 NVL. Daha büyük bilgi tabanlarına, daha yüksek sorgu hacimlerine ve düşük gecikmeli yanıtlara ihtiyaç duyan kurum çapında RAG sistemleri.
- Yüksek: 4-8 H200 NVL. Çok büyük ölçekli RAG dağıtımları, devasa ve çeşitli bilgi kaynakları, yüksek eşzamanlılık ve sıkı performans SLA’ları.
- Tablo: Artırılmış Üretim (RAG) – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Bilgi Tabanı Boyutu/Sorgu Hacmi | Temel Faydalar |
Düşük | 1 | Departman içi, orta boyutlu bilgi tabanı, geliştirme | Hızlı LLM çıkarımı, büyük bağlam pencereleri için yeterli bellek |
Orta | 2-4 | Kurum çapında, büyük bilgi tabanı, yüksek sorgu hacmi | Artırılmış verimlilik, daha fazla eşzamanlı kullanıcı, düşük gecikmeli yanıtlar |
Yüksek | 4-8 | Çok büyük ölçekli, devasa bilgi kaynakları, yüksek eşzamanlılık | En zorlu RAG dağıtımları için maksimum performans ve ölçeklenebilirlik |
11. Konuşma Yapay Zekası: Özel Modellerin Eğitimi ve Yüksek Hacimli Çıkarım
- Profil: Otomatik konuşma tanıma (ASR) ve metinden sese (TTS) modellerinin eğitimi veya yüksek hacimli transkripsiyon/sentez için dağıtımı. Büyük veri kümeleri ve karmaşık akustik modeller, H200 NVL’nin yeteneklerinden yararlanır. NIM mikroservisleri konuşma yapay zekasını destekler.8 NVAE, NVIDIA Riva aracılığıyla konuşma yapay zekasını içerir.
- Yapılandırma Katmanları:
- Düşük: 1 H200 NVL. Belirli aksanlar veya alanlar için önceden eğitilmiş konuşma modellerinin ince ayarı, orta hacimli çıkarım.
- Orta: 2-4 H200 NVL. Önemli veri kümeleriyle sıfırdan özel konuşma modellerinin eğitimi, yüksek verimli gerçek zamanlı transkripsiyon hizmetleri.
- Yüksek: 4-8 H200 NVL. Çok büyük, çok dilli konuşma modellerinin eğitimi, büyük ölçekli sesli asistan platformlarına veya çağrı merkezi analitiğine güç verme.
- Tablo: Konuşma Yapay Zekası – H200 NVL Yapılandırma Katmanları
İş Yükü Yoğunluğu | Önerilen H200 NVL Kart Sayısı | Tipik Model/Görev | Temel Faydalar |
Düşük | 1 | Önceden eğitilmiş modellerin ince ayarı, orta hacimli çıkarım | Hızlı model adaptasyonu, gerçek zamanlı uygulamalar için yeterli performans |
Orta | 2-4 | Sıfırdan özel model eğitimi, yüksek verimli transkripsiyon | Daha hızlı eğitim süreleri, büyük veri kümelerini işleme kapasitesi |
Yüksek | 4-8 | Çok büyük, çok dilli modeller, büyük ölçekli platformlar | En zorlu konuşma yapay zekası görevleri için maksimum ölçeklenebilirlik ve doğruluk |
12. Akademik ve Üniversite Araştırma Bilgi İşlem Kümeleri
- Profil: Çeşitli bölümlerden (örn. fizik, biyoloji, bilgisayar bilimi, mühendislik) geniş bir yelpazede yapay zeka ve HPC iş yüklerini destekleme. Esneklik ve hem büyük ölçekli paralel işleri hem de çok sayıda daha küçük, bağımsız görevi işleme yeteneği gerektirir. H200 NVL’nin MIG özelliği burada değerlidir. Oregon State Üniversitesi ve La Trobe Üniversitesi, yapay zeka, makine öğrenimi, veri yoğun araştırmalar, iklim modellemesi, genomik, malzeme bilimi ve tıbbi yenilikler için DGX H200 sistemlerini kullanmaktadır.
- Yapılandırma Katmanları (düğüm başına, kümelerde birden fazla düğüm olacaktır):
- Düşük (Departman/Küçük Küme): Düğüm başına 2 H200 NVL. Birkaç eşzamanlı araştırma projesini, daha küçük simülasyonları, yapay zeka model eğitimini destekler.
- Orta (Üniversite Çapında Kaynak): Düğüm başına 4 H200 NVL. Daha büyük bireysel işler için kapasiteyi dengeler ve MIG veya doğrudan tahsis yoluyla daha fazla kullanıcıyı/projeyi destekler.
- Yüksek (Büyük Araştırma Merkezi/Süper Bilgi İşlem): Düğüm başına 8 H200 NVL. Büyük zorluklu problemler için maksimum tek iş kapasitesi için tasarlanmış düğümler, aynı zamanda daha geniş kullanım için bölümleme sunar.
- Tablo: Akademik Araştırma Kümeleri – H200 NVL Yapılandırma Katmanları (düğüm başına)
İş Yükü Yoğunluğu (Düğüm Başına) | Önerilen H200 NVL Kart Sayısı | Tipik Kullanım Senaryosu | Temel Faydalar |
Düşük | 2 | Departman/küçük küme, birkaç eşzamanlı proje | Çeşitli araştırmalar için esnek, MIG ile kaynak paylaşımı |
Orta | 4 | Üniversite çapında kaynak, daha büyük bireysel işler ve çoklu kullanıcı | Artırılmış kapasite, daha zorlu simülasyonlar ve yapay zeka modelleri için uygun |
Yüksek | 8 | Büyük araştırma merkezi, süper bilgi işlem, büyük zorluklu problemler | Maksimum hesaplama gücü, en karmaşık bilimsel ve mühendislik görevleri için ideal |
IV. H200 NVL için Doğru Sunucu Altyapısını Seçme
NVIDIA H200 NVL GPU’larının olağanüstü performansından tam olarak yararlanmak, yalnızca doğru sayıda kart seçmekle kalmaz, aynı zamanda bu kartları barındıracak ve destekleyecek dengeli ve iyi yapılandırılmış bir sunucu altyapısı gerektirir. GPU’lar ne kadar güçlü olursa olsun, CPU, bellek, depolama ve ağ gibi diğer sistem bileşenleri darboğaz oluşturursa, yatırımın geri dönüşü önemli ölçüde azalabilir.
Temel Sunucu Bileşeni Hususları (GPU Dışında)
- CPU Seçimi: GPU’ları beslemek ve genel sistem görevlerini yönetmek için modern ve yeterli çekirdek sayısına sahip CPU’lar kritik öneme sahiptir. NVIDIA, GPU başına en az 7 fiziksel CPU çekirdeği önermektedir. MIG kullanılıyorsa, her MIG örneği için 2 CPU çekirdeği ve işletim sistemi/sanallaştırma için GPU başına ek 2 çekirdek gereklidir. Intel Emerald/Sapphire Rapids veya AMD Genoa/Turin gibi güncel işlemciler tercih edilmelidir. Örneğin, H200 SXM sunucularında genellikle Intel Xeon 48 çekirdekli işlemciler kullanılır ve H200 NVL için de benzer güçlü CPU’lar düşünülmelidir.
- Sistem Belleği (RAM): GPU başına en az 128 GB sistem belleği önerilir. Özellikle GPU belleğinin sistem RAM’i ile desteklendiği (ideal olmasa da) çok büyük modeller veya veri kümeleri için daha fazla RAM faydalı olabilir. Yetersiz sistem belleği, GPU’nun veri beklerken boşta kalmasına neden olabilir.
- Yüksek Hızlı Depolama (NVMe SSD’ler): Verilerin hızla yüklenmesi, model kontrol noktalarının kaydedilmesi ve gerekirse sanal bellek takası için NVMe SSD’ler hayati önem taşır. Çıkarım sunucuları için CPU soketi başına en az 1 TB, eğitim/DL sunucuları için ise 2 TB NVMe depolama önerilir, sürücü başına 10 GB/s veya daha fazla hız önermektedir.
- Ağ (Sunucular Arası): Çok düğümlü kümelerde, düğümler arası iletişim için InfiniBand veya RoCE özellikli 100GbE+ Ethernet gibi yüksek bant genişlikli, düşük gecikmeli ağ bağlantıları kritik öneme sahiptir. Gelişmiş ağ ve yük boşaltma için sunucu başına bir NVIDIA BlueField-3 DPU veya birden fazla SuperNIC (örneğin, 400 Gbps’ye kadar hız için sunucu başına dört adet) önerilir. Bu gelişmiş ağ çözümleri, özellikle dağıtık eğitim veya veri yoğun HPC uygulamalarında ağın darboğaz olmasını önlemek için H200 NVL kümeleri oluşturan müşteriler için önemlidir.
- PCIe Hatları: Her iki GPU için bir adet Gen5 x16 bağlantısı önerilir.19 CPU’dan tüm GPU’lara tam bant genişliğinde, çekişmesiz destek sağlamak için yeterli PCIe hattı olduğundan emin olunmalıdır.13
- Güç Dağıtımı ve Soğutma: Sunucular, tüm bileşenlerin, özellikle de birden fazla H200 NVL kartının (kart başına 600W’a kadar TDP) kümülatif TDP’sini karşılayacak yeterli gücü sağlayabilmeli ve hava soğutmalı ortamlarda ısıyı etkili bir şekilde yönetebilmelidir.1 Sunucu kasası tasarımı, hava akışı için kritik öneme sahiptir.
Bu bileşenlerin dengeli bir şekilde yapılandırılması, H200 NVL GPU’larının potansiyelini en üst düzeye çıkarmak için “pazarlık konusu olmayan” bir gerekliliktir. Güçlü bir GPU, veri açlığı çekerse yetersiz kullanılır ve yatırım boşa gider. NVIDIA Sertifikalı Sistemler programı, sunucuların bu dengeli tasarım ilkelerini karşıladığını doğrulamak için mevcuttur.
Tablo 3: H200 NVL Sistemleri için Önerilen Sunucu Bileşen Yönergeleri
Bileşen | Önerilen Spesifikasyon | Gerekçe/Etki |
CPU Çekirdeği/GPU | En az 7 fiziksel çekirdek/GPU (+ MIG/OS için ek çekirdekler) | GPU’ları verimli bir şekilde beslemek, sistem görevlerini yönetmek, darboğazları önlemek |
Sistem RAM/GPU | En az 128 GB/GPU | Büyük veri kümelerini ve modelleri işlemek, G/Ç beklemelerini azaltmak |
Depolama Türü/Kapasitesi | NVMe SSD, Çıkarım için 1TB+/soket, Eğitim için 2TB+/soket | Hızlı veri yükleme, model kontrol noktası kaydetme, genel sistem yanıt süresini iyileştirme |
Ağ (Sunucular Arası) | 100GbE+ (InfiniBand/RoCE), BlueField-3 DPU/SuperNIC | Çok düğümlü kümelerde ölçeklenebilir performans, düşük gecikmeli iletişim, CPU yükünü azaltma |
PCIe Hatları | GPU başına Gen5 x8 (veya iki GPU için x16) | GPU’lara tam bant genişliği sağlamak, veri yolu tıkanıklığını önlemek |
Güç Kaynağı | Tüm bileşenlerin toplam TDP’sini karşılayan, yedekli PSU | Sistem kararlılığı, güvenilir çalışma, H200 NVL’nin güç gereksinimlerini karşılama |
Soğutma | Optimize edilmiş hava akışına sahip sunucu kasası | Termal daralmayı önlemek, optimum GPU performansı sağlamak |