GPU Verimliliğini Maksimuma Taşımak
Veri merkezi altyapılarında yüksek verimli GPU kullanımı günümüzde bir gereklilik hâline gelmiştir. Özellikle yapay zekâ eğitimi, yüksek performanslı hesaplama (HPC), sanallaştırma ve konteyner tabanlı dağıtık sistemlerde kaynakların izole, tahmin edilebilir ve ölçeklenebilir bir şekilde sunulması gerekmektedir. Bu noktada, NVIDIA’nın Ampere mimarisiyle tanıttığı Multi-Instance GPU (MIG) teknolojisi, fiziksel bir GPU’yu yediye kadar bağımsız GPU örneğine bölerek her kullanıcının kendi ayrılmış kaynaklarını kullanmasını sağlar.
MIG sayesinde:
-
Aynı GPU üzerinde birden fazla bağımsız iş yükü çalıştırılabilir,
-
GPU kaynakları paylaşılsa dahi kullanıcılar birbirinden izole çalışır,
-
Donanım seviyesinde Quality of Service (QoS) sağlanır.
Bu yazıda, MIG teknolojisinin temel yapı taşlarından başlayarak, uygulama senaryoları, mimari altyapısı, profil yönetimi, Kubernetes ve sanal makinelerde entegrasyonu gibi başlıklarda adım adım derinlemesine bilgi vereceğiz.
1. MIG Nedir? Nasıl Çalışır?
MIG, bir NVIDIA GPU’nun belirli işlem kaynaklarını (Streaming Multiprocessor – SM), L2 önbellek, bellek kontrolcüsü, DRAM erişim yolları gibi alt bileşenlerini mantıksal olarak izole alt GPU birimlerine ayırabilen bir teknolojidir. Her bir alt birim — GPU Instance (GI) — kendi Compute Instance (CI)’larını içerir ve donanımsal olarak ayrılmıştır.
Bu yapı, birden fazla kullanıcı ya da iş yükünün aynı GPU üzerinde çakışmadan, güvenli ve tahmin edilebilirperformansla çalışmasını sağlar.
Avantajları:
-
Donanım seviyesinde kaynak izolasyonu,
-
Predictable (tahmin edilebilir) latency ve throughput,
-
Heterojen iş yüklerini paralel çalıştırma imkanı,
-
Sanal makine ve konteyner uyumluluğu,
-
Cloud Service Provider’lar için çok kiracılı destek.
MIG Teknolojisinin Temel Özellikleri
-
Kaynak İzolasyonu: Her bir GPU örneği, kendi işlemci çekirdekleri, L2 önbellek, bellek denetleyicileri ve DRAM veri yollarına sahiptir. Bu sayede, bir örnekteki yoğun işlem diğerlerini etkilemez.
-
Esnek Dağıtım Seçenekleri: MIG, çıplak metal sunucularda, konteynerlerde (Docker, Kubernetes) ve sanal makinelerde (Red Hat Virtualization, VMware vSphere) kullanılabilir.
-
Desteklenen GPU’lar: MIG, NVIDIA’nın Ampere mimarisiyle başlayan ve compute capability 8.0 ve üzeri olan GPU’larda desteklenir. Örnek olarak:
Product | Architecture | Microarchitecture | Compute Capability | Memory Size | Max Number of Instances |
GB200 | Blackwell | GB100 | 10.0 | 186GB | 7 |
B200 | Blackwell | GB100 | 10.0 | 180GB | 7 |
H100-SXM5 | Hopper | GH100 | 9.0 | 80GB | 7 |
H100-PCIE | Hopper | GH100 | 9.0 | 80GB | 7 |
H100-SXM5 | Hopper | GH100 | 9.0 | 94GB | 7 |
H100-PCIE | Hopper | GH100 | 9.0 | 94GB | 7 |
H100 on GH200 | Hopper | GH100 | 9.0 | 96GB | 7 |
H200-SXM5 | Hopper | GH100 | 9.0 | 141GB | 7 |
H200 NVL | Hopper | GH100 | 9.0 | 141GB | 7 |
A100-SXM4 | NVIDIA Ampere architecture | GA100 | 8.0 | 40GB | 7 |
A100-SXM4 | NVIDIA Ampere architecture | GA100 | 8.0 | 80GB | 7 |
A100-PCIE | NVIDIA Ampere architecture | GA100 | 8.0 | 40GB | 7 |
A100-PCIE | NVIDIA Ampere architecture | GA100 | 8.0 | 80GB | 7 |
A30 | NVIDIA Ampere architecture | GA100 | 8.0 | 24GB | 4 |
MIG Mimarisi: GI & CI Yapısı
Her MIG bölümü, iki temel bileşenden oluşur:
3.1 GPU Instance (GI)
Bir GI, bellek, L2 cache, SM blokları gibi fiziksel kaynakları içerir ve compute instance’ları kapsar.
3.2 Compute Instance (CI)
CUDA uygulamalarının çalıştığı en küçük mantıksal işlem birimidir.
MIG, bu yapı sayesinde çok katmanlı kaynak izolasyonu sağlar. Bu da donanım seviyesinde “multi-tenancy” (çoklu kullanıcı yönetimi) sağlayarak performans düşüşlerini ve kaynak çatışmalarını engeller.
MIG Profilleri: Ölçeklenebilir GPU Bölümleme
MIG profilleri, farklı boyutlardaki iş yüklerine uygun olarak tasarlanmıştır. Örneğin A100 GPU aşağıdaki gibi dilimlenebilir:
Profil | Compute | Bellek |
---|---|---|
1g.5gb | 1/7 SM | 5 GB |
2g.10gb | 2/7 SM | 10 GB |
3g.20gb | 3/7 SM | 20 GB |
… | … | … |
7g.40gb | Tüm GPU | 40 GB |
“g” = GPU dilim sayısı
“gb” = Bellek miktarı
Yapılan bu dilimleme, her bir iş yüküne özel olarak profil atanmasına ve performans garanti edilmesine olanak sağlar.
MIG Sanallaştırma & Konteyner Desteği
5.1 VMware vSphere / Proxmox
vGPU ile birlikte MIG desteklenir. Her sanal makineye MIG profil atanabilir. Bu sayede bir fiziksel GPU, 7 farklı VM tarafından izole şekilde paylaşılabilir.
5.2 Docker ve Kubernetes
-
MIG-aware Docker konteynerleri çalıştırmak mümkündür.
-
Kubernetes node’larında MIG etiketli pod scheduling desteklenir.
5.3 Slurm, Red Hat Virtualization
Yük paylaşımı ve kaynak takibi Slurm workload scheduler ile yapılabilir.
MIG ile Bare-Metal CUDA Uygulama Çalıştırma
MIG etkinleştirildikten sonra, sistemde fiziksel birden çok GPU varmış gibi davranılır. Her instance kendi CUDA_VISIBLE_DEVICES
değeriyle erişilebilir olur.
Örnek:
Her bir MIG instance, /dev/nvidiaX
olarak görünür ve bağımsız bir fiziksel GPU gibi CUDA uygulamaları çalıştırabilir.
Instance Yaratma:
Bu komutla 1 compute instance içeren 1 GPU instance oluşturulur.
MIG ve CUDA MPS Entegrasyonu
CUDA MPS (Multi-Process Service) Nedir?
Bir Compute Instance üzerinde aynı anda birden fazla işlem (multi-process) çalıştırmayı sağlar. MIG ile birleştiğinde çok katmanlı izolasyon + paralel işlem desteği sunar.
MIG + MPS Workflow:
-
MIG Instance oluştur
-
CUDA_VISIBLE_DEVICES
ayarla -
nvidia-cuda-mps-control
ile MPS servisini başlat -
Paralel CUDA uygulamaları başlat
MPS Konfigürasyon Komutları:
MIG Aktif Etme ve CLI Komutları
MIG Modunu Aktif Et:
Profil Listele:
GPU Instance Oluştur:
Instance Sil:
MIG Monitoring: Performans ve Kaynak Takibi
MIG ile çalışan sistemlerde performans takibi için en önemli araçlar:
-
nvidia-smi
-
DCGM (Data Center GPU Manager)
-
NVIDIA System Management Interface (nvsmi)
MIG instance bazında şu metrikleri takip edebilirsiniz:
-
SM utilization
-
Memory usage
-
Power draw
-
GPU temperature
-
ECC errors
Özellikle konteyner ve bulut ortamlarında Prometheus + DCGM Exporter kombinasyonu MIG monitoring için önerilir.
MIG ile Benchmark ve Performans Analizi
MIG ile çalışırken performans analizi çok önemlidir. Çünkü kaynaklar fiziksel olarak bölünmüştür. Önerilen araçlar:
-
Nsight Compute / Nsight Systems
-
nvidia-smi dmon
-
nvprof
-
Custom micro-benchmark uygulamaları
Test senaryolarında, her profil için throughput, latency ve ECC stabilitesi gözlemlenmelidir. 1g.5gb ile 7g.80gb arasında performans farkları oldukça belirgindir.
MIG Kullanım Senaryoları
AI/ML Eğitim Ortamı:
Farklı kullanıcıların kendi MIG örneklerinde bağımsız model eğitimi yapması. Her biri farklı dilim boyutunda çalışabilir.
Medikal Görüntüleme:
DICOM, MRI gibi büyük veri işleyen sistemlerde 1 GPU ile 7 iş yükü paralel çalıştırılabilir.
Render Farm’ları:
Her render pipeline’a özel compute instance atanarak kaynaklar çakışmadan çalıştırılabilir.
Finansal Simülasyon:
Yüksek frekanslı ticaret uygulamaları için izole ve düşük gecikmeli GPU örnekleri tanımlanabilir.
MIG ile Hybrid ve Edge Sistemler
Özellikle edge computing ve telekom uygulamalarında MIG ile:
-
Her uç cihaz için özel compute instance tanımlanabilir.
-
Latency hassasiyetine göre profil seçimi yapılabilir.
-
5G core + AI edge inferencing gibi senaryolarda GPU paylaşımı sağlanır.
MIG ile Sorun Giderme
-
nvidia-smi
ileUnallocated
görünen instance’ları silip yeniden oluşturun. -
CUDA_VISIBLE_DEVICES
doğru ayarlanmazsa CUDA uygulamaları çalışmaz. -
MIG kullanımı sırasında
driver version
ileCUDA toolkit
uyumlu olmalı.
MIG ile Kubernetes Entegrasyonu
Kubernetes 1.20+ sürümleri, MIG-aware scheduling destekler. nvidia-device-plugin
ile node üzerinde MIG görünürlüğü sağlanır.
K8s’de MIG Etiketi:
Bu sayede bir pod, sadece belirli MIG instance’ları kullanarak çalıştırılabilir.
SONUÇ: MIG Geleceğin GPU Sanallaştırma Standardı
NVIDIA MIG teknolojisi ile veri merkezinizde:
-
İzole ve güvenli GPU dağıtımı sağlanır,
-
Kaynaklar verimli kullanılır,
-
Sanallaştırma altyapınız esnek ve ölçeklenebilir hale gelir.
Özellikle çok kullanıcılı AI platformları, bulut sağlayıcıları, AR-GE kurumları, medya ve render sektörleri için MIG, donanım yatırımının katma değerini artıran bir dönüşüm aracıdır.
NVIDIA MIG ile GPU Sanallaştırmada Yeni Dönem
NVIDIA Multi-Instance GPU (MIG) teknolojisi, fiziksel bir GPU’yu donanım seviyesinde izole parçalara bölerek yüksek verimlilik ve güvenli sanallaştırma sağlar...
GTM Teknoloji ile MIG Destekli GPU Sanallaştırma ve Yapay Zeka Donanım Çözümleri
GTM Teknoloji, 2009 yılından bu yana Türkiye’nin en köklü yüksek performanslı bilgi işlem altyapı sağlayıcılarından biridir. NVIDIA NPN Elite Partneri ve Proxmox Türkiye Silver Partneri olarak, yapay zekâ ve GPU tabanlı sanallaştırma çözümlerinde kurumlara uçtan uca danışmanlık ve sistem entegrasyonu sunmaktayız.
🚀 MIG ile Kurumsal GPU Sanallaştırma Altyapınızı Güçlendirin
NVIDIA’nın MIG teknolojisi sayesinde, tek bir fiziksel GPU’yu yediye kadar izole kaynaklara bölerek farklı iş yüklerine verimli ve güvenli şekilde hizmet verebilirsiniz. GTM Teknoloji olarak:
-
Proxmox sanallaştırma altyapısında MIG destekli GPU konfigürasyonları kuruyoruz,
-
Supermicro AI server’lar ile tam entegre çözümler sağlıyoruz,
-
Kurumsal altyapılarınızda AI, ML, CAD/CAM, render ve HPC yüklerini izole MIG profilleriyle optimize ediyoruz.
💡 Yapay Zekâ Donanımı Kiralama Hizmetimiz
Yüksek maliyetli yapay zekâ projeleri için donanım satın almak zorunda değilsiniz. GTM Teknoloji bünyesindeki GPU Now altyapısı ile, çeşitli GPU seçeneklere (PCIe ve SXM GPU’lar) sahip hazır GPU sunucularını kiralama hizmeti sunuyoruz.
-
Aylık veya saatlik esnek kullanım seçenekleri
-
Düşük gecikmeli bağlantı altyapısı
-
Teknik destek ve SLA güvencesi
🤝 İş Ortakları ve Kurumlar İçin Çözümler
İster bulut sağlayıcısı olun, ister büyük veri, AR-GE, eğitim ya da savunma sektörü oyuncusu…
GTM Teknoloji ile:
-
MIG destekli GPU sanallaştırma altyapısı kurabilir,
-
Yapay zekâ donanımı kiralayabilir,
-
Kurum içi sistemlerinizi, Proxmox ile esnek ve güvenli hale getirebilirsiniz.
📩 Bize ulaşın ve işletmenize özel çözümlerimizi birlikte değerlendirelim.
GPU sanallaştırma, yapay zekâ altyapısı ve AI hizmetlerinde uzman çözüm ortağınız: GTM Teknoloji.