Anasayfa » NVIDIA Software » NVIDIA Dynamo

AI Inference

NVIDIA Dynamo

Name: NVIDIA Dynamo
Brand: NVIDIA
Availability: InStock

Üretken Yapay Zekayı Hızlıca Ölçeklendirin ve Servis Edin.

NVIDIA Dynamo, NVIDIA Triton Inference Server™'ın halefidir. Daha önceki Triton Inference Server Github bağlantısı için tıklayınız..

Genel Bakış

Üretken Yapay Zeka için Düşük Gecikmeli ve Dağıtık Çıkarım Çözümü: NVIDIA Dynamo

NVIDIA Dynamo, üretken yapay zeka (Generative AI) modellerine düşük gecikmeli ve yüksek verimli çıkarım (inference) hizmeti sunmak için geliştirilmiş açık kaynaklı, modüler bir çıkarım çerçevesidir. Özellikle dağıtılmış sistemlerde büyük dil modelleri (LLM) ile çalışan kuruluşlar için optimize edilmiştir.

NVIDIA Dynamo’nun Temel Özellikleri

Dinamik kaynak planlaması: GPU kaynaklarını ihtiyaçlara göre otomatik ölçeklendirir.
Akıllı istek yönlendirmesi: Trafik yönetimini optimize eder, minimum gecikmeyle maksimum verim sağlar.
Optimize edilmiş bellek yönetimi: Bellek tüketimini en aza indirerek daha fazla isteği aynı anda karşılayabilir.
Hızlandırılmış veri aktarımı: GPU filoları arasında hızlı ve etkili veri transferi sunar.

Performans: DeepSeek-R1 671B ile 30 Kata Kadar Daha Fazla Yanıt

NVIDIA Dynamo, NVIDIA GB200 NVL72 altyapısı üzerinde açık kaynaklı DeepSeek-R1 671B modeli ile test edildiğinde, yanıtlanan istek sayısını 30 kata kadar artırmayı başardı. Bu da onu, düşük maliyetle maksimum token üretimi hedefleyen yapay zeka fabrikaları için ideal bir çözüm haline getiriyor.

Uyumluluk ve Geleceğe Dönük Destek

NVIDIA Dynamo:

Tüm büyük AI çıkarım arka uçları ile uyumlu çalışır.
LLM özel optimizasyonları sayesinde büyük ölçekli yapay zeka uygulamaları için mükemmel bir performans sunar.
Yakında NVIDIA AI Enterprise yazılım paketinin bir parçası olarak kurumsal destekle sunulacaktır.

Dağıtık Çıkarım Nedir?

Dağıtılmış çıkarım, hesaplamaları paralel hale getirerek verimi en üst düzeye çıkarmak için yapay zeka modeli çıkarımını birden fazla bilgi işlem aygıtı veya düğümü arasında çalıştırma sürecidir.

Bu yaklaşım, iş yüklerini GPU’lar veya bulut altyapısı arasında dağıtarak, üretken AI gibi büyük ölçekli AI uygulamaları için verimli ölçeklemeyi mümkün kılar. Dağıtılmış çıkarım, kullanıcıların her iş yükünün benzersiz gereksinimleri için gecikmeyi ve verimi optimize etmesine olanak tanıyarak genel performansı ve kaynak kullanımını iyileştirir.

Özellikler

NVIDIA Dynamo'nun Özelliklerini Keşfedin

Ayrık Sunum (Disaggregated Serving)

Büyük dil modellerinin (LLM) bağlam (ön hazırlık/prefill) ve üretim (decode) aşamalarını farklı GPU’lara ayırarak çalıştırır. Bu sayede modele özel paralel çalışma (model paralelizmi) yapılabilir ve her bir GPU’ya bağımsız görev atanabilir. Böylece her GPU başına daha fazla istek (request) işlenebilir, verimlilik artar.

GPU Planlayıcı (GPU Planner)

Dağıtık çıkarım (inference) ortamlarında GPU kapasitesini izler ve darboğazları gidermek, performansı en üst düzeye çıkarmak amacıyla bağlam (context) ve üretim (generation) aşamaları arasında GPU işçilerini (workers) dinamik olarak tahsis eder.

Akıllı Yönlendirici (Smart Router)

Çıkarım (inference) trafiğini verimli bir şekilde yönlendirerek, tekrarlayan veya örtüşen isteklerin yeniden hesaplanmasını (recomputation) en aza indirir. Böylece hesaplama kaynakları korunur ve geniş GPU kümeleri (GPU filoları) arasında yük dengesi etkin bir şekilde sağlanır.

NIXL Düşük Gecikmeli İletişim Kütüphanesi

Dağıtık çıkarım (inference) ortamlarında veri aktarımını hızlandırır ve GPU, CPU, ağ ve depolama gibi farklı donanımlar arasında transferle ilgili karmaşıklıkları basitleştirerek düşük gecikmeli iletişim sağlar.

Şema

Faydalar

NVIDIA Dynamo'nun Avantajları

Sorunsuz Şekilde Tek Bir GPU'dan Binlerce GPU'ya Ölçeklenin

Önceden hazırlanmış ve kolayca dağıtılabilir araçlarla GPU kümesi kurulumunu sadeleştirin ve otomatikleştirin. Gerçek zamanlı, LLM’ye özel metrikler ile dinamik otomatik ölçekleme sağlayarak GPU kaynaklarının aşırı veya yetersiz tahsisini önleyin.

Ayrık Sunum (Disaggregated Serving)Maliyetleri Azaltırken Inference Servis Kapasitesini Artırın

Ayrık sunum (disaggregated serving) gibi gelişmiş LLM çıkarım (inference) servisleme optimizasyonlarını kullanarak, kullanıcı deneyiminden ödün vermeden daha fazla çıkarım isteğini karşılayın.

Yapay Zeka Altyapınızı Geleceğe Hazırlayın ve Maliyetli Geçişlerden Kaçının

Açık ve modüler tasarım, mevcut yapay zeka altyapınızla uyumluluğu koruyarak ihtiyaçlarınıza en uygun inference servis bileşenlerini kolayca seçip kullanmanıza olanak tanır. Böylece pahalı ve karmaşık geçiş projelerine gerek kalmaz.

Yeni Yapay Zeka Modellerini Üretim Ortamına Hızla Dağıtın

NVIDIA Dynamo, TensorRT-LLM, vLLM, SGLang, PyTorch ve diğer tüm büyük framework’leri destekleyerek, arka uç (backend) fark etmeksizin yeni üretken yapay zeka modellerinizi hızlı ve sorunsuz şekilde üretim ortamına almanızı sağlar.

Kullanım Örnekleri

NVIDIA Dynamo ile AI inovasyonu nasıl yönlendirebileceğinizi öğrenin.

Akıl Yürütme Modellerinin Sunumu

Akıl yürütme (reasoning) modelleri, karmaşık problemleri çözmek için daha fazla token üretir ve bu da çıkarım (inference) maliyetlerini artırır. NVIDIA Dynamo, bu modelleri disaggregated serving gibi özelliklerle optimize eder.

Bu yaklaşım, prefill (bağlam oluşturma) ve decode (yanıt üretme) işlem aşamalarını farklı GPU’lara ayırarak her aşamanın bağımsız şekilde optimize edilmesini sağlar.

Sonuç olarak:

GPU kaynaklarının daha verimli kullanımı,
GPU başına daha fazla sorgu işleme kapasitesi
ve daha düşük çıkarım maliyetleri elde edilir.

Dağıtık Inference (Çıkarım)

Yapay zeka modelleri, tek bir sunucuya (node) sığamayacak kadar büyüdükçe, bu modelleri verimli şekilde çalıştırmak giderek zorlaşır. Dağıtık inference, modellerin birden fazla node’a bölünmesini gerektirir ve bu da orkestrasyon, ölçekleme ve iletişim süreçlerine ek karmaşıklık katar.

Bu node’ların, özellikle dinamik iş yükleri altında uyum içinde çalışmasını sağlamak dikkatli bir yönetim gerektirir.

NVIDIA Dynamo, Kubernetes üzerinde hazır gelen yetenekleriyle bu süreci basitleştirir:

Zamanlama (scheduling),
Otomatik ölçekleme
ve inference servisini sorunsuz bir şekilde yöneterek, sizin yalnızca AI modellerini dağıtmaya odaklanmanızı sağlar—altyapıyı yönetmeye değil.

Ölçeklenebilir Yapay Zeka Ajanları

Yapay zeka ajanları; büyük dil modelleri (LLM’ler), veri getirme sistemleri ve özel araçlardan oluşan çoklu bileşenlerin gerçek zamanlı ve senkronize şekilde çalışmasına dayanır.

Bu ajanları ölçeklendirmek, oldukça karmaşık bir süreçtir. Çünkü bu süreç;

Akıllı GPU zamanlaması (scheduling),
Verimli KV cache yönetimi
ve ultra düşük gecikmeli iletişim gerektirir — tüm bunlar sistemin yanıt verebilirliğini korumak için kritik önemdedir.

NVIDIA Dynamo, bu karmaşık süreci şu bileşenlerle sadeleştirir:

Dahili akıllı GPU planlayıcısı,
Akıllı yönlendirici (Smart Router)
ve düşük gecikmeli iletişim kütüphanesi (NIXL).

Böylece AI ajanlarının sorunsuz ve verimli bir şekilde ölçeklenmesi mümkün olur.

Kod Üretimi (Code Generation)

Kod üretimi süreçleri genellikle model çıktısına göre istemin yeniden düzenlenmesi, gereksinimlerin netleştirilmesi veya hata ayıklama gibi adımları içeren tekrarlayan (iteratif) geri bildirim döngüleri gerektirir.

Bu ileri-geri etkileşim, her kullanıcı adımında bağlamın (context) yeniden hesaplanmasını zorunlu kılar ve bu da inference maliyetlerini artırır.

NVIDIA Dynamo, bu süreci aşağıdaki yöntemlerle optimize eder:

Bağlamın yeniden kullanılmasını (context reuse) sağlar,
Daha uygun maliyetli belleklere (örneğin CPU RAM) taşıyarak pahalı yeniden hesaplamaların önüne geçer.

Sonuç olarak, genel inference maliyetleri düşer ve kod üretim süreci daha verimli hale gelir.

NVIDIA Dynamo ile Başlayın.

Geliştirme için Kodu İndirin

NVIDIA Dynamo, uçtan uca örneklerle birlikte GitHub’da açık kaynaklı yazılım olarak mevcuttur.
NVIDIA Dynamo, NVIDIA Triton Inference Server™’ın halefidir. Daha önceki Triton Inference Server Github’ına bağlantı buradadır .

NVIDIA Dynamo Deposuna (Github) gidin

İletişime Geçin

NVIDIA AI Enterprise’ın güvenliği, API kararlılığı ve desteğiyle pilot uygulamadan üretime geçiş hakkında bir NVIDIA ürün uzmanıyla görüşün

Bize Ulaşın

NVIDIA Dynamo: Üretken Yapay Zeka için Düşük Gecikmeli Dağıtık Çıkarım Çözümü

NVIDIA Dynamo: Üretken Yapay Zeka için Düşük Gecikmeli Dağıtık Çıkarım

Temel Özellikler

Dinamik kaynak planlaması
Akıllı istek yönlendirmesi
Optimize edilmiş bellek yönetimi
Hızlandırılmış veri aktarımı

DeepSeek-R1 671B Performansı

NVIDIA Dynamo, NVIDIA GB200 NVL72 üzerinde DeepSeek-R1 671B modeli ile test edildiğinde yanıtlanan istek sayısını 30 kata kadar artırarak maksimum token üretimi sağlamıştır.

Uyumluluk ve Gelecek Planları

NVIDIA Dynamo, tüm büyük AI çıkarım arka uçlarını destekler ve yakında NVIDIA AI Enterprise'ın bir parçası olarak kurumsal destekle sunulacaktır.

İlgili Sayfalar

Daha fazla bilgi için resmi NVIDIA Dynamo sayfasını ziyaret edebilirsiniz.