Supermicro ve NVIDIA Yapay Zeka, Öğrenim ve Daha Fazlası için Optimize Edilmiş Sistemler Sunuyor

Üretkenliği Artırmak İçin Gelişmiş Veri Erişimi ve Aktarımından En İyi Şekilde Yararlanmak

Modern işletmeler, işlerinde ve operasyonlarında gelişmiş uygulamaları ve veri işlemeyi kullanarak önemli rekabet avantajları elde etmektedir. Bunlar arasında ChatGPT, LLaMa ve benzeri yapay zeka tabanlı büyük dil modelleri, çok büyük eğitim ve gerçek veri kümelerine dayanan makine öğrenimi analizleri, karmaşık 3D ve sonlu eleman modelleri ve simülasyonları ile diğer veri ve bilgi işlem yoğunluklu uygulamalar yer alır.

Bu tür iş yüklerinin hepsinin en azından şu kadar ortak noktası var: Kullanmak isteyebileceğiniz her türlü katmanlı modelde depolamaya hızlı erişimden önemli ölçüde yararlanıyorlar. Pek çok kuruluşun ve hizmet sağlayıcının büyük, karmaşık veri kümelerini ve bunları tüketen iş yüklerini yönetmek için GPU tabanlı sunuculara yönelmesinin önemli nedenlerinden biri de budur. Bu iş yüklerini idare etme konusunda çok daha yeteneklidirler ve bu tür görevleri, daha tipik depolama yapılandırmalarına (örneğin, yerel RAM ve NVMe SSD’ler, LAN üzerinde veya bulutta ek depolama katmanlarına sahip) sahip geleneksel sunuculara göre daha hızlı tamamlayabilirler.

Verimi artırmanın sırrı, gecikmenin azaltılması ve daha iyi depolama bant genişliğidir. Bunlar, daha sonra açıklanacağı gibi, öncelikle doğrudan ve uzaktan bellek erişimine dayanan akıllı IO ve ağ oluşturma teknikleri yoluyla, doğrudan gelişmiş üretkenlik ve kapasiteye dönüşür. Daha hızlı model eğitimi ve işin tamamlanması, yapay zeka destekli uygulamaların daha hızlı devreye alınabileceği ve işlerin daha hızlı tamamlanarak değer elde etme süresinin kısaltılabileceği anlamına gelir.

Doğrudan Bellek Erişimi ve Uzaktan Eşdeğerler

Doğrudan bellek erişimi (diğer adıyla DMA), bilgi işlemin ilk günlerinden bu yana GÇ’yi hızlandırmak için kullanılıyor. Temel olarak DMA, bir veri yolu (veya bir tür başka arayüz) üzerinden bir aygıttan diğerine bellekten belleğe aktarımları içerir. Bir dizi bellek adresini doğrudan gönderenin belleğinden alıcının belleğine (veya iki yönlü aktarımlar için iki taraf arasında) kopyalayarak çalışır. Bu özellik, CPU’yu sürecin dışına çıkarır ve ilgili kopyalama işlemlerinin sayısını azaltarak aktarımı hızlandırır (böylece CPU’nun gönderenin verilerini kendi belleğine kopyalamasına, ardından bu verileri kendi belleğinden alıcının belleğine kopyalamasına gerek kalmaz).

Aslında, tek bir sistemdeki DMA performansı yalnızca veri aktarımında yer alan gönderen ve alan cihazları birbirine bağlayan veri yolunun (veya diğer arayüzün) hızıyla sınırlıdır. PCIe 4.0 için bu, 16 gigatransfer/saniye (GT/s), PCIe 5.0 (32 GT/s) için bu miktarın iki katıdır. Veri hızları, kodlama ve paketleme masrafları nedeniyle doğal olarak daha yavaştır, ancak bu iki PCIe sürümünün nominal bant genişliği sırasıyla 64 Gbps (4.0) ve 128 Gbps’dir (5.0). Bu çok hızlı!

Uzak DMA (diğer adıyla RDMA), tek bir bilgisayardaki DMA’nın yeteneğini, bir ağ bağlantısı üzerinden bir çift cihaz arasında çalışacak şekilde genişletir. RDMA tipik olarak, temel ağ teknolojisinin izin verdiği ölçüde yerel DMA’nın aynı faydalarından çoğunu sağlamak üzere özel ağ donanımı ve yazılımıyla çalışan benzersiz bir uygulama programlama arabirimine (API) dayanır.

NVIDIA GPU’lar, hızı ve maliyeti azaltarak (önce en hızlı, en pahalı) bu tür üç ağ teknolojisini destekler:

NVIDIA NVLink, yüksek hızlı bir ağ üzerinde GPU’lar arasındaki veri aktarımını hızlandırmak için en yüksek hızlı özel arayüzleri ve anahtar teknolojilerini kullanır. Şu anda herhangi bir teknoloji için standart MLPerf Training v3.0 kıyaslamalarında en yüksek performansı gösteriyor . Tek bir NVIDIA H100 Tensor Core GPU, 900 Gbps’ye kadar (PCIe 5.0’ın etkin hızının 7 katı) 18 adede kadar NVLink bağlantısını destekler.
InfiniBand, InfiniBand Ticaret Birliği (IBTA) tarafından denetlenen ve yüksek performanslı ağlarda yaygın olarak uygulanan yüksek hızlı bir ağ standardıdır. Ölçülen en yüksek veri hızları 2020 itibarıyla civarındadır (1,2 Tbps, ~154 GBps) .
Ethernet, nadiren kullanılan TbE (~125 GBps) ve daha yaygın olan 400 GbE (50 GBps) dahil olmak üzere birçok çeşidi olan standart bir ağ teknolojisidir. Birçok veri merkezinde daha uygun fiyatlı olması, yaygın olarak dağıtılması ve tanıdık bir teknoloji olması gibi avantajlara sahiptir.

NVIDIA GPU’larını Supermicro Sunucularda Çalıştırma

NVIDIA RDMA teknolojileri, önceki üç ağ teknolojisinin tamamında GPU tabanlı veri erişimini destekleyebilir. Her biri, daha fazla maliyetin daha yüksek hız ve daha düşük gecikme anlamına geldiği farklı bir fiyat-performans dengesi sunar. Kuruluşlar, her seçeneğin güvenebilecekleri belirli bir fiyat ve performans kombinasyonunu temsil ettiğinin bilincinde olarak, bütçelerine ve ihtiyaçlarına en uygun temel bağlantı türünü seçebilir. Çeşitli yapay zeka veya makine öğrenimi tabanlı (ve diğer veri ve bilgi işlem yoğunluklu uygulamalar) böyle bir sunucuda çalışırken, aşağıdaki katmanların mevcut olduğu GPU depolamanın katmanlı mimarisinden yararlanabilirler (performansın azalan sırasına göre, artan şekilde). boyut ve kapasite):

1. katman: GPU belleği en hızlı, en pahalı ve en küçük veri deposudur (örneğin, Tensor H100 GPU’da 188 GB HBM3 RAM bulunur)
2. katman: PCIe veriyolundaki yerel SSD’ler ikinci en hızlıdır, hala pahalıdır ve üst düzey bir GPU’nun kapasitesinin 10 ila 100 katıdır
3. katman: LAN üzerindeki uzak depolama sunucuları, onlara erişen GPU’ların kapasitesinin 1000 katından fazlasını destekleyebilir

AI ve ML uygulamaları hem düşük gecikme süresine hem de yüksek bant genişliğine ihtiyaç duyduğundan, RDMA, DMA’nın yerel avantajlarının ağ kaynaklarına kadar genişletilmesine yardımcı olur (ilgili temel bağlantılara bağlı olarak). Bu özellik, cihazlar (bir tarafta GPU, diğer tarafta depolama cihazı) arasında bellekten belleğe aktarım yoluyla harici verilere hızlı erişim sağlar. NVLink, InfiniBand veya bazı yüksek hızlı Ethernet türleriyle çalışan uzak adaptör, verileri uzak bir sistemdeki bellekten bazı yerel GPU’lardaki belleğe aktarır. NVIDIA Magnum IO, ihtiyaç duyan zorlu uygulamalar için depolamayı, ağı ve çok düğümlü, çoklu GPU iletişimlerini en üst düzeye çıkarmak amacıyla paralel, akıllı veri merkezi IO’yu desteklemek üzere veri merkezlerine yönelik bir IO hızlandırma platformu sağlar.

Supermicro, GPU sunucu sistemlerinde NVIDIA GPU’larını ve bunların destekleyici erişim yöntemlerini kullanır. Bunlar arasında yerel DMA, API aracılığıyla RDMA ve ayrıca üç bağlantı türünün tümünü destekleyen birden fazla NIC ve anahtar aracılığıyla yüksek performanslı ağ iletişimi yer alır. Ayrıca Supermicro GPU sunucuları, GPU’ların sunabileceği hızlandırılmış IO’yu desteklemek için Veri İşleme Birimleri (DPU’lar) adı verilen bir veya iki özel amaçlı ASIC’yi de içerir. Bunlar, sunucu CPU’larından ek GÇ yükünü boşaltır. Benzer şekilde, bu tür sunucular, PCIe 5.0 aygıtları ile RDMA aygıtları arasındaki aktarımları en üst düzeye çıkarmak için ağ bant genişliğine sürekli ve genişletilmiş erişim sağlamak üzere sunucu başına sekiz adede kadar ağ bağdaştırıcısını destekleyebilir. Bu, PCIe veriyolunda bile hiçbir darboğaz olmamasını sağlar ve verimi en üst düzeye çıkarmaya ve gecikmeyi en aza indirmeye yardımcı olur.

Performansa ilişkin sonuçlar son derece olumludur. Yoğun iş yükleri için NVIDIA’nın hızlandırılmış IO aralığını kullanarak %20’den %30’a kadar 2 kata kadar performans artışı elde edebilirsiniz. Verimsizliği önlemek için depolamadan yararlanacak uygulamaların tasarlanması da önemlidir. Bu nedenle bu tür uygulamaların düzenli kontrol noktaları yapacak şekilde yapılandırılması gerekir. Aksi takdirde, bir düğümün ağdan çıkması veya bir süreliğine engellenmesi durumunda ilk başlangıçlarından yeniden başlamaları gerekir. Denetim noktalarının kullanılması, bir düğüm arızası veya başka bir engelleme olayı durumunda ilerlemenin yalnızca en son anlık görüntüye geri döndüğü anlamına gelir (bu tür yetenekler yerel ve ağ veri koruma araçlarından edinilebilir ve uygulamaya özel olarak yerleştirilmesi gerekmeyebilir). hakikat).

Genel olarak, AI, ML ve diğer yüksek talep gerektiren iş yükleri (örneğin, 3D veya sonlu eleman modelleri, simülasyonlar vb.) için DPU ve GPU tabanlı sunucuları kullanmanın gerçek avantajı, altyapı bileşenlerinin birbirinden ayrılmasını sağlamasıdır. uygulama faaliyetleri. Bu, halihazırda altyapı erişimi ve yönetimine ayrılan CPU döngülerinden %20 ila %30 oranında tasarruf sağlar. Bu, GÇ işlevlerini donanıma aktararak kaynakları serbest bırakır ve erişimi hızlandırır.