Nvidia Blackwell B200 işlemcisi ve MLPerf 4.1 sonuçları hakkında detaylı bir performans karşılaştırması keşfedin. Yeni nesil işlemcilerin yeteneklerini ve yapay zeka alanındaki etkilerini analiz edin.
Nvidia, Blackwell B200 işlemcisinin ilk MLPerf 4.1 neticelerini duyurdu ve bu sonuçlar, yeni Blackwell GPU’nun önceki Hopper mimarili H100 modeline kıyasla dört kat daha yüksek performans sunduğunu göstermekte. Sadece, bu sonuçların değerlendirilmesinde dikkate alınması ihtiyaç duyulan bazı mühim noktalar bulunmaktadır.
Nvidia’nın paylaşmış olduğu verilere nazaran, Blackwell tabanlı B200 GPU, bir sunucu doğrulama testinde tek bir GPU ile saniyede 10.755 token, çevrimdışı bir referans testinde ise saniyede 11.264 token işlem kapasitesine ulaşmaktadır. Mevcut MLPerf Llama 2 70B karşılaştırma sonuçlarına baktığımızda, dört tane Hopper H100 tabanlı bir sistemin benzer sonuçlar elde ettiğini görmekteyiz. Bu durum, Nvidia’nın tek bir Blackwell işlemcisinin, tek bir Hopper H100 GPU’ya kıyasla ortalama 3.7-4 kat daha süratli bulunduğunu ortaya koymaktadır.
4 katlık hız farkı birazcık aldatıcı
Peki, bu %400’e ulaşan makine öğrenimi performans farkı nereden ve iyi mi kaynaklanıyor? İlk olarak, Nvidia’nın Blackwell işlemcisi, beşinci nesil Tensor Core’ları ile FP4 hassasiyetini desteklemekte, oysa Hopper tabanlı H100 yalnızca FP8 formatını desteklemektedir. Bu durum, Blackwell’in FP4 performansının FP8’e kıyasla iki kat daha çok işleme kapasitesi sunmasına yol açmaktadır. Bu, dikkate alınması ihtiyaç duyulan ilk mühim nokta.
İkinci olarak, Nvidia’nın aslına bakarsak elma ile armudu kıyasladığı söylenebilir. Şirket, tek bir B200 ile dört tane H100’ü karşılaştırmakta; bu da birazcık yanıltıcı bir durum yaratmaktadır. Çoğu zaman, GPU başına performansı ölçmek için GPU’lar tekil olarak kıyaslanır, şu sebeple ölçekleme devamlı muhteşem sonuçlar vermez. Bu durum, CrossFire yada SLI yapıldığında iki ekran kartının performansının tek bir ekran kartına kıyasla 2X olmaması örneğinde görülebilir. MLPerf 4.1’de tekil halde H100 GPU sonucu mevcut olmamakta, sadece H200 için sonuçlar bulunmaktadır. Tek bir H200, saniyede 4.488 token işlem kapasitesine ulaşabilmektedir; bu da B200’ün 2.5 kat daha süratli olduğu anlamına gelmektedir.
Hafıza kapasitesi ve bant genişliği de bu karşılaştırmada mühim bir rol oynamaktadır. Kontrol edilen B200 GPU, 180 GB HBM3E belleği taşırken, H100 SXM 80 GB HBM ile başlayıp bazı konfigürasyonlarda 96 GB’a kadar çıkabilmektedir; H200 ise 96 GB HBM3 ile 144 GB’a kadar HBM3E sunabilmektedir. Bundan dolayı, “4 kata kadar” ifadesi, sayı formatı, GPU sayısı ve hafıza kapasitesi şeklinde potansiyel farklılıklardan meydana gelmektedir.