Datacenter GPU Hizmet Süresi: Kısa Süreli Olabileceğini Bilmelisiniz

Veri merkezindeki GPU’lar, kullanım oranına bağlı olarak bir ila üç yıl arasında değişen bir ömre sahip olabilir. Bu durum, Tech Fund tarafından alıntılanan yüksek rütbeli bir Alphabet uzmanına dayanmaktadır. GPU’lar, yapay zeka (AI) eğitimi ve çıkarımında önemli yükümlülükleri üstlendiğinden, sürekli olarak büyük bir yük altında çalışırlar ve bu nedenle diğer bileşenlere kıyasla daha hızlı aşınırlar.

GPU’ların Kullanım Oranları ve Dayanıklılık

Bulut servis sağlayıcıları (CSP) tarafından işletilen veri merkezlerinde AI iş yükleri için GPU’ların kullanım oranları genellikle %60 ile %70 arasında değişmektedir. Bu kullanım oranları ile bir GPU’nun ömrü genellikle bir ila iki yıl arasında, maksimum üç yıl olarak öngörülmektedir. Bu bilgi, Alphabet’ten bir baş jeneratif AI mimarının açıklamalarına dayanmaktadır.

“GenAI principal architect at Alphabet” olarak kendini tanıtan kişinin ismini doğrulayamadığımız için, iddialarını %100 güvenilir bulamıyoruz. Ancak, modern veri merkezi GPU’larının AI ve HPC uygulamaları için 700W veya daha fazla güç tüketip yaydığını göz önünde bulundurursak, bu durumun makul olduğunu anlıyoruz. Bu, silikonun küçük parçaları için önemli bir stres faktörüdür.

GPU Ömrünü Uzatmanın Yolları

Uzman görüşlerine göre, bir GPU’nun ömrünü uzatmanın en etkili yollarından biri kullanım oranlarını azaltmaktır. Ancak bu, daha yavaş değer kaybı ve yatırımın geri dönüş süresinin uzaması anlamına geldiği için işletmeler açısından pek de avantajlı değildir. Bu nedenle, bulut hizmet sağlayıcılarının çoğu GPU’larını yüksek kullanım oranlarıyla çalıştırmayı tercih etmektedir.

Meta’nın Eğitim Çalışması ve Sonuçları

Bu yılın başlarında Meta, 16.384 Nvidia H100 80GB GPU ile desteklenen Llama 3 405B modelinin eğitimini açıkladığı bir çalışma yayınladı. Kümenin model FLOP kullanım oranı (MFU) yaklaşık %38 olarak belirlenmiştir. Ancak bu süreçte 419 beklenmeyen kesinti yaşanmış; bunların 148’i (%30,1) çeşitli GPU arızaları (NVLink arızaları dahil) nedeniyle, 72’si (%17,2) ise HBM3 bellek FLOP’larından kaynaklanmıştır.

Meta’nın sonuçları, H100 GPU’ları için oldukça olumlu görünmektedir. Eğer GPU’lar ve bellekleri Meta’nın hızında bozulmaya devam ederse, bu işlemcilerin yıllık arıza oranı yaklaşık %9 civarında olacaktır. Oysa, bu GPU’lar için üç yıllık bir süre zarfında yıllık arıza oranı yaklaşık %27 olacaktır. Ancak, GPU’ların bir yıllık hizmetten sonra daha sık arızalanma ihtimali bulunmaktadır.

Yorum yapın

Skip to content
Web sitemizde size en iyi deneyimi sunabilmek için çerezleri kullanıyoruz. Bu siteyi kullanmaya devam ederek çerezleri kullanmamızı kabul etmiş oluyorsunuz.
Kabul Et
Reddet