Nvidia CEO Jensen Huang, AI Çip Tasarım Hatasını Kabul Etti: Yüzde 100 Nvidia’nın Suçu, TSMC Sorumlu Değil

Nvidia’nın Blackwell GPU’larındaki verim sorununa neden olan tasarım hatası, aylar önce düzeltildi ve B100 ile B200 işlemcilerinin iyileştirilmiş versiyonu seri üretime girmeye hazırlanıyor. Reuters’ın haberine göre, Nvidia CEO’su Jensen Huang, hatanın tamamen Nvidia’nın tasarımından kaynaklandığını ve üretim ortağı TSMC’nin zamanında müdahalesiyle düzeltildiğini belirtti.

“Blackwell’de bir tasarım hatamız vardı, işlevseldi ancak verim düşüklüğüne yol açtı,” diyen Huang, bu durumun “Yüzde 100 Nvidia’nın hatası” olduğunu kabul etti.

TSMC ile İlişkilerde Gerginlik İddiaları Gerçeği Yansıtmıyor

Tasarım hatasına dair ilk raporlar ortaya çıktığında bazı medya kuruluşları, TSMC’nin bu durumdan sorumlu olduğunu ileri sürdü ve bu iddiaların Nvidia ile TSMC arasında gerilime yol açabileceğini öne sürdü. Ancak Huang, bu iddiaları “sahte haber” olarak nitelendirerek, sorunun tamamen Nvidia’nın hesaplamalarından kaynaklandığını ifade etti.

Blackwell GPU’larının Düzeltme Süreci ve Teknolojik Detaylar

Nvidia’nın Blackwell B100 ve B200 GPU’ları, TSMC’nin CoWoS-L paketleme teknolojisiyle üretiliyor ve iki yonga, yaklaşık 10 TB/s veri aktarım hızını sağlamak için yerel silikon ara bağlantı (LSI) köprüleriyle birbirine bağlanıyor. Bu köprülerin konumu son derece kritik ve GPU yongaları, LSI köprüleri, RDL ara bileşeni ile anakart arasındaki termal genleşme farklılıklarından kaynaklanan uyumsuzluklar sistemde deformasyona neden oldu. Bu nedenle Nvidia, üretim verimini artırmak amacıyla GPU’nun üst metal katmanlarında ve çıkıntılarında değişiklik yapmak zorunda kaldı. Şirket, düzeltmenin detaylarına girmese de yeni maskelerin gerekli olduğunu belirtti.

Yarı iletken sektöründe bu tür verim sorunları ve işlevsellik hataları (errata) alışılmadık bir durum değildir. Şirketler genellikle bu sorunları bir veya iki metal katmanını değiştirerek düzeltir ve buna “adımlama” adı verilir. Örneğin, Intel’in Sapphire Rapids işlemcisinde 500 hata olduğu ve bunların düzeltildiği yaklaşık bir düzine adımlama yapıldığı bildirilmiştir. Her adımlama için ortalama üç ay gerekirken (sorunun tespiti, düzeltilmesi ve çipin yeni versiyonunun üretimi dahil), Nvidia ve TSMC’nin Blackwell GPU’yu bu kadar hızlı bir şekilde düzeltmesi oldukça etkileyici bir başarıdır.

Blackwell GPU’larının Seri Üretime Geçişi

Yapay zeka ve süper bilgisayar uygulamaları için düzeltilen Blackwell GPU’ları, ekim ayı sonuna doğru seri üretime başlayacak ve 2025 mali yılı içinde, önümüzdeki yılın başlarında gönderimlere başlanacak.

Bununla birlikte, Nvidia, 2024 yılında AWS, Google ve Microsoft gibi büyük bulut hizmeti sağlayıcılarının Blackwell GPU’larına yönelik talebi karşılamak amacıyla, bazı düşük verimli Blackwell işlemcilerini göndereceğini açıkladı. 2024’te veri merkezlerine kaç adet Blackwell GPU’sunun sevk edileceği ise henüz belirsizliğini koruyor.

Yorum yapın

Skip to content
Web sitemizde size en iyi deneyimi sunabilmek için çerezleri kullanıyoruz. Bu siteyi kullanmaya devam ederek çerezleri kullanmamızı kabul etmiş oluyorsunuz.
Kabul Et
Reddet