Inferensi kecerdasan buatan memasuki era baru yang tidak ditentukan oleh komputasi saja, namun oleh meningkatnya permintaan akan memori konteks yang tidak pernah dirancang untuk ditangani oleh arsitektur penyimpanan tradisional.
Inferensi tidak mengenai dinding komputasi — melainkan mengenai dinding memori konteks. Seiring dengan berkembangnya beban kerja AI dari perintah satu kali ke sesi agen multi-turn dengan jendela konteks jutaan token, volume data cache nilai kunci membengkak hingga petabyte, melampaui jumlah yang dapat diserap oleh tingkat memori GPU dan DRAM. Kekurangan NAND global telah berubah dari isu rantai pasokan menjadi risiko operasional yang material bagi organisasi dengan beban kerja AI yang tinggi. Tantangannya adalah mengubah cara perusahaan penyimpanan mendekati desain pabrik AI, menurut Betsy Chernoff (gambar, kiri), kepala AI dan manajer pemasaran produk di WekaIO Inc.
“Jika Anda memikirkannya dari tingkat awal kami bahkan setahun yang lalu, orang-orang hanya melakukan satu tembakan saja,” kata Chernoff. “Tetapi seiring dengan perkembangan kami, Anda telah melihat hal-hal seperti multi-turn, konkurensi, banyak pengguna, banyak putaran percakapan yang berbeda. Selain itu, panjang konteksnya sendiri juga telah bertambah. Semua ini telah meningkatkan jumlah memori yang diperlukan untuk sistem ini secara eksponensial.”
Chernoff dan Ace Stryker (kanan), direktur pemasaran dan ekosistem AI di Solidigm, merek dagang SK hynix NAND Product Solutions Corp., berbicara dengan Gemma Allen dari CUBE di Nvidia GTC AI Conference & Expo, selama siaran eksklusif di theCUBE, studio streaming langsung SiliconANGLE Media. Mereka membahas bagaimana memori konteks menciptakan tingkat penyimpanan yang benar-benar baru dalam klaster AI dan mengapa kekurangan NAND saat ini menjadikan efisiensi menjadi lebih penting dari sebelumnya. (* Pengungkapan di bawah.)
Memori konteks menciptakan tingkat penyimpanan baru
Di GTC 2026, Nvidia mengumumkan BlueField-4 STX, arsitektur referensi modular yang menyisipkan lapisan memori konteks khusus antara GPU dan penyimpanan tradisional. Implementasi skala rak pertama mencakup platform penyimpanan memori konteks Nvidia CMX baru, yang memperluas memori GPU dengan lapisan konteks berkinerja tinggi untuk sistem inferensi dan agen yang dapat diskalakan. Pengumuman tersebut memvalidasi arah yang telah dibangun oleh Weka dan Solidigm, menurut Stryker.
“Rasanya penyimpanan mendapat promosi tahun ini,” katanya. “Pekerjaan ketiga tersebut adalah node khusus baru yang dikhususkan untuk menyimpan memori konteks atau cache KV. Ini adalah tingkat penyimpanan yang benar-benar baru dalam klaster AI. Dan, sejujurnya, pasar telah dikepung dan merasakan permintaan yang kuat sebelum pengumuman tersebut.”
Weka telah mempersiapkan perubahan ini sejak meluncurkan Augmented Memory Grid di GTC 2025. Pada pameran tahun ini, Chernoff menunjukkan bukti konsep tingkat produksi dengan Firmus yang menghasilkan peningkatan token per detik hingga 6x, yang menggarisbawahi dampak dunia nyata dari penyimpanan cache KV yang persisten.
“Ketika kita berbicara tentang angka throughput token, dan kita berbicara tentang hal-hal seperti pelanggan tidak perlu menghitung ulang token lain jika tidak perlu, semua ini berdampak pada ROI Anda,” kata Chernoff. “Dan itu termasuk kemitraan kami dengan Solidigm juga, karena kami tidak dapat melakukan ini tanpa kalian.”
Berikut video wawancara selengkapnya, bagian dari liputan SiliconANGLE dan CUBE di Nvidia GTC AI Conference & Expo:
(* Pengungkapan: Solidigm mensponsori segmen theCUBE ini. Baik Solidigm maupun sponsor lainnya tidak memiliki kendali editorial atas konten di theCUBE atau SiliconANGLE.)
Foto: SiliconANGLE
Dukung misi kami untuk menjaga konten tetap terbuka dan gratis dengan terlibat dalam komunitas CUBE. Bergabunglah dengan Jaringan Kepercayaan Alumni theCUBEtempat para pemimpin teknologi terhubung, berbagi intelijen, dan menciptakan peluang.
- 15 juta+ pemirsa video CUBEmendukung percakapan seputar AI, cloud, keamanan siber, dan banyak lagi
- 11.4k+ alumni CUBE — Terhubung dengan lebih dari 11.400 pemimpin teknologi dan bisnis yang membentuk masa depan melalui jaringan unik berbasis tepercaya.
Tentang Media SiliconANGLE
Didirikan oleh visioner teknologi John Furrier dan Dave Vellante, SiliconANGLE Media telah membangun ekosistem dinamis merek media digital terkemuka di industri yang menjangkau 15+ juta profesional teknologi elit. TheCUBE AI Video Cloud milik kami yang baru menjadi terobosan dalam interaksi audiens, memanfaatkan jaringan saraf theCUBEai.com untuk membantu perusahaan teknologi membuat keputusan berdasarkan data dan tetap menjadi yang terdepan dalam percakapan industri.