Pengoptimalan memori AI menjadi raja baru


Perlombaan AI hebat berikutnya mungkin dimenangkan bukan pada komputasi mentah, namun pada memori. Dengan kekurangan yang memperlihatkan batasan yang sulit di seluruh pusat data, pengoptimalan memori AI menjadi pusat perhatian sebagai cara untuk membuka lebih banyak token, lebih banyak efisiensi, dan lebih banyak nilai dari infrastruktur yang sama.

Apa yang tadinya merupakan masalah infrastruktur di balik layar kini menjadi keunggulan kompetitif utama, menurut Val Bercovici (gambar, kiri), chief AI officer di WekaIO Inc. Dalam pembuktian konsep yang dilakukan bersama Firmus Technologies Pty Ltd, Weka menggunakan penghematan penyimpanan untuk memperluas memori — melestarikan konteks alih-alih memprosesnya berulang kali di GPU — untuk menunjukkan bagaimana organisasi dapat secara dramatis meningkatkan keluaran token tanpa meningkatkan konsumsi energi.

“Hasilnya sesuai dengan apa yang kami harapkan [that] Anda bisa mendapatkan — dari Belanja Modal dan OpEx yang sama, GPU dan biaya energi yang sama — token 6,5 kali lebih banyak, jadi 550% lebih banyak, “kata Bercovici. “Seolah-olah dalam skenario makro, Anda baru saja membuat lima setengah pusat data baru begitu saja.”

Bercovici dan Daniel Kearney (kanan), chief technology officer Firmus Technologies Pty Ltd., berbicara dengan CUBE Gemma Allen di Konferensi & Ekspo AI Nvidia GTCselama siaran eksklusif di theCUBE, studio streaming langsung SiliconANGLE Media. Mereka membahas optimalisasi memori AI, munculnya agen, dan bagaimana POC gabungan antara Weka dan Firmus menunjukkan lebih banyak token menggunakan anggaran daya yang sama. (* Pengungkapan di bawah.)

Pengoptimalan memori AI berupaya menghilangkan pajak penghitungan ulang

Tantangan signifikan dalam infrastruktur AI saat ini adalah redundansi data “pengisian awal”, menurut Bercovici. Ketika jendela memori terbatas, GPU sering kali membuang perintah lama untuk memberi ruang bagi perintah baru, sehingga memaksa sistem untuk memproses ulang informasi berulang kali. Penghitungan ulang pajak ini sangat bermasalah bagi agen yang sudah berjalan lama dan memerlukan konteks mendalam agar tetap efektif selama berjam-jam atau berhari-hari.

“Kemampuan untuk menghadirkan silikon yang lebih spesifik atau konteks yang lebih luas agar sesuai dengan beban kerja, bahkan secara retrospektif, terus memperluas kegunaan investasi Belanja Modal yang terjadi sebelumnya – hal ini sangat besar,” kata Kearney. “Kami dapat merekayasa keluar dari keusangan. Kini kami dapat menghadirkan sistem berbasis GPU yang sudah ada ke pasar dan siap untuk beban kerja generasi berikutnya tanpa harus menerapkan ulang dan membuang sistem lama untuk menghadirkan sistem yang benar-benar baru.”

Hubungan tersebut merupakan perpaduan antara teknologi ekstensi memori dan infrastruktur pabrik AI: Weka menyediakan pendekatan perangkat lunak dengan Augmented Memory Grid pada NeuralMesh, sementara Firmus menyediakan lingkungan dan sumber daya GPU untuk membuktikannya dalam kondisi nyata. Dalam pengujian, kombinasi tersebut memungkinkan agen mempertahankan konteks alih-alih terus-menerus melakukan pra-pengisian ulang, sehingga membuka lebih banyak keluaran token dari GPU dan selubung daya yang sama. Peningkatan tersebut penting karena beban kerja jangka panjang yang intensif memori semakin menentukan AI agen, jelas Bercovici.

“Manfaat gabungan dari pergantian agen yang semakin cepat – tersebar di puluhan ribu pergantian agen – berarti obat-obatan ditemukan lebih cepat. Obatnya ditemukan lebih cepat. Perdagangan dioptimalkan dengan lebih baik. Ada begitu banyak kasus penggunaan saat ini yang memiliki nilai bisnis yang sangat besar,” katanya. “Pemenang dan pecundang akan ditentukan oleh siapa yang memanfaatkan momen saat ini.”

Berikut video wawancara selengkapnya, bagian dari liputan SiliconANGLE dan CUBE di Nvidia GTC AI Conference & Expo:

(* Pengungkapan: Weka mensponsori segmen theCUBE ini. Baik Weka maupun sponsor lainnya tidak memiliki kendali editorial atas konten di theCUBE atau SiliconANGLE.)

Foto: SiliconANGLE

Dukung misi kami untuk menjaga konten tetap terbuka dan gratis dengan terlibat dalam komunitas CUBE. Bergabunglah dengan Jaringan Kepercayaan Alumni theCUBEtempat para pemimpin teknologi terhubung, berbagi intelijen, dan menciptakan peluang.

  • 15 juta+ pemirsa video CUBEmendukung percakapan seputar AI, cloud, keamanan siber, dan banyak lagi
  • 11.4k+ alumni CUBE — Terhubung dengan lebih dari 11.400 pemimpin teknologi dan bisnis yang membentuk masa depan melalui jaringan unik berbasis tepercaya.

Tentang Media SiliconANGLE

SiliconANGLE Media adalah pemimpin yang diakui dalam inovasi media digital, yang menyatukan teknologi terobosan, wawasan strategis, dan keterlibatan audiens secara real-time. Sebagai perusahaan induk dari SiliconANGLE, theCUBE Network, theCUBE Research, CUBE365, theCUBE AI dan theCUBE SuperStudios — dengan lokasi utama di Silicon Valley dan New York Stock Exchange — SiliconANGLE Media beroperasi di persimpangan antara media, teknologi, dan AI.

Didirikan oleh visioner teknologi John Furrier dan Dave Vellante, SiliconANGLE Media telah membangun ekosistem dinamis merek media digital terkemuka di industri yang menjangkau 15+ juta profesional teknologi elit. TheCUBE AI Video Cloud milik kami yang baru menjadi terobosan dalam interaksi audiens, memanfaatkan jaringan saraf theCUBEai.com untuk membantu perusahaan teknologi membuat keputusan berdasarkan data dan tetap menjadi yang terdepan dalam percakapan industri.



Pengoptimalan memori AI menjadi raja baru