[ad_1]
Inferensi telah muncul sebagai perbatasan kompleksitas baru di AI. Model modern berkembang menjadi sistem agen yang mampu melakukan penalaran multi-langkah, memori persisten, dan konteks penjahat panjang-memungkinkan mereka untuk menangani tugas-tugas kompleks di seluruh domain seperti pengembangan perangkat lunak, pembuatan video, dan penelitian mendalam. Beban kerja ini menempatkan tuntutan yang belum pernah terjadi sebelumnya pada infrastruktur, memperkenalkan tantangan baru dalam komputasi, memori, dan jaringan yang membutuhkan pemikiran ulang mendasar tentang bagaimana inferensi diskalakan dan dioptimalkan.
Di antara tantangan -tantangan ini, memproses konteks besar untuk kelas beban kerja tertentu telah menjadi semakin kritis. Dalam pengembangan perangkat lunak, misalnya, sistem AI harus beralasan atas seluruh basis kode, mempertahankan dependensi lintas file, dan memahami struktur tingkat repositori-transformasi pengkodean asisten dari alat pelengkap otomatis menjadi kolaborator cerdas. Demikian pula, aplikasi video dan penelitian bentuk panjang menuntut koherensi dan memori berkelanjutan di jutaan token. Persyaratan ini mendorong batas -batas apa yang dapat didukung oleh infrastruktur saat ini.
Untuk mengatasi pergeseran ini, NVIDIA Smart Framework menyediakan jalur ke depan – mengoptimalkan inferensi di seluruh skala, kinerja multidimensi, arsitektur, ROI, dan ekosistem teknologi yang lebih luas. Ini menekankan infrastruktur terpisah tumpukan penuh yang memungkinkan alokasi sumber daya komputasi dan memori yang efisien. Platform seperti NVIDIA Blackwell dan NVIDIA GB200 NVL72, dikombinasikan dengan NVFP4 untuk inferensi presisi rendah dan perangkat lunak open source seperti NVIDIA Tensorrt-LLM dan NVIDIA Dynamo, adalah performa inferensi mendefinisikan ulang di seluruh lanskap AI.
blog ini mengeksplorasi evolusi berikutnya dalam infrastruktur inferensi terpisah dan memperkenalkan Nvidia Rubin CPX-GPU yang dibangun dengan tujuan yang dirancang untuk memenuhi tuntutan beban kerja AI konteks lama dengan efisiensi dan ROI yang lebih besar.
Inferensi terpilah: Pendekatan yang dapat diskalakan untuk kompleksitas AI
Inferensi terdiri dari dua fase yang berbeda: fase konteks dan fase generasi, masing -masing menempatkan tuntutan yang berbeda secara mendasar pada infrastruktur. Fase konteks terikat komputasi, yang membutuhkan pemrosesan throughput tinggi untuk menelan dan menganalisis volume besar data input untuk menghasilkan hasil output token pertama. Sebaliknya, fase generasi adalah memori yang terikat bandwidth, mengandalkan transfer memori cepat dan interkoneksi berkecepatan tinggi, seperti NVLink, untuk mempertahankan kinerja output token-by-token.
Inferensi terpilah memungkinkan fase -fase ini diproses secara independen, memungkinkan optimalisasi sumber daya komputasi dan memori yang ditargetkan. Pergeseran arsitektur ini meningkatkan throughput, mengurangi latensi, dan meningkatkan pemanfaatan sumber daya secara keseluruhan (Gambar 1).


Namun, disagregasi memperkenalkan lapisan kompleksitas baru, membutuhkan koordinasi yang tepat di seluruh transfer cache KV latensi rendah, rute-sadar LLM, dan manajemen memori yang efisien. Nvidia Dynamo berfungsi sebagai lapisan orkestrasi untuk komponen -komponen ini, dan kemampuannya memainkan peran penting dalam hasil inferensi MLPERF terbaru. Pelajari bagaimana disagregasi dengan Dynamo di GB200 NVL72 menetapkan catatan kinerja baru.
Untuk memanfaatkan manfaat inferensi terpilah-terutama dalam fase konteks komputasi-intensif-akselerasi khusus sangat penting. Mengatasi kebutuhan ini, NVIDIA memperkenalkan Rubin CPX GPU-solusi yang dibangun khusus yang dirancang untuk memberikan kinerja throughput tinggi untuk beban kerja inferensi konteks panjang bernilai tinggi sementara dengan mulus berintegrasi ke dalam infrastruktur yang terpilah.
Rubin CPX: Dibangun untuk mempercepat pemrosesan konteks panjang
Rubin CPX GPU dirancang untuk meningkatkan kinerja konteks panjang, melengkapi infrastruktur yang ada sambil memberikan efisiensi yang dapat diskalakan dan memaksimalkan ROI dalam penyebaran inferensi yang sadar konteks. Rubin CPX, dibangun dengan arsitektur Rubin, memberikan kinerja terobosan untuk fase konteks inferensi yang intensif. Ini fitur 30 petaflops dari komputasi NVFP4, 128 GB memori GDDR7, dukungan perangkat keras untuk decoding dan pengkodean video, dan akselerasi perhatian 3X (dibandingkan dengan NVIDIA GB300 NVL72).
Dioptimalkan untuk memproses urutan yang panjang secara efisien, Rubin CPX sangat penting untuk kasus penggunaan inferensi bernilai tinggi seperti pengembangan aplikasi perangkat lunak dan pembuatan video HD. Dirancang untuk melengkapi arsitektur inferensi terpilah yang ada, ini meningkatkan throughput dan responsif sambil memaksimalkan ROI untuk beban kerja AI generatif skala besar.
Rubin CPX bekerja bersama-sama dengan NVIDIA VERA CPU dan Rubin GPU untuk pemrosesan fase-generasi, membentuk solusi penyajian yang lengkap dan berkinerja tinggi untuk kasus penggunaan konteks panjang. NVIDIA VERA RUBIN NVL144 CPX Rack mengintegrasikan 144 Rubin CPX GPU, 144 Rubin GPU, dan 36 Vera CPU untuk mengirimkan 8 exaflops dari NVFP4 Compute-7,5 × lebih banyak dari GB300 NVL72-SPIRSIDE 100 TB dari memori pk-pb dalam pb300 pb/s Mate-side 100 TB dari pita tinggi dan pB3 × pbs di dalam pB3 pb nvl72-spried 100 TB dari speed high-speed dan pbs di dalam pB3 pb nvl72-spried 100 TB dari speed high-speed ingatan dan pbs di dalam pb nvl72-spried spide 100 TB high-speed dan high-speed dan high-speed.
Menggunakan NVIDIA Quantum-X800 Infiniband atau Spectrum-X Ethernet, dipasangkan dengan supernik Nvidia ConnectX-9 dan diatur oleh platform Dynamo, Vera Rubin NVL144 CPX dibangun untuk memberi daya pada gelombang konteks yang diperkenalkan di dunia.
Pada skala, platform dapat memberikan pengembalian investasi 30x hingga 50x, yang diterjemahkan ke pendapatan sebanyak $ 5 miliar dari investasi CAPEX $ 100 juta – mengatur tolok ukur baru untuk Ekonomi Inferensi. Dengan menggabungkan infrastruktur terpilah, akselerasi, dan orkestrasi full-stack, Vera rubin NVL144 CPX mendefinisikan kembali apa yang mungkin untuk perusahaan membangun generasi berikutnya dari aplikasi AI generatif.


Ringkasan
NVIDIA RUBIN CPX GPU dan NVIDIA VERA RUBIN NVL144 CPX RACK mencontohkan filosofi platform pintar-pengiriman yang dapat diskalakan, kinerja multi-dimensi, dan ROI melalui inovasi arsitektur dan integrasi ekosistem. Didukung oleh NVIDIA Dynamo dan dibangun untuk konteks besar-besaran, ini menetapkan standar baru untuk infrastruktur AI full-stack yang menciptakan kemungkinan baru untuk beban kerja, termasuk pengkodean perangkat lunak canggih dan video generatif.
Pelajari lebih lanjut tentang Nvidia Rubin CPX.
[ad_2]
Nvidia rubin CPX mempercepat kinerja dan efisiensi inferensi untuk beban kerja konteks 1m+ token