Prediksi peristiwa cuaca ekstrem dalam hitungan menit tanpa superkomputer

[ad_1]

Para ilmuwan dari NVIDIA, bekerja sama dengan Lawrence Berkeley National Laboratory (Berkeley Lab), merilis alat pembelajaran mesin yang disebut besar ansambel (HENS) untuk prediksi cuaca ekstrem yang membawa peramalan kelas superkomputer tetapi pada kekuatan dan biaya komputasi yang jauh lebih sedikit. Tersedia sebagai kode open source atau model siap pakai, itu memperkirakan peristiwa berdampak rendah, berdampak tinggi-dari gelombang panas yang berkepanjangan hingga badai 100 tahun. Teknologi ini dapat membantu para ilmuwan iklim, pejabat kota, dan manajer darurat dengan cepat menguji skenario dan memperbarui rencana respons dengan sumber daya komputasi minimal.

Studi dua bagian yang diterbitkan dalam jurnal Pengembangan Model Geoscientificmemperkenalkan metode yang disebut ayam untuk menghasilkan data 27.000 tahun dan merupakan salah satu ansambel cuaca dan simulasi iklim terbesar dan paling andal yang tersedia.

Menggunakan Nvidia Physicsnemo, kerangka kerja Python open source untuk membangun, pelatihan, dan fine-tuning fisika AI model pada skala, dan kerangka kerja open source, para peneliti melatih model cuaca global untuk memperbaiki metodologi ayam.

“Dua puluh tujuh ribu tahun simulasi adalah tambang emas untuk mempelajari statistik dan pendorong peristiwa cuaca ekstrem,” kata Ankur Mahesh, rekan penulis studi dan peneliti mahasiswa pascasarjana di wilayah Bumi dan Ilmu Lingkungan Berkeley Lab. “Ukuran sampel yang besar ini benar -benar pada skala yang belum pernah terlihat sebelumnya.”

Menurut penelitian, ayam dapat memprediksi cuaca lebih cepat daripada metode lain, mengambil menit daripada jam. Ini juga memperluas jendela perkiraan, memprediksi peristiwa cuaca ekstrem dari enam jam hingga 14 hari ke depan pada resolusi 15 mil (25 kilometer). Ini dapat membantu para peneliti mempelajari pola cuaca di resolusi tinggi selama beberapa dekade untuk mengidentifikasi petunjuk baru yang mengarah ke peristiwa ekstrem.

“Dengan ayam betina, kami sekarang memiliki kemewahan untuk mengejar peristiwa ekstrem yang berdampak rendah dan berdampak tinggi yang diprediksi selama bertahun-tahun dan beberapa dekade alih-alih acara tunggal jangka pendek,” kata rekan penulis senior Bill Collins, seorang ilmuwan senior fakultas di Bumi Lab Berkeley dan Area Ilmu Lingkungan dan seorang profesor di UC Berkeley.

Pendekatan baru ini juga membutuhkan energi dan orang yang jauh lebih sedikit daripada metode lain, dan menghemat energi dengan melatih kembali model pada data baru – teknik untuk memastikan akurasi – lebih cepat dari metode lain, tambah Collins.

Ayam Pelatihan: Physicsnemo dan 40 tahun data iklim

Hens menggunakan model AI yang dilatih menggunakan Physicsnemo pada 40 tahun data ERA5, salah satu sumber negara atmosfer historis terbaik. Setelah dilatih, model ini menawarkan pendekatan komputasi yang jauh lebih murah untuk perkiraan, kata Shashank Subramanian, seorang insinyur pembelajaran mesin di Pusat Komputasi Ilmiah Penelitian Energi Nasional (NERSC) di Berkeley Lab dan rekan penulis studi yang membantu Mahesh mengembangkan dan menguji alur kerja pelatihan dan evaluasi.

“Hens adalah pengubah permainan. Sampai hari ini, menghasilkan 1.000 atau 10.000 ansambel simulasi hanya tidak praktis karena komputasi penghitungan dan biaya penyimpanan data,” kata rekan penulis Michael Pritchard, direktur penelitian simulasi iklim di NVIDIA dan seorang profesor di UC Irvine. “Berkat pekerjaan yang hati-hati dari tim ini mengkalibrasi teknologi simulasi AI, sekarang cocok untuk tujuan untuk menghasilkan ansambel besar termasuk kontrafaktual gelombang panas yang realistis dengan pesanan penyelesaian lebih cepat daripada simulasi numerik tradisional.”

Bagaimana Anda dapat meningkatkan akurasi prediksi cuaca menggunakan ayam?

Untuk menangkap berbagai kemungkinan hasil cuaca di masa depan, Layanan Cuaca Nasional menjalankan beberapa simulasi yang berbeda, atau “anggota ensemble,” masing -masing dengan perubahan kecil pada kondisi awal. Model -model numerik ini didasarkan pada ‌Laws fisika seperti konservasi massa, konservasi momentum, dan konservasi energi. Ada banyak kepercayaan pada simulasi berbasis fisika ini, tetapi mereka juga sangat mahal secara komputasi karena mereka membutuhkan superkomputer.

Karena biaya ini, model cuaca tradisional hanya dapat memiliki 50 anggota ensemble. Untuk menemukan cuaca ekstrem, kondisi awal model perlu terganggu ribuan kali dan membutuhkan ratusan jam superkomputer.

Para peneliti menggunakan ayam untuk menciptakan 7.424 anggota ensembel berdasarkan kondisi cuaca awal dari setiap hari musim panas 2023, yang terpanas pada catatan pada saat itu – hampir 150x lebih banyak anggota daripada apa yang mungkin dengan model konvensional – masing -masing anggota ensemble mewakili lintasan cuaca alternatif, atau cara yang berbeda dengan cuaca bisa terjadi musim panas lalu.

“Ini memungkinkan kami untuk mendapatkan perkiraan yang lebih baik dari ekor distribusi dan memahami peristiwa ekstrem yang bisa terjadi musim panas itu,” kata Mahesh.

Prediksi yang dibuat oleh ayam memiliki ketidakpastian yang lebih dari 10 kali lebih kecil dari yang dari model tradisional. Itu mampu menangkap 96% dari peristiwa cuaca ekstrem yang langka namun parah yang biasanya dilewatkan oleh model lain. Bersama -sama, kekuatan ini telah memungkinkan tim untuk membuat dataset yang sangat besar, sekitar 27.000 tahun data iklim (20 petabyte).

Selama percobaan validasi yang ketat di NERSC, Mahesh dan tim menimbang prediksi ensemble pada berbagai metrik diagnostik, menunjukkan bahwa ayam sangat dekat dengan standar emas.

Apa selanjutnya?

Dalam pekerjaan di masa depan, Mahesh mengatakan bahwa tim berencana untuk mempelajari simulasi 27.000 tahun dengan harapan mengungkap wawasan baru tentang pengemudi di balik peristiwa berdampak tinggi yang mirip dengan rendah, seperti gelombang panas bencana, badai, dan sungai atmosfer, yang telah menghancurkan komunitas dalam beberapa tahun terakhir. Mereka juga bertujuan untuk lebih mengurangi persyaratan komputasi untuk menjalankan ayam.

NERSC adalah Fasilitas Pengguna Kantor Sains DOE di Berkeley Lab. Pekerjaan ini didukung oleh Kantor Sains DOE.

[ad_2]

Prediksi peristiwa cuaca ekstrem dalam hitungan menit tanpa superkomputer

Nvidia hgx b200 mengurangi intensitas emisi karbon yang diwujudkan

[ad_1]

NVIDIA HGX B200 merevolusi komputasi yang dipercepat dengan membuka kinerja dan efisiensi energi yang belum pernah terjadi sebelumnya. Posting ini menunjukkan bagaimana HGX B200 mengungguli pendahulunya NVIDIA HGX H100 dalam metrik lingkungan, termasuk berkurangnya intensitas karbon, melalui perbandingan ringkasan produk karbon (PCF) yang baru -baru ini diterbitkan.

Secara khusus, analisis data PCF mengungkapkan bahwa HGX B200 menunjukkan pengurangan 24% dari emisi karbon yang diwujudkan di seluruh beban kerja besar seperti pelatihan dan inferensi AI.

HGX B200 dan HGX H100 adalah platform komputasi yang dipercepat masing-masing terdiri dari delapan GPU, dengan interkoneksi berkecepatan tinggi melalui NVIDIA NVLink dan NVIDIA NVSWITCH untuk mempercepat kinerja AI pada skala. Keduanya dirancang untuk komputasi kinerja tinggi (HPC) dan beban kerja analisis data pendukung.

Bagaimana NVIDIA HGX B200 mengurangi emisi karbon?

NVIDIA HGX B200 bergantung pada GPU NVIDIA Blackwell B200 yang ditingkatkan, yang dirancang untuk menawarkan kinerja AI yang lebih baik secara dramatis. B200 GPUs incorporate 180 GB of HBM3E memory—more than double the memory of the NVIDIA HGX H100 and other performance enhancing features, including a second-generation Transformer Engine that introduces FP4 alongside FP8, fifth‑generation NVLink/NVSwitch (up to 1.8 TB/s per‑GPU and 14.4 TB/s aggregate bandwidth), to boost higher throughput at presisi lebih rendah.

Throughput HGX B200 adalah 2.3x lebih cepat (FP16) daripada HGX H100. Kinerja komputasi yang ditingkatkan ini juga lebih hemat energi. Untuk inferensi AI, HGX B200 dapat sebanyak 15x lebih hemat energi. Itu adalah pengurangan energi 93% untuk beban kerja inferensi yang sama.

HGX B200 juga menghasilkan lebih sedikit emisi terkait manufaktur per jepit komputasi. Secara khusus, intensitas karbon yang diwujudkan untuk komputasi berkurang dari 0,66 GCO2E per exaflop dengan HGX H100 menjadi 0,50 GCO2E per exaflop dengan HGX B200 (diperkirakan berdasarkan presisi FP16). Ini adalah penurunan 24% secara keseluruhan antara dua generasi. Ini diperkirakan berdasarkan data PCF dan jumlah total kegagalan pada presisi FP16 yang dieksekusi selama masa pakai produk.

Grafik batang yang menunjukkan perangkat keras yang diwujudkan intensitas karbon komputasi di GCO2E/exaflop. HGX H100 menghasilkan 0,66 GC02E/exaflop dan HGX B200 menghasilkan 0,50 GCO2E/exaflop karbon yang diwujudkan. Penurunan 24% terjadi antara generasi. Ini diperkirakan berdasarkan data PCF dan jumlah total kegagalan pada presisi FP16 yang dieksekusi selama masa pakai produk.Grafik batang yang menunjukkan perangkat keras yang diwujudkan intensitas karbon komputasi di GCO2E/exaflop. HGX H100 menghasilkan 0,66 GC02E/exaflop dan HGX B200 menghasilkan 0,50 GCO2E/exaflop karbon yang diwujudkan. Penurunan 24% terjadi antara generasi. Ini diperkirakan berdasarkan data PCF dan jumlah total kegagalan pada presisi FP16 yang dieksekusi selama masa pakai produk.
Gambar 1. HGX B200 menghasilkan pengurangan 24% dalam intensitas karbon komputasi yang dibubarkan perangkat keras dibandingkan dengan HGX H100

Selain itu, ada penurunan bahan dan komponen – kategori penghasil emisi tertinggi untuk setiap alas tiang – antara HGX B200 dan HGX H100. Pengurangan yang paling menonjol adalah untuk komponen termal, IC, dan memori.

Grafik batang yang menunjukkan perbandingan kerusakan material yang diukur dalam MGCO2E/exaflop (presisi FP-16). Untuk HGX H100 angka adalah memori 276, ICS 164, komponen termal 118, komponen elektromekanis 26, PCB 4.6, komponen umum 5.3, komponen mekanik 3.9, dan interkoneksi 2.6. Untuk HGX B200 angka -angka adalah memori 245, ICS 140, komponen termal 60, komponen elektromekanis 10, PCB 5.5, komponen umum 5.0, komponen mekanik 1.5, interkoneksi 1.5. Ini diperkirakan berdasarkan data PCF dan jumlah total kegagalan yang dieksekusi selama masa pakai produk.Grafik batang yang menunjukkan perbandingan kerusakan material yang diukur dalam MGCO2E/exaflop (presisi FP-16). Untuk HGX H100 angka adalah memori 276, ICS 164, komponen termal 118, komponen elektromekanis 26, PCB 4.6, komponen umum 5.3, komponen mekanik 3.9, dan interkoneksi 2.6. Untuk HGX B200 angka -angka adalah memori 245, ICS 140, komponen termal 60, komponen elektromekanis 10, PCB 5.5, komponen umum 5.0, komponen mekanik 1.5, interkoneksi 1.5. Ini diperkirakan berdasarkan data PCF dan jumlah total kegagalan yang dieksekusi selama masa pakai produk.
Gambar 2. HGX B200 memberikan penurunan emisi yang signifikan untuk bahan dan komponen dalam berbagai kategori dibandingkan dengan HGX H100

Kombinasi kekuatan komputasi hemat energi HGX B200 dan mengurangi intensitas emisi yang terkandung dapat menyebabkan penurunan substansial emisi, terutama selama fase penggunaannya untuk beban kerja yang besar seperti pelatihan dan inferensi AI.

Dampak karbon operasional

Sementara ini berkurangnya intensitas karbon yang terkandung mencerminkan intensitas karbon hulu yang lebih rendah untuk HGX B200, peningkatan intensitas karbon hilir bahkan lebih jelas.

Misalnya, HGX B200 diproyeksikan untuk memberikan peningkatan 10x dalam efisiensi inferensi untuk model Deepseek-R1, yang diterjemahkan menjadi pengurangan 90% dalam emisi karbon operasional dibandingkan dengan HGX H100 untuk emisi karbon operasional GCO2E untuk memproses 1 juta token inferensi (100 TPS/pengguna).

Perhatikan bahwa data ini dihitung berdasarkan 2023 faktor emisi IEA yang ditimbang oleh konsumsi energi pusat data regional. Faktor emisi termasuk emisi hulu dan kerugian T&D yang terkait dengan produksi listrik.

Grafik batang yang menunjukkan emisi karbon operasional di kgco2e/juta token untuk inferensi Deepseek-R1. HGX H100 menghasilkan 16 kgco2e/juta token dan HGX B200 menghasilkan 1,6 kgco2e.Grafik batang yang menunjukkan emisi karbon operasional di kgco2e/juta token untuk inferensi Deepseek-R1. HGX H100 menghasilkan 16 kgco2e/juta token dan HGX B200 menghasilkan 1,6 kgco2e.
Gambar 3. Pengurangan 90% dalam emisi karbon operasional diamati antara generasi

Metodologi dan proses pengumpulan data

Kedua ringkasan PCF yang diterbitkan secara eksternal sangat bergantung pada data primer dari pemasok yang dikumpulkan untuk lebih dari 90% dari kedua produk berdasarkan berat, termasuk komposisi material dan konsumsi energi produksi.

Sumber sekunder diintegrasikan dengan data ini, seperti alat IMEC.Netzero untuk emisi terkait fabrikasi, serta database Ecoinvent 3.10 dan Sphera LCA (database profesional 2024 dan database ekstensi XI: Electronics 2024) untuk bahan pemodelan, transportasi, dan energi.

Diagram visual dari proses yang dilakukan untuk kedua laporan jejak karbon produk. Ringkasan keduanya didasarkan pada analisis cradle-to-gate yang terdiri dari inventaris emisi yang dihasilkan untuk ekstraksi dan penyempurnaan bahan baku, pembuatan komponen, dan perakitan.Diagram visual dari proses yang dilakukan untuk kedua laporan jejak karbon produk. Ringkasan keduanya didasarkan pada analisis cradle-to-gate yang terdiri dari inventaris emisi yang dihasilkan untuk ekstraksi dan penyempurnaan bahan baku, pembuatan komponen, dan perakitan.
Gambar 4. Lingkup jejak karbon produk cradle-to-gate HGX B200

Ringkasan PCF ini selaras dengan ISO Standard14040 dan 14044 pada penilaian siklus hidup dan ditinjau secara kritis sesuai dengan ISO Standard 14067 pada jejak kaki karbon.

Masa depan komputasi berkelanjutan

NVIDIA bertujuan untuk mengurangi jejak karbon produknya dengan setiap produk baru yang diproduksi, sambil memberikan kemajuan inovatif dalam kinerja. Praktik ini dalam transparansi melalui ringkasan PCF terperinci akan meningkatkan pemahaman tentang dampak komputasi yang dipercepat.

NVIDIA berkomitmen untuk bekerja untuk menerbitkan data tambahan yang dapat diandalkan tentang dampak lingkungan dari produk NVIDIA. NVIDIA akan terus berinovasi menuju masa depan komputasi berkelanjutan dan pengembangan AI, tanpa berkompromi pada kinerja dan skala.

Untuk mempelajari lebih lanjut, baca ringkasan jejak karbon produk untuk NVIDIA HGX B200.

[ad_2]

Nvidia hgx b200 mengurangi intensitas emisi karbon yang diwujudkan

Akselerate Pengembangan Kendaraan Otonomi Dengan Kit Pengembang NVIDIA DRIVE AGX Thor

[ad_1]

Teknologi Autonomous Vehicle (AV) dengan cepat berkembang, dipicu oleh model AI yang semakin besar dan lebih kompleks yang digunakan di tepi. Kendaraan modern sekarang tidak hanya membutuhkan persepsi dan sensor lanjutan…

[ad_2]

Akselerate Pengembangan Kendaraan Otonomi Dengan Kit Pengembang NVIDIA DRIVE AGX Thor

Blog Pengembang Android: AI Bantuan Pengkodean

[ad_1]

Pengembang Gratitude merilis 2x jumlah eksperimen inovatif dengan bantuan Gemini di Android Studio

Diposting oleh Sandhya Mohan, Manajer Produk Gratitude adalah aplikasi android kesehatan mental yang mendorong perawatan diri dan kepositifan dengan …

blog-label-container”>

AI Bantuan pengkodean

Studio Android

[ad_2]

Blog Pengembang Android: AI Bantuan Pengkodean

Cara mengurangi kemacetan cache kv dengan nvidia dynamo

[ad_1]

Ketika model AI tumbuh lebih besar dan lebih canggih, inferensi, proses di mana model menghasilkan respons, menjadi tantangan utama. Model bahasa besar (LLM) seperti GPT-OS dan Deepseek-R1 sangat bergantung pada data perhatian-cache nilai-kunci (KV)-untuk memahami dan mengontekstualisasikan permintaan input, tetapi mengelola data ini secara efisien menjadi semakin sulit.

Posting ini mengeksplorasi bagaimana membongkar cache KV ke penyimpanan yang hemat biaya selama inferensi dapat membantu mengurangi biaya inferensi dan meningkatkan pengalaman pengguna. Ini juga menjelaskan bagaimana optimisasi terbaru di NVIDIA Dynamo memungkinkan hal ini.

Apa cache KV?

Cache KV adalah struktur data pada inti dari mekanisme perhatian LLM yang dibuat selama fase awal inferensi yang dikenal sebagai Prefill. KV Cache menyimpan data perhatian menengah yang membantu model fokus pada bagian input yang paling relevan selama fase pembuatan atau respons.

Namun, cache KV tumbuh secara linear dengan panjang cepat dan harus berada di memori GPU selama proses pembuatan untuk akses cepat. Saat model memperluas jendela konteks, kadang -kadang mencapai jutaan token, cache KV menjadi hambatan yang serius.

Mengapa KV Cache Bottleneck untuk Inferensi LLM?

Memori GPU terbatas dan mahal. Ketika panjang cepat meningkat, cache KV tumbuh lebih besar, membutuhkan lebih banyak memori selama generasi. Dalam kasus penggunaan seperti percakapan multi-giliran, penelitian mendalam, dan pembuatan kode, cache KV harus dipertahankan dalam memori untuk waktu yang lama. Ketika batas memori GPU tercapai, sistem inferensi menghadapi pertukaran. Mereka bisa:

  • Mengusir bagian -bagian cache KV, yang mengarah pada rekomputasi yang mahal
  • Tutup jendela panjang atau jendela konteks, mengurangi kinerja model
  • Tambahkan lebih banyak GPU, meningkatkan biaya operasional

Memegang cache KV besar dalam memori GPU untuk durasi panjang tidak dapat diskalakan dan pasukan penyedia untuk memilih antara biaya, latensi, dan kemampuan.

Bagaimana Dynamo membantu mengurangi kemacetan cache KV?

Rilis Dynamo terbaru menggunakan kV cache yang tidak memuat untuk memungkinkan transfer instan cache KV dari memori GPU terbatas ke penyimpanan hemat biaya yang lebih besar. Langsung menurunkan cache KV dari memori GPU ke sistem penyimpanan yang lebih terukur dan terjangkau seperti RAM CPU, SSD lokal, atau penyimpanan jaringan jarak jauh. Menggunakan NVIDIA NIXL, pustaka transfer latensi rendah, Dynamo dapat dengan cepat memindahkan blok cache KV antara memori GPU dan penyimpanan eksternal tanpa mengganggu inferensi.

Gambar menggambarkan arsitektur sistem yang melibatkan GPU di tengah, yang menghubungkan ke beberapa cache nilai kunci (KV). Gambar menggambarkan arsitektur sistem yang melibatkan GPU di tengah, yang menghubungkan ke beberapa cache nilai kunci (KV).
Gambar 1. KV Offloading Cache Mengaktifkan transfer instan cache KV dari memori GPU terbatas ke penyimpanan hemat biaya yang lebih besar

Apa manfaat dari pembongkaran cache KV?

Dengan pembongkaran cache KV, penyedia layanan inferensi dapat mendukung model dengan jendela konteks yang lebih panjang tanpa membatasi ukuran yang cepat. Offloading mengurangi penggunaan memori GPU, memungkinkan kelompok untuk menangani lebih banyak pengguna pada saat yang sama dan meningkatkan konkurensi keseluruhan. Ini menurunkan biaya infrastruktur dengan mengurangi kebutuhan akan GPU tambahan, yang dapat diteruskan ke pengguna akhir sebagai diskon untuk petunjuk yang termasuk token input yang di -cache.

KV Cache Offloading juga menghindari rekomputasi cache KV yang mahal, menghasilkan waktu respons yang lebih cepat dan pengalaman pengguna yang lebih baik. Pada akhirnya, penyedia mendapat manfaat dari throughput yang lebih tinggi dan biaya yang lebih rendah per token, membuat layanan inferensi mereka lebih terukur dan efisien.

Kapan Melepas Cache KV untuk digunakan kembali

Membongkar cache KV ke CPU atau penyimpanan paling efektif ketika cache KV melebihi memori GPU dan cache kembali melebihi overhead mentransfer data. Ini sangat berharga dalam lingkungan konteks panjang, konstruksi tinggi, atau lingkungan inferensi yang dibatasi sumber daya seperti:

  • Sesi panjang dan percakapan multi-putaran: Offloading menjaga awalan prompt besar, menghindari komputasi, dan meningkatkan latensi dan throughput pertama.
  • Konkurensi tinggi: Percakapan idle atau parsial dapat dipindahkan dari memori GPU, memungkinkan permintaan aktif untuk melanjutkan tanpa mencapai batas memori.
  • Konten dibagikan atau berulang: Penggunaan kembali di seluruh pengguna atau sesi (misalnya, permintaan sistem dan templat) meningkatkan hit cache, terutama dengan berbagi jarak jauh atau cross-instance.
  • Penyebaran memori- atau yang dibatasi biaya: Melepas ke RAM atau SSD mengurangi permintaan GPU, memungkinkan petunjuk yang lebih lama atau lebih banyak pengguna tanpa menambahkan perangkat keras.
  • Platform yang dioptimalkan I/O.: Lingkungan dengan bandwidth pertahanan host tinggi (misalnya, NVLink C2C) atau manfaat penyimpanan langsung GPU lebih banyak, karena latensi transfer lebih rendah dan dapat tumpang tindih dengan komputasi.

Bagaimana cara kerja KV Cache di Dynamo?

Dynamo KV Block Manager (KVBM) adalah sistem yang mendukung cache yang tidak muatan dan koordinasi memori. Ini terdiri dari tiga lapisan utama:

  • Lapisan Integrasi Model: Menghubungkan mesin inferensi AI yang populer seperti NVIDIA TENSORRT-LLM dan VLLM, dengan dukungan untuk SGLANG segera hadir, ke sistem KVBM. Ini menghilangkan kebutuhan untuk integrasi model-spesifik dan memungkinkan fungsionalitas yang konsisten di berbagai mesin.
  • Lapisan Manajemen Memori: Menangani bagaimana ingatan dialokasikan, terorganisir, dan digunakan kembali. Ini melacak di mana data tinggal dan memungkinkan pengembang untuk menyesuaikan strategi offload cache KV tanpa memengaruhi seluruh sistem.
  • Lapisan Penyimpanan dan Transfer Data Menggunakan Nixl: Menghubungkan KVBM ke berbagai jenis penyimpanan, termasuk CPU, SSD, sistem file, dan platform cloud. NIXL mendukung transfer data cepat di seluruh mesin dan menyederhanakan integrasi penyedia penyimpanan pihak ketiga melalui sistem berbasis plugin.
Arsitektur tingkat tinggi dari Dynamo KV Block Manager dan bagaimana itu berinteraksi dengan berbagai komponen ekosistem inferensi LLM.Arsitektur tingkat tinggi dari Dynamo KV Block Manager dan bagaimana itu berinteraksi dengan berbagai komponen ekosistem inferensi LLM.
Gambar 2. Antarmuka Dynamo KV Block Manager dengan komponen yang berbeda dari ekosistem inferensi LLM

Dengan memisahkan manajemen memori dari mesin model tertentu dan menstandardisasi akses ke penyimpanan, KVBM menyederhanakan integrasi dan skalabilitas. Penyedia penyimpanan tidak perlu lagi menyesuaikan sistem mereka untuk mesin inferensi yang berbeda, karena KVBM menangani terjemahan. Arsitektur ini meningkatkan kinerja, menyederhanakan pengembangan, dan memungkinkan penyimpanan dan komputasi untuk berkembang secara mandiri.

Bagaimana Dynamo berintegrasi dengan LMCACHE?

Prinsip desain inti Dynamo adalah keterbukaan, memberikan pengguna kebebasan untuk memilih antara fungsionalitas bawaan atau integrasi pihak ketiga. Untuk itu, Dynamo berintegrasi dengan LMCACHE, sistem sumber terbuka untuk caching dan menggunakan kembali memori di CPU, penyimpanan lokal dan jarak jauh.

LMCACHE menyediakan lapisan caching KV untuk mesin inferensi seperti VLLM. Ini memberikan kemampuan untuk menurunkan data yang sering digunakan seperti riwayat percakapan atau petunjuk dari GPU ke penyimpanan yang efektif biaya, dan penggusuran pintar dan strategi pengambilan untuk beban kerja volume tinggi atau berulang. Untuk tim yang menggunakan VLLM, LMCACHE menawarkan solusi manajemen cache KV yang kuat yang selaras dengan arsitektur Dynamo Open.

Bagaimana penyedia penyimpanan memanfaatkan kv cache yang dibongkar?

Luas Menguji integrasi kinerja tinggi antara NVIDIA Dynamo dan AI OS yang luas untuk memungkinkan pergerakan cache KV persisten antara GPU dan penyimpanan. Menggunakan plugin GPU Direct Storage (GDS) di Dynamo, VAST mencapai throughput 35 GB/s untuk satu GPU NVIDIA H100 tunggal, menunjukkan saturasi GPU penuh dan mengkonfirmasi bahwa penyimpanan bukan hambatan kinerja.

Dalam tes terpisah, luas memvalidasi dampak penggunaan cache KV persisten menggunakan VLLM dan LMCACHE pada sistem NVIDIA DGX H100. Menjalankan model QWEN3-32B dengan prompt 130k yang diperkirakan, sistem memuat cache KV yang telah dikomputasi dari penyimpanan luas daripada menghitung ulang, mengurangi waktu menjadi token pertama (TTFT).

Weka melakukan pengujian lab untuk mengevaluasi pergerakan cache KV berkinerja tinggi antara GPU dan penyimpanan menggunakan NVIDIA Dynamo dan plugin NIXL khusus yang dikembangkan dan bersumber terbuka oleh Weka. Tes menunjukkan bahwa kisi memori augmented Weka dapat mengalirkan cache KV dari gudang tokennya ke GPU dengan kecepatan dekat memori, mengurangi TTFT dan meningkatkan throughput token keseluruhan untuk beban kerja inferensi.

Pengujian dilakukan dengan menggunakan sistem DGX dengan delapan GPU H100. Pengaturan mencapai throughput baca hingga 270 GB/s di delapan GPU, memvalidasi bahwa jalur data nol-salinan berbasis RDMA dapat memenuhi tuntutan inferensi terpilah tanpa menjadi hambatan.

Hasil tes ini menyoroti potensi cache KV yang tidak dimuat ke penyimpanan dalam mendukung konteks besar, throughput tinggi generatif beban kerja AI di lingkungan terdistribusi.

Cara menggunakan dinamo kvbm untuk mengelola cache kv

Untuk menggunakan KVBM untuk mengelola cache KV dan melakukan pembongkaran KV di VLLM, gunakan langkah -langkah berikut:

# start up etcd for KVBM leader/worker registration and discovery
docker compose -f deploy/docker-compose.yml up -d

# build a container containing vllm and kvbm
./container/build.sh --framework vllm --enable-kvbm

# launch the container
./container/run.sh --framework vllm -it --mount-workspace --use-nixl-gds

# enable kv offloading to CPU memory
# 4 means 4GB of CPU memory would be used
export DYN_KVBM_CPU_CACHE_GB=4

# enable kv offloading to disk
# 8 means 8GB of disk would be used
export DYN_KVBM_DISK_CACHE_GB=8

# serve an example LLM model
vllm serve --kv-transfer-config 
'{"kv_connector":"DynamoConnector","kv_role":"kv_both", 
"kv_connector_module_path": "dynamo.llm.vllm_integration.connector"}' 
deepseek-ai/DeepSeek-R1-Distill-Llama-8B

# make a call to LLM
curl localhost:8000/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
    "messages": [
    {
        "role": "user",
        "content": "In the heart of Eldoria, an ancient land of boundless magic and mysterious creatures, 
lies the long-forgotten city of Aeloria. Once a beacon of knowledge and power, Aeloria was buried 
beneath the shifting sands of time, lost to the world for centuries. You are an intrepid explorer, known 
for your unparalleled curiosity and courage, who has stumbled upon an ancient map hinting that Aeloria 
holds a secret so profound that it has the potential to reshape the very fabric of reality. Your journey 
will take you through treacherous deserts, enchanted forests, and across perilous mountain ranges. 
Your Task: Character Background: Develop a detailed background for your character. Describe their 
motivations for seeking out Aeloria, their skills and weaknesses, and any personal connections to the 
ancient city or its legends. Are they driven by a quest for knowledge, or a search for lost family? A clue is hidden."
    }
    ],
    "stream":false,
    "max_tokens": 30
  }'

Aktifkan dan lihat metrik KVBM

Untuk mengaktifkan koleksi metrik dan melihat melalui dasbor Grafana, gunakan langkah -langkah berikut:

# Start the basic services (etcd & natsd), along with Prometheus and Grafana
docker compose -f deploy/docker-compose.yml --profile metrics up -d

# start vllm with DYN_SYSTEM_ENABLED set to true and DYN_SYSTEM_PORT port to 6880.
# NOTE: Make sure port 6880 (for KVBM worker metrics) and port 6881 
(for KVBM leader metrics) are available.
DYN_SYSTEM_ENABLED=true DYN_SYSTEM_PORT=6880 vllm serve --kv-transfer-config
'{"kv_connector":"DynamoConnector","kv_role":"kv_both", 
"kv_connector_module_path": 
"dynamo.llm.vllm_integration.connector"}' 
deepseek-ai/DeepSeek-R1-Distill-Llama-8B

# optional if firewall blocks KVBM metrics ports to send prometheus metrics
sudo ufw allow 6880/tcp
sudo ufw allow 6881/tcp

Lihat metrik grafana melalui http://localhost:3001 (Login default: dinamo/dinamo) dan cari dasbor KVBM.

Benchmark KVBM

Ketika VLLM Serve siap, ikuti langkah -langkah ini untuk menggunakan LMBenchmark untuk membandingkan Kinerja KVBM:

git clone https://github.com/LMCache/LMBenchmark.git

# show case of running the synthetic multi-turn chat dataset.
# we are passing model, endpoint, output file prefix and qps to the sh script.
cd LMBenchmark/synthetic-multi-round-qa
./long_input_short_output_run.sh \
    "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" \
    "http://localhost:8000" \
    "benchmark_kvbm" \
    1

# Average TTFT and other perf numbers would be in the output from above cmd

Untuk mempelajari lebih lanjut tentang cara menggunakan LMBenchMark, kunjungi repo LMCACHE/LMBENCHMARK GITHUB.

Perhatikan bahwa jika metrik diaktifkan sebagaimana disebutkan di bagian sebelumnya, Anda dapat mengamati kv muatan, dan kV onboarding di dasbor grafana.

Untuk membandingkan, Anda bisa berlari vllm serve deepseek-ai/DeepSeek-R1-Distill-Llama-8B untuk mematikan KVBM sebagai garis dasar.

Cara memulai dengan Dynamo menggunakan LMCache dan VLLM

LMCACHE diaktifkan dengan mengatur ENABLE_LMCACHE Variabel Lingkungan:

Konfigurasi LMCACHE tambahan dapat disesuaikan melalui variabel lingkungan:

  • LMCACHE_CHUNK_SIZE=256 – Ukuran Chunk token untuk Cache Granularity (default: 256)
  • LMCACHE_LOCAL_CPU=True – Aktifkan backend memori CPU untuk dibongkar
  • LMCACHE_MAX_LOCAL_CPU_SIZE=20 – Batas memori CPU di GB (pengguna dapat menyesuaikan berdasarkan RAM yang tersedia dengan nilai tetap)

Untuk konfigurasi lanjutan, LMCACHE mendukung beberapa backend penyimpanan:

  • CPU RAM: Menghapus Memori Lokal Cepat
  • Penyimpanan lokal: Kegigihan berbasis disk
  • Redis: Berbagi cache terdistribusi
  • Backend GDS: GPU Penyimpanan Langsung Untuk Throughput Tinggi
  • Infinistore/MoonCake: Solusi penyimpanan cloud-asli

Untuk memulai dengan Dynamo menggunakan LMCache dan VLLM, gunakan langkah -langkah berikut:

# start up etcd for KVBM leader/worker registration and discovery
docker compose -f deploy/docker-compose.yml up -d

# build a container containing vllm and kvbm
./container/build.sh --framework vllm

# launch the container
./container/run.sh --framework vllm -it --mount-workspace

# run vllm with lmcache in aggregated inference
./components/backends/vllm/launch/agg_lmcache.sh

# run vllm with lmcache in disaggregated inference
./components/backends/vllm/launch/disagg_lmcache.sh

Perhatikan bahwa variabel lingkungan yang diperlukan ada di dalam .sh skrip untuk pengaturan cepat. Perbarui mereka sesuai kebutuhan.

Ringkasan

Karena LLMS terus skala, mengelola cache KV selama inferensi telah menjadi tantangan utama karena memori GPU yang terbatas dan mahal. NVIDIA Dynamo membahas ini dengan mengaktifkan cache KV yang dibongkar ke opsi penyimpanan yang lebih diskalakan seperti RAM CPU, SSD, dan penyimpanan jaringan, ditenagai oleh pustaka transfer NIXL latensi rendah.

Dynamo mengintegrasikan mulus dengan mesin inferensi populer seperti VLLM dan alat sumber terbuka seperti LMCACHE, memungkinkan penggunaan kembali cache yang efisien, berkurangnya rekomputasi, dan dukungan yang lebih baik untuk beban kerja konteks panjang dan konkurensi tinggi. Penyedia penyimpanan seperti VAST dan WEKA telah berhasil diintegrasikan dengan Dynamo, menunjukkan bagaimana sistem penyimpanan throughput tinggi dapat menurunkan dan mengalirkan cache KV secara efektif tanpa menjadi hambatan.

Kemampuan ini membuat cache KV membongkar solusi praktis dan dapat diskalakan untuk mengurangi biaya inferensi, meningkatkan respons, dan memungkinkan penyebaran aplikasi AI generatif skala besar. Pelajari lebih lanjut dan mulailah dengan Dynamo.

[ad_2]

Cara mengurangi kemacetan cache kv dengan nvidia dynamo