Cara Menghubungkan Pusat Data Terdistribusi ke pabrik AI besar dengan jaringan skala-akross

[ad_1]

Penskalaan AI sangat kompleks, dan teknik baru dalam pelatihan dan inferensi terus menuntut lebih banyak dari pusat data. Sementara kemampuan pusat data berskala dengan cepat, infrastruktur pusat data tunduk pada keterbatasan fisik mendasar yang tidak berdampak pada algoritma dan model. Ketersediaan daya, kapasitas pendinginan, dan kendala ruang menempatkan batas pada jejak fisik pabrik AI. Untuk terus tumbuh, pusat data baru dibangun, dan konektivitas dari jarak jauh menjadi faktor dalam mengumpulkan sumber daya ini bersama -sama untuk berfungsi bersama -sama pada satu pelatihan atau beban kerja inferensi yang terpilah.

Secara tradisional, ketika menghubungkan pusat data bersama dengan Ethernet jarak jauh yang dibangun dari silikon pedagang “off-the-shelf”, tujuan utama adalah untuk memastikan bahwa data berhasil membuatnya ke tujuannya. Karena jarak bisa panjang dan latensi tinggi, kemungkinan kemacetan juga tinggi, dan dampaknya bisa ekstrem.

Untuk mengurangi tantangan ini dan mencegah paket dijatuhkan, vendor Ethernet di luar rak menciptakan solusi di mana buffer paket yang dalam, yang mampu menyerap ledakan besar lalu lintas jaringan, digunakan. Sementara sakelar buffer yang dalam ini merupakan solusi untuk penyedia layanan dan telekomunikasi jarak jauh, mereka memperkenalkan masalah untuk AI.

Secara khusus, sakelar dengan buffer yang dalam secara inheren menderita latensi yang lebih tinggi. Selain itu, ketika buffer mulai menjadi penuh, itu harus “menguras.” Sehubungan dengan beban kerja AI, kejadian ini tidak dapat diprediksi, menyebabkan sejumlah besar jitter, atau varian dalam pengiriman data. Latensi tinggi dan ketidakpastian dari teknik kejut-penyerap ini menjadi bermasalah untuk pelatihan dan kinerja inferensi terpilah, yang bersifat sinkron dan membutuhkan kinerja yang dapat diprediksi dari jaringan.

Posting ini menjelaskan bagaimana teknologi Ethernet NVIDIA Spectrum-XGS untuk jaringan skala-across memungkinkan konektivitas pusat-data antar-data dengan kinerja tinggi yang diperlukan untuk AI.

Apa itu skala-across networking?

Jaringan Skala-Across adalah kategori baru konektivitas kain komputasi AI yang dapat dianggap sebagai dimensi baru, ortogonal dengan opsi konektivitas yang ada dari peningkatan dan skala-keluar. Dengan Spectrum-XGS Ethernet untuk jaringan skala-across, beberapa pusat data dengan berbagai ukuran dan jarak dapat disatukan sebagai satu pabrik AI besar. Untuk pertama kalinya, jaringan dapat memberikan kinerja yang dibutuhkan untuk pelatihan dan inferensi AI tunggal skala besar di seluruh pusat data yang dipisahkan secara geografis.

Diagram yang menampilkan beberapa pusat data yang terhubung bersama dengan skala-up, skala-out, dan jaringan skala-across.Diagram yang menampilkan beberapa pusat data yang terhubung bersama dengan skala-up, skala-out, dan jaringan skala-across.
Gambar 1. Tiga jenis jenis jaringan yang diperlukan untuk AI adalah skala-up, skala-keluar, dan skala-escross

Bagaimana NVIDIA Spectrum-XGS Ethernet Mengaktifkan Jaringan Skala-Across?

NVIDIA Spectrum-XGS Ethernet adalah tambahan teknologi baru untuk platform NVIDIA Spectrum-X Ethernet. Ini didasarkan pada kombinasi perangkat keras yang sama dari sakelar Ethernet Spectrum-X dan supernik ConnectX-8, dan memanfaatkan tumpukan perangkat lunak dan perpustakaan yang sama yang digunakan untuk konektivitas skala-keluar dalam pusat data.

Dengan Spectrum-XGS Ethernet, konektivitasnya adalah antara pabrik AI dari jarak jauh; Artinya, lebih dari 500 meter. Ini bisa berarti konektivitas antara bangunan di kampus, atau lebih dari puluhan atau ratusan mil, melintasi kota atau bahkan negara bagian dan negara. Untuk membuat konektivitas skala-terlantar layak, algoritma yang bertanggung jawab untuk memastikan bandwidth yang efektif dan isolasi kinerja tinggi harus berkembang.

Apa peran algoritma yang sadar jarak dalam skala-escross networking?

Salah satu tantangan dengan data bergerak di jarak jauh adalah implikasi peningkatan latensi – bahkan untuk data yang melintasi serat optik dalam bentuk cahaya. Data merambat di seluruh untaian kaca dengan kecepatan 5 nanodetik per meter. Ini berarti bahwa bepergian 1 kilometer membutuhkan 5 mikrodetik. Angka-angka ini mungkin tampak kecil secara absolut, tetapi untuk komunikasi GPU-ke-GPU, setiap mikrodetik diperhitungkan.

Spectrum-XGS Ethernet fitur kontrol kemacetan berbasis telemetri yang dimodifikasi dan algoritma routing adaptif yang dioptimalkan di sekitar jarak antara perangkat yang berkomunikasi. Setiap kali koneksi dimulai, jaringan mencatat apakah kedua perangkat bersama -sama di dalam pusat data, atau tidak.

Ini membantu sakelar mengetahui pendekatan terbaik untuk keseimbangan beban untuk perutean adaptif, dan menginformasikan supernik untuk menangani laju injeksi untuk kontrol kemacetan. Di tingkat jaringan, ini memungkinkan Spectrum-XGS Ethernet untuk secara holistik menangani komunikasi tanpa menimbulkan latensi tambahan.

Beberapa manfaat utama dari teknologi Ethernet Spectrum-XGS untuk jaringan skala-akross meliputi:

  • Arsitektur Jaringan Terpadu dan Terpadu: Kedua skala-Ethernet spectrum-x dan spektrum-XGS Ethernet skala-across didasarkan pada perangkat keras, perangkat lunak, dan pustaka yang sama. Ini mengarah pada pendekatan terpadu untuk manajemen beban kerja dan operasi jaringan yang tidak mungkin dengan Ethernet di luar rak.
  • Kontrol kemacetan berbasis telemetri ujung ke ujung: Arsitektur terpadu juga memungkinkan pendekatan global untuk visibilitas jaringan. Dengan data telemetri yang komprehensif dari jaringan baik di dalam maupun di luar pusat data, manajemen kemacetan berbasis telemetri dapat ditangani tanpa perlu switching buffer yang dalam.
  • Penyeimbangan beban yang cerdas dan menyesuaikan otomatis: Kain AI Spectrum-X Ethernet AI adalah Aware-Aware dan NVIDIA Collective Communications Library (NCCL) -WARE, dengan kemampuan untuk memperhitungkan dan mengkompensasi pola lalu lintas jaringan yang dapat bervariasi berdasarkan situs dan secara dinamis menyesuaikan ambang batas dan batasan untuk memastikan kinerja tertinggi.
  • Latensi yang diminimalkan untuk beban kerja skala-melampaui: Spectrum-XGS Ethernet disetel untuk memberikan hasil yang dapat diprediksi. Ini memungkinkan jaringan untuk memperhitungkan dan mengkompensasi aliran data yang bepergian dari jarak jauh, mengurangi hukuman latensi lebih lanjut tanpa memperkenalkan risiko jitter karena buffer yang dalam.
  • Kapasitas skala elastis: Karena perangkat keras yang sama dapat digunakan untuk skala-out dan skala-es, sumber daya jaringan dapat dialokasikan kembali untuk mendukung lalu lintas pusat intra atau antar-data. Sakelar Ethernet buffer dangkal di luar rak tidak dapat diajarkan kembali untuk konektivitas jarak jauh.

Apa manfaat kinerja NVIDIA Spectrum-XGS Ethernet?

Untuk menunjukkan dampak NVIDIA Spectrum-XGS Ethernet pada kinerja skala-sakit, insinyur NVIDIA menjalankan primitif NCCL di beberapa lokasi pada jarak 10 km dan membandingkan hasilnya dengan Ethernet di luar rak. Hasilnya, ditunjukkan pada Gambar 2 di bawah ini, adalah signifikan:

Grafik yang membandingkan kinerja All-Reduce NCCL antara Spectrum-XGS Ethernet dan Ethernet off-the-Shelf yang menunjukkan ukuran pesan dari 128 kb hingga 16 GB. Grafik menunjukkan hingga 1,9x kinerja yang lebih baik menggunakan Spectrum-XGS Ethernet.Grafik yang membandingkan kinerja All-Reduce NCCL antara Spectrum-XGS Ethernet dan Ethernet off-the-Shelf yang menunjukkan ukuran pesan dari 128 kb hingga 16 GB. Grafik menunjukkan hingga 1,9x kinerja yang lebih baik menggunakan Spectrum-XGS Ethernet.
Gambar 2. NVIDIA Spectrum-XGS Ethernet meningkatkan kinerja hingga 1,9x dibandingkan dengan Ethernet di luar rak

NVIDIA Spectrum-XGS Ethernet memberikan bandwidth NCCL All-reduce hingga 1,9x lebih tinggi di atas Ethernet di luar rak. Speedup terbesar terjadi dengan ukuran pesan yang lebih besar, yang paling umum dengan beban kerja pelatihan AI. Perbaikan kinerja NCCL ini diterjemahkan ke dalam waktu penyelesaian pekerjaan yang lebih cepat untuk aplikasi AI.

Bagaimana Jaringan Skala-Across meningkatkan ROI untuk pabrik AI?

NVIDIA Spectrum-XGS Ethernet meningkatkan kesialan infrastruktur AI. Dengan memperkenalkan teknologi yang memungkinkan pusat data untuk berkomunikasi dalam jarak apa pun tanpa degradasi kinerja, Spectrum-XGS Ethernet menciptakan arsitektur umum yang dibagi antara skala-keluar dan jaringan skala-asross. Pusat data Ethernet yang dibangun di atas spektrum-XGS Ethernet dapat dengan mudah digabungkan bersama untuk bertindak sebagai satu, terlepas dari kedekatan.

Pusat data Ethernet yang dibangun di atas spektrum-XGS dapat digabungkan dengan mulus untuk beroperasi sebagai sistem tunggal, tidak peduli seberapa jauh mereka. Ini memungkinkan infrastruktur AI misi-kritis untuk mengumpulkan sumber daya dan secara konsisten memberikan nilai untuk beban kerja AI tingkat lanjut.

Untuk mempelajari lebih lanjut tentang inovasi teknis yang mendasari NVIDIA Spectrum-X Ethernet, lihat Arsitektur Platform Jaringan NVIDIA Spectrum-X.

[ad_2]

Cara Menghubungkan Pusat Data Terdistribusi ke pabrik AI besar dengan jaringan skala-akross

Leave a Reply

Your email address will not be published. Required fields are marked *