Model QWEN3-Next Open Source Baru Pratinjau Arsitektur MOE Hybrid Memberikan akurasi yang lebih baik dan pemrosesan paralel yang dipercepat di seluruh platform NVIDIA

[ad_1]

Ketika model AI tumbuh lebih besar dan memproses urutan teks yang lebih lama, efisiensi menjadi sama pentingnya dengan skala.

Untuk menampilkan apa yang berikutnya, Alibaba merilis dua model terbuka baru, QWEN3-Next 80B-A3B-Thinking dan QWEN3-Next 80B-A3B-instruct untuk mempratinjau campuran hybrid baru arsitektur para ahli (MOE) dengan riset dan komunitas pengembang.

Qwen3-next-80b-a3b-Thinking sekarang hidup di build.nvidia.com, memberikan pengembang akses instan untuk menguji kemampuan penalaran canggihnya secara langsung di UI atau melalui NVIDIA NIM API.

Arsitektur baru dari model QWEN3-Next ini dioptimalkan untuk panjang konteks yang panjang (> 260K token input) dan efisiensi parameter skala besar. Setiap model memiliki total parameter 80B, tetapi hanya 3B yang diaktifkan per token karena struktur MOE yang jarang, memberikan kekuatan model besar dengan efisiensi yang lebih kecil. Modul MOE memiliki 512 pakar yang dirutekan dan 1 ahli bersama, dengan 10 ahli diaktifkan per token.

Kinerja model MOE seperti QWEN3-Next, yang rute meminta antara 512 ahli yang berbeda, sangat tergantung pada komunikasi antar-GPU. NVLink generasi ke-5 Blackwell menyediakan 1,8 TB/s bandwidth GPU-ke-GPU langsung. Kain berkecepatan tinggi ini sangat penting untuk meminimalkan latensi selama proses perutean ahli, secara langsung diterjemahkan ke inferensi yang lebih cepat dan throughput token yang lebih tinggi di pabrik AI.

Ada 48 lapisan dalam model, setiap lapisan ke -4 menggunakan perhatian GQA sementara yang tersisa menggunakan perhatian linier baru. Model Bahasa Besar (LLM) menggunakan lapisan perhatian untuk menafsirkan dan memberikan kepentingan untuk setiap token dari urutan input. Tumpukan perangkat lunak yang kurang matang tidak memiliki primitif yang dioptimalkan sebelumnya untuk arsitektur baru atau fusi spesifik yang diperlukan untuk membuat pergantian konstan antara jenis perhatian menjadi efisien.

Diagram menunjukkan contoh bagaimana urutan input — *Gambar 1. Representasi umum tentang bagaimana urutan input diuraikan dan ditimbang oleh transformator*

Untuk mencapai kemampuan konteks input yang panjang, model ini memanfaatkan jaringan delta yang terjaga keamanannya dari NVIDIA Research and MIT. Deltanet yang terjaga keamanannya meningkatkan pemrosesan urutan fokus sehingga model dapat memproses teks super panjang secara efisien tanpa melayang atau melupakan apa yang penting. Ini memungkinkannya untuk memproses urutan yang sangat panjang secara efisien, dengan memori dan penskalaan perhitungan hampir secara linier dengan panjang urutan.

Selain inovasi arsitektur ini, model ini dapat dijalankan di Nvidia Hopper dan Blackwell untuk kinerja inferensi yang dioptimalkan. Arsitektur pemrograman CUDA yang fleksibel dari NVIDIA memungkinkan untuk eksperimen pendekatan baru dan unik, memungkinkan lapisan perhatian penuh dari model transformator tradisional dan lapisan perhatian linier dalam model QWEN3-Next. Ketika dijalankan pada NVIDIA, pendekatan hibrida yang terlihat pada model QWEN3-Next dapat menyebabkan keuntungan efisiensi, membuka jalan bagi generasi token yang lebih besar dan pendapatan untuk pabrik AI.

Diagram menunjukkan representasi dari 48 lapisan model, dari kiri ke kanan berisi kotak yang mewakili lapisan pertama, lapisan tengah mewakili 10 lapisan di tengah, dan lapisan paling kanan adalah lapisan luar. Setiap kotak lapisan berisi 3 lapisan perhatian linier dan satu lapisan perhatian penuh. — *Gambar 2. Diagram konfigurasi 48 lapisan dalam model*

NVIDIA berkolaborasi dengan kerangka open source SGLANG dan VLLM untuk memungkinkan penyebaran model bagi masyarakat serta mengemas kedua model sebagai NVIDIA NIM. Pengembang dapat mengkonsumsi model terbuka terkemuka melalui wadah perangkat lunak perusahaan, tergantung pada kebutuhan mereka.

Model QWEN3-Next Open Source Baru Pratinjau Arsitektur MOE Hybrid Memberikan akurasi yang lebih baik dan pemrosesan paralel yang dipercepat di seluruh platform NVIDIA

Menyebarkan dengan sgang

Menyebarkan dengan VLLM

Penempatan siap-produksi dengan NVIDIA NIM

Membangun Kekuatan Open Source AI

Mulailah hari ini

Leave a Reply Cancel reply