NVIDIA Open Sources Audio2face Animation Model

Dengan memanfaatkan model bahasa dan ucapan besar, AI generatif membuat avatar 3D cerdas yang dapat melibatkan pengguna dalam percakapan alami, dari video game hingga layanan pelanggan. Untuk membuat karakter-karakter ini benar-benar seperti hidup, mereka membutuhkan ekspresi seperti manusia. Nvidia Audio2face mempercepat penciptaan karakter digital yang realistis dengan memberikan animasi wajah real-time dan sinkronisasi bibir yang digerakkan oleh AI generatif.

Saat ini, NVIDIA membuka sumber teknologi Audio2face kami untuk mempercepat adopsi avatar bertenaga AI dalam permainan dan aplikasi 3D.

media</a> ‘none’;execution-while-not-rendered ‘none’;execution-while-out-of-viewport ‘none’;gamepad ‘none’;geolocation ‘none’;gyroscope ‘none’;hid ‘none’;identity-credentials-get ‘none’;idle-detection ‘none’;keyboard-map ‘none’;local-fonts ‘none’;magnetometer ‘none’;microphone ‘none’;midi ‘none’;navigation-override ‘none’;otp-credentials ‘none’;payment ‘none’;picture-in-picture;publickey-credentials-create ‘none’;publickey-credentials-get ‘none’;screen-wake-lock ‘none’;serial ‘none’;speaker-selection;sync-xhr ‘none’;usb ‘none’;web-share;window-management ‘none’;xr-spatial-tracking ‘none’;” allowfullscreen=”” class=”arve-iframe fitvidsignore” data-arve=”arve-youtube-dm8-gnin76c” data-src-no-ap=”https://www.youtube-nocookie.com/embed/dm8-gNin76c?list=PL4FII4B-zM0dyu4pop3AFFOHPgN1eIc0B&iv_load_policy=3&modestbranding=1&rel=0&autohide=1&playsinline=0&autoplay=0″ frameborder=”0″ height=”505.8″ name=”” sandbox=”allow-scripts allow-same-origin allow-presentation allow-popups allow-popups-to-escape-sandbox” scrolling=”no” src=”https://www.youtube-nocookie.com/embed/dm8-gNin76c?list=PL4FII4B-zM0dyu4pop3AFFOHPgN1eIc0B&iv_load_policy=3&modestbranding=1&rel=0&autohide=1&playsinline=0&autoplay=0″ width=”900″ title=”” loading=”lazy”>

Video 1. Demo model difusi NVIDIA AUDIO2FACE 3.0 dalam aksi

Audio2Face menggunakan AI untuk menghasilkan animasi wajah yang realistis dari input audio. Ini bekerja dengan menganalisis fitur akustik seperti fonem dan intonasi untuk membuat aliran data animasi, yang kemudian dipetakan ke pose wajah karakter. Data ini dapat diberikan offline untuk konten yang telah ditulis sebelumnya atau dialirkan secara real-time untuk karakter dinamis, yang digerakkan AI, memberikan sinkronisasi bibir yang akurat dan ekspresi emosional.

Diagram Nvidia Audio2face — *Gambar 1. Audio wicara dan pemicu emosional menghasilkan animasi wajah dan sinkronisasi bibir.*

NVIDIA membuka sumber model Audio2face dan SDK sehingga setiap game dan pengembang aplikasi 3D dapat membangun dan menggunakan karakter kesetiaan tinggi dengan animasi canggih. Kami juga membuka sumber kerangka pelatihan Audio2face, sehingga siapa pun dapat menyempurnakan dan menyesuaikan model kami yang sudah ada sebelumnya untuk kasus penggunaan tertentu.

Lihat tabel di bawah ini untuk daftar lengkap alat sumber terbuka dan pelajari lebih lanjut di NVIDIA Developer.

Kemasan	Menggunakan
AUDIO2FACE SDK	Perpustakaan dan Dokumentasi untuk Penulisan dan Runtime Facial Animations on-device atau di cloud
Plugin Autodesk Maya	Plugin Referensi (V2.0) dengan eksekusi lokal yang memungkinkan pengguna untuk mengirim input audio dan menerima animasi wajah untuk karakter di Maya
Plugin Engine 5 Unreal	UE5 Plugin (v2.5) untuk UE 5.5 dan 5.6 yang memungkinkan pengguna untuk mengirim input audio dan menerima animasi wajah untuk karakter di Unreal Engine 5
Kerangka Pelatihan Audio2face	Kerangka kerja (v1.0) untuk membuat model audio2face dengan data Anda

Tabel 1. Audio2face SDK dan plugin

Kemasan	Menggunakan
Data sampel pelatihan audio2face	Contoh data untuk memulai dengan kerangka kerja pelatihan
Model Audio2face	Model regresi (v2.2) dan difusi (v3.0) untuk menghasilkan lip-sinkronisasi
Model Audio2emotion	Model produksi (v2.2) dan eksperimental (v3.0) untuk menyimpulkan keadaan emosi dari audio

Tabel 2. Model Audio2face dan Data Pelatihan

Teknologi sumber terbuka memungkinkan pengembang, siswa, dan peneliti untuk belajar dari dan membangun kode canggih. Ini menciptakan loop umpan balik di mana komunitas dapat menambahkan fitur baru dan mengoptimalkan teknologi untuk beragam kasus penggunaan. Kami senang membuat animasi wajah berkualitas tinggi lebih mudah diakses dan tidak sabar untuk melihat apa yang diciptakan masyarakat dengannya. Bergabunglah dengan komunitas pengembang NVIDIA Audio2face kami di Discord dan bagikan karya terbaru Anda.

Model Audio2face yang terkemuka di industri digunakan secara luas di seluruh industri game, media dan hiburan, dan layanan pelanggan. Sejumlah pengembang ISV dan game, termasuk Convai, Codemasters, GSC Games World, Inworld AI, Netease, Reallusion, Perfect World Games, StreamLabs, dan UNEEQ Digital Humans telah mengintegrasikan Audio2face dalam aplikasi mereka.

Video 2. Teknologi Nvidia Audio2face di F1 25

Reallusion, yang menawarkan platform bagi pencipta untuk membangun karakter 3D, Audio2face terintegrasi dalam rangkaian alatnya. “Audio2Face uses AI to create expressive, multilingual facial animation from audio,” said Elvis Huang, head of innovation at Reallusion, Inc. “Its seamless integration with Reallusion's iClone, Character Creator, and iClone AI Assistant, plus advanced editing tools like face-key editing, face puppeteering, and AccuLip make it easier than ever to produce high-quality character animation.”

Survios, pengembang Alien: Rogue Incursion Evolved EditionMelaju proses animasi mereka, memungkinkan untuk memberikan pengalaman karakter berkualitas tinggi lebih cepat. “Dengan mengintegrasikan Audio2face ke dalam edisi yang berevolusi, kami merampingkan pipa untuk penangkapan lip-sinkronisasi dan penangkapan wajah sambil memastikan pengalaman karakter yang lebih mendalam dan otentik untuk para pemain kami,” kata Eugene Elkin, direktur permainan dan insinyur utama di Survios.

Pertanian 51, pencipta Chernobylite Seri game, Audio2face terintegrasi dalam game terbaru mereka. “Integrasi Teknologi Nvidia Audio2face di Chernobylite 2: zona eksklusi telah menjadi game-changer bagi kami, “kata Wojciech Pazdur, Direktur Kreatif di Farm 51.” Ini memungkinkan kami untuk menghasilkan animasi wajah yang sangat rinci langsung dari audio, menghemat banyak jam kerja animasi. Ide yang tidak mungkin dalam aslinya Chernobylite sekarang dimungkinkan yang membawa tingkat realisme dan pencelupan baru ke karakter, membuat penampilan mereka terasa lebih otentik dari sebelumnya. ”

Di bawah ini adalah pengumuman lain untuk pengembang game yang dirilis bulan ini.

Pembaruan terbaru untuk RTX Kit

NVIDIA VGPU meningkatkan lingkungan pengembangan game

Sesi pengembangan grafis dan penyetelan kinerja dari Siggraph 2025

Apa selanjutnya

Leave a Reply Cancel reply