Microsoft meluncurkan model suara dan gambar berkecepatan tinggi baru

[ad_1]

Microsoft Corp hari ini diperkenalkan trio model kecerdasan buatan yang dioptimalkan untuk memproses gambar dan audio.

Algoritme tersedia melalui Microsoft Foundry, layanan Azure yang dapat digunakan pengembang untuk membangun aplikasi AI. Raksasa teknologi ini juga telah mulai meluncurkan model tersebut ke sejumlah produk lainnya.

Algoritma baru pertama, MAI-Image-2, dapat menghasilkan gambar dengan resolusi hingga 1024 x 1024 piksel berdasarkan instruksi pengguna. Setiap perintah dapat berisi teks senilai hingga 32.000 token. Di balik terpalnya, MAI-Image-2 mengubah instruksi menjadi gambar menggunakan 10 miliar hingga 50 miliar parameter non-embedding. Parameter non-embedding adalah komponen model yang berfokus pada pembuatan konten, bukan tugas persiapan data awal.

Microsoft mengatakan bahwa MAI-Image-2 setidaknya dua kali lebih cepat dari generator gambar generasi sebelumnya. Model baru kedua yang memulai debutnya hari ini, MAI-Transcribe-1, juga menghadirkan peningkatan kecepatan yang signifikan. Ini dapat mentranskripsikan ucapan 2,5 kali lebih cepat dibandingkan model Microsoft sebelumnya.

Nilai jual MAI-Transcribe-1 lainnya adalah keakuratannya. Microsoft menguji tingkat kesalahan kata rata-rata model tersebut, yang merupakan ukuran kualitas transkrip, dalam 25 bahasa. MAI-Transcribe-1 mencatat tingkat kesalahan sebesar 3,9%, yang menempatkannya di depan Gemini 3.1 Flash dan GPT-Transcribe dari OpenAI Group PBC. Salah satu faktor yang berkontribusi terhadap keakuratan model ini adalah model ini menyertakan fitur untuk menyaring kebisingan lingkungan.

Saat diluncurkan, MAI-Transcribe-1 mendukung transkripsi batch. Artinya, model hanya dapat memproses file yang telah disiapkan sebelumnya seperti buku audio. Menurut Microsoft, pembaruan di masa mendatang akan menambah kemampuan untuk menyalin streaming audio secara real-time. Perusahaan juga sedang mengerjakan apa yang disebut fitur diarisasi yang dapat membagi teks transkrip menjadi segmen khusus pembicara.

Model ketiga yang diperkenalkan Microsoft hari ini disebut MAI-Voice-1. Seperti namanya, ini dioptimalkan untuk menghasilkan ucapan sintetis berdasarkan skrip yang disediakan pengguna. Pelanggan dapat memilih salah satu suara AI bawaan atau menggunakan suara mereka sendiri.

Microsoft mengatakan ketiga model tersebut menawarkan harga yang kompetitif dibandingkan kompetitor. MAI-Image-2 dihargai $5 per 1 juta token masukan dan $33 per 1 juta token keluaran. MAI-Transcribe-1 berharga $0,36 per jam transkripsi ucapan, sedangkan MAI-Voice-1 mulai dari $22 per 1 juta karakter.

Model tersedia tidak hanya melalui Microsoft Foundry tetapi juga beberapa layanan lainnya. Microsoft saat ini sedang dalam proses meluncurkan MAI-Image-2 ke Bing dan PowerPoint, sementara MAI-Voice-1 dapat diakses dalam alat pembuatan audio yang disebut Copilot Audio Expressions.

Raksasa teknologi ini telah mengembangkan rangkaian chip AI khusus yang disebut MAIA untuk mendukung beban kerja AI-nya. Tambahan terbaru pada keluarga seri ini, Maia 200 yang dioptimalkan untuk inferensi, memulai debutnya pada akhir Januari. Microsoft mengatakan bahwa chip tiga nanometer ini mengungguli chip AI khusus penyedia cloud pesaing di beberapa tolok ukur.

Foto: Microsoft

Dukung misi kami untuk menjaga konten tetap terbuka dan gratis dengan terlibat dalam komunitas CUBE. Bergabunglah dengan Jaringan Kepercayaan Alumni theCUBEtempat para pemimpin teknologi terhubung, berbagi intelijen, dan menciptakan peluang.

15 juta+ pemirsa video CUBEmendukung percakapan seputar AI, cloud, keamanan siber, dan banyak lagi
11.4k+ alumni CUBE — Terhubung dengan lebih dari 11.400 pemimpin teknologi dan bisnis yang membentuk masa depan melalui jaringan unik berbasis tepercaya.

Tentang Media SiliconANGLE

SiliconANGLE Media adalah pemimpin yang diakui dalam inovasi media digital, yang menyatukan teknologi terobosan, wawasan strategis, dan keterlibatan audiens secara real-time. Sebagai perusahaan induk dari SiliconANGLE, theCUBE Network, theCUBE Research, CUBE365, theCUBE AI dan theCUBE SuperStudios — dengan lokasi utama di Silicon Valley dan New York Stock Exchange — SiliconANGLE Media beroperasi di persimpangan antara media, teknologi, dan AI.

Didirikan oleh visioner teknologi John Furrier dan Dave Vellante, SiliconANGLE Media telah membangun ekosistem dinamis merek media digital terkemuka di industri yang menjangkau 15+ juta profesional teknologi elit. TheCUBE AI Video Cloud milik kami yang baru menjadi terobosan dalam interaksi audiens, memanfaatkan jaringan saraf theCUBEai.com untuk membantu perusahaan teknologi membuat keputusan berdasarkan data dan tetap menjadi yang terdepan dalam percakapan industri.

[ad_2]

Microsoft meluncurkan model suara dan gambar berkecepatan tinggi baru

Foto: Microsoft

Leave a Reply Cancel reply