Narasi yang umum dalam infrastruktur AI sering kali berpusat pada dominasi NVIDIA, namun arus balik yang menarik juga muncul, yang didukung oleh perusahaan seperti Zyphra. Dalam diskusi baru-baru ini di podcast Latent Space, Alessio Fanelli berbicara dengan Quentin Anthony, Kepala Pelatihan Model di Zyphra dan penasihat di EleutherAI, mempelajari poros strategis Zyphra yang berani terhadap perangkat keras AMD dan implikasinya terhadap masa depan pengembangan dan penerapan model AI. Wawasan Anthony mengungkapkan filosofi keterlibatan teknis yang mendalam, menantang kepuasan industri, dan menunjukkan jalan menuju keunggulan kompetitif.
https://www.youtube.com/watch?v=-gE1cesJF9M
Zyphra, sebuah perusahaan model full-stack, menangani segalanya mulai dari kurasi data hingga penerapan model, dengan fokus khusus pada edge AI. Keputusan strategis yang signifikan bagi startup ini adalah memigrasikan seluruh cluster pelatihannya ke AMD. “Kami baru-baru ini memindahkan seluruh klaster pelatihan kami ke AMD,” kata Anthony, menyoroti keyakinan bahwa AMD menawarkan “klaster pelatihan yang sangat menarik” yang secara signifikan mengurangi biaya operasional mereka. Langkah ini bukannya tanpa tantangan mendasar, yang berakar pada pengalaman Anthony sebelumnya bekerja pada superkomputer Frontier di Oak Ridge National Lab, yang seluruhnya didasarkan pada GPU AMD MI250X. Kebutuhan ini memaksanya untuk memindahkan operasi kompleks seperti Flash Attention ke perangkat keras AMD, sebuah proses yang sulit namun pada akhirnya mengungkap banyak hal.
Pengalaman langsung Anthony menggarisbawahi wawasan penting: meskipun NVIDIA secara historis memiliki keunggulan perangkat lunak, GPU MI300X terbaru AMD menawarkan metrik perangkat keras yang menarik. Dia mencatat bahwa untuk operasi yang terikat memori atau yang melibatkan paralelisme, MI300X AMD, dengan VRAM 192GB dan bandwidth memori yang superior, dapat mengungguli NVIDIA H100s. “Semakin sedikit waktu yang Anda habiskan dalam komputasi padat… dan semakin banyak waktu yang Anda habiskan dalam paralelisme atau berpindah ke dan dari HBM, AMD MI300X sebenarnya memiliki metrik perangkat keras yang jauh lebih baik,” jelas Anthony. Hal ini menunjukkan bahwa untuk beban kerja tertentu, terutama yang tidak bergantung pada komputasi padat FP8, AMD menghadirkan alternatif yang ampuh dan hemat biaya.
Namun, perjalanan untuk memanfaatkan potensi AMD menuntut pendekatan yang tidak konvensional dalam pengembangan kernel. Anthony secara terbuka mengkritik kecenderungan industri terhadap kerangka kerja tingkat tinggi seperti Triton, dan memilih pengkodean langsung dalam ROCm atau bahkan perakitan GPU bila diperlukan. Filosofinya jelas bersifat “bottom-up”: memahami sifat intrinsik perangkat keras terlebih dahulu, kemudian merancang algoritme untuk sepenuhnya mengeksploitasi kemampuan tersebut. Hal ini berbeda dengan pendekatan “top-down” yang mungkin mengabaikan spesifikasi perangkat keras, sehingga berpotensi mengabaikan kinerja. Dia berpendapat bahwa sebagian besar “masalah perangkat lunak” yang dirasakan AMD sebagian disebabkan oleh keterbatasan perangkat keras dan kurangnya upaya optimasi tingkat rendah yang berdedikasi. “Jika Anda mengevaluasi semuanya secara merata, Anda akan menemukan hal-hal seperti ini dalam kesulitan,” katanya, menunjukkan bahwa banyak pengembang yang belum memanfaatkan ekosistem AMD, sehingga menciptakan peluang bagi mereka yang ingin melakukan pekerjaan lebih mendalam.
Inovasi Zyphra meluas ke arsitektur modelnya. Perusahaan ini telah menjadi yang terdepan dalam model hibrida ruang angkasa, seperti Zamba 2, yang menggabungkan transformator dan blok Mamba2. Anthony dengan bangga mencatat bahwa Zamba 2, model parameter 7B, dapat menandingi kinerja Llama 3 8B. Model-model ini dioptimalkan untuk penerapan edge, dengan skala mulai dari model 1,2 miliar untuk ponsel hingga 7 miliar untuk desktop, yang menunjukkan komitmen terhadap AI pada perangkat yang efisien. Strategi pengembangan spektrum model yang disesuaikan dengan beragam kendala perangkat keras, mulai dari perangkat edge dengan sumber daya terbatas hingga klaster lokal yang lebih kuat, adalah kunci dari visi mereka tentang AI yang ada di mana-mana.
Bacaan Terkait
Anthony juga menyampaikan pemikiran jujurnya tentang peran AI dalam produktivitas pengembang dan tantangan pembuatan kode tingkat rendah. Meskipun mengakui kegunaan AI untuk tugas-tugas tingkat tinggi seperti fusi kode atau menghasilkan boilerplate, ia tetap skeptis tentang kemampuannya saat ini untuk menghasilkan kernel GPU tingkat rendah yang dioptimalkan. Ia menemukan bahwa model sering kali menghasilkan kode tingkat rendah yang “dead basic” atau benar-benar salah, yang kemudian sulit untuk di-debug karena paralelisme yang melekat dan kompleksitas operasi GPU. Dia lebih memilih akses API langsung daripada alat seperti Cursor, memprioritaskan kontrol penuh atas konteks dan menghindari “efek mesin slot” dari model yang terus-menerus mendorong. Tantangan dalam menciptakan kumpulan data kernel yang kuat dan metrik evaluasi yang andal semakin memperumit peran AI dalam domain ini.
Jalur yang ditempuh Zyphra bersama AMD merupakan bukti kekuatan keahlian teknis yang mendalam dan pilihan perangkat keras yang strategis dalam lanskap yang didominasi oleh satu pemain. Dengan merangkul nuansa arsitektur AMD dan berinvestasi dalam pengembangan kernel dasar, Zyphra tidak hanya mengurangi biaya tetapi juga mencapai terobosan kinerja yang dapat membentuk kembali dinamika kompetitif pelatihan dan penerapan model AI.