Tim peneliti dari Penn Engineering dan Allen Institute for AI (Ai2) memperkenalkan pendekatan baru, melatih AI menggunakan gambar-gambar sintetis buatan AI lain.
Ringkasan
- CoSyn adalah alat yang membuat gambar ilmiah sintetis untuk melatih AI mengenali informasi visual kompleks.
- Dataset CoSyn-400K mengalahkan sistem AI tertutup dalam tujuh uji benchmark, termasuk membaca label nutrisi.
- Seluruh sistem berbasis open-source, bertujuan mendemokratisasi pengembangan AI dan menghindari isu hukum data.
KECERDASAN buatan atau AI saat ini masih bergantung pada data gambar asli dalam jumlah besar agar bisa memahami visual seperti tabel ilmiah atau antarmuka pengguna.
Namun, data seperti itu sulit diperoleh dan sering kali penuh masalah etika karena mengandung konten berhak cipta. Itulah alasan para peneliti mengembangkan CoSyn (Code-Guided Synthesis).
CoSyn menggunakan kemampuan menulis kode dari AI open-source untuk menciptakan gambar visual dan pertanyaan yang dapat digunakan untuk melatih AI lain.
Dengan kata lain, CoSyn seperti meminta siswa jago menulis untuk mengajari orang menggambar, hanya lewat deskripsi teks.
Hasilnya luar biasa. Model yang dilatih dengan gambar buatan ini bahkan bisa mengalahkan model AI besar milik perusahaan teknologi raksasa.
Dataset yang dihasilkan, CoSyn-400K, berisi lebih dari 400.000 gambar sintetis dan 2,7 juta instruksi, mencakup grafik ilmiah, struktur kimia, hingga tangkapan layar aplikasi.
Dalam uji benchmark bernama NutritionQA, hanya dengan 7.000 label nutrisi buatan, model CoSyn mengalahkan model lain yang dilatih dengan jutaan gambar nyata. Ini membuktikan bahwa data sintetis bisa sangat efisien.
Agar gambar-gambar buatan ini tidak monoton, peneliti menggunakan pendekatan “persona”.
Mereka menanamkan kepribadian imajiner seperti “guru kimia” atau “penulis fiksi ilmiah” dalam prompt agar AI menghasilkan data yang lebih variatif.
Menurut peneliti Ajay Patel, metode ini mampu “menyulap” gaya dan isi data, menjadikannya jauh lebih kaya dan berguna untuk berbagai skenario pelatihan.
Yang menarik, seluruh proses CoSyn dijalankan dengan perangkat dan model open-source. Artinya, tidak hanya transparan, tapi juga bebas dari risiko hukum akibat scraping data web atau pelanggaran hak cipta.
Ini menjadi harapan besar bagi pengembang AI independen yang selama ini tertinggal dari sistem komersial besar.
Tak hanya sampai di situ, visi tim ini juga mengarah pada AI yang bisa berinteraksi dengan gambar, bukan sekadar memahami.
Bayangkan AI yang bisa membaca label, klik tombol, isi formulir, atau bahkan bantu pengguna menjalankan tugas sehari-hari.
Menurut Yue Yang, salah satu penulis utama, langkah ini bisa membawa AI “beraksi” di dunia nyata, bukan hanya jadi narator pasif.
CoSyn adalah bukti bahwa kreativitas dan efisiensi bisa menyaingi kekuatan modal besar dalam pengembangan AI. Dengan dataset terbuka dan pendekatan baru yang unik, masa depan AI yang inklusif dan bertanggung jawab kini semakin terbuka.
Disadur dari Tech Xplore - AI vision, reinvented: Vision-language models gain clearer sight through synthetic training data.
إرسال تعليق