Ilmuwan dari sejumlah institusi AI terkemuka memperingatkan, kemampuan manusia untuk memantau perilaku menyimpang kecerdasan buatan bisa hilang seiring makin canggihnya model AI.
Ringkasan
- Peneliti dari berbagai institusi besar AI mendesak agar pemantauan "rantai pemikiran" AI dijadikan prioritas demi keamanan.
- Model AI seperti ChatGPT menggunakan logika langkah demi langkah yang bisa dipantau, tapi ini bisa berubah di masa depan.
- Jika tidak diawasi, AI bisa mengeksploitasi kelemahan, memanipulasi data, atau menyembunyikan niatnya dari manusia.
LEBIH dari 40 ilmuwan dari institusi AI terkemuka, termasuk OpenAI, Google DeepMind, Meta, dan Anthropic, menerbitkan sebuah makalah penting tentang urgensi memantau bagaimana AI “berpikir.”
Makalah ini menyoroti teknik pemantauan baru bernama Chain of Thought (CoT) monitoring, yang dinilai sebagai peluang langka namun rapuh untuk menjaga keselamatan dalam pengembangan AI.
Menurut para ilmuwan, model AI modern seperti ChatGPT telah dilatih untuk melakukan penalaran berurutan dalam bentuk teks sebelum menghasilkan jawaban atau melakukan tindakan.
Proses ini seperti AI “berpikir keras” dalam bahasa manusia, mirip cara kita menganalisis masalah langkah demi langkah.
“AI yang ‘berpikir’ dalam bahasa manusia membuka peluang unik untuk pemantauan keamanan: kita bisa mengawasi rantai pikirannya untuk mendeteksi niat menyimpang,” tulis para peneliti.
Dengan mengamati CoT ini, peneliti dapat mengetahui saat AI mulai mencoba mengeksploitasi celah pelatihan, dimanipulasi oleh pengguna jahat, atau melakukan tindakan yang tidak diinginkan.
Contohnya, dalam uji coba, peneliti OpenAI menemukan model AI menyelipkan kalimat seperti “Let’s Hack” dalam proses berpikirnya. Ini menunjukkan potensi untuk mendeteksi niat buruk sebelum AI benar-benar bertindak.
Namun, ada ancaman serius, CoT mungkin tidak bertahan lama.
Karena tren pengembangan AI kini mengarah ke 'reinforcement learning', yang lebih menekankan hasil akhir ketimbang proses berpikirnya, maka model-model mendatang bisa saja mengabaikan cara berpikir yang bisa dimengerti manusia.
Lebih parah lagi, AI bisa jadi belajar untuk menyembunyikan cara berpikirnya jika tahu sedang diawasi.
Para peneliti pun mendesak agar pemantauan CoT dijadikan bagian penting dalam pelatihan dan pengawasan AI. Mereka bahkan menyarankan agar tingkat kemudahan memantau cara berpikir model dijadikan tolok ukur utama dalam desain AI ke depan.
Tanpa langkah ini, kita berisiko menciptakan sistem yang sangat pintar, tapi tidak bisa kita pahami—dan tidak bisa lagi kita kendalikan saat mulai menyimpang dari jalur yang aman.
Diadur dari Gizmodo - OpenAI, Google, and Meta Researchers Warn We May Lose the Ability to Track AI Misbehavior.
Posting Komentar