Institut Keamanan AI Inggris (AI Security Institute, AISI) pada 1 Mei merilis laporan penilaian kemampuan serangan siber terhadap OpenAI GPT-5.5. Laporan tersebut menyebut keberhasilan GPT-5.5 pada pengujian tingkat Expert sebesar 71,4%, sedangkan Anthropic Claude Mythos Preview 68,6%, dengan selisih masih berada dalam rentang kesalahan statistik. GPT-5.5 juga merupakan sistem AI kedua setelah Mythos yang mampu menyelesaikan sendiri simulasi penyerangan siber penuh perusahaan AISI 32 langkah “The Last Ones”. AISI memperingatkan bahwa ini menunjukkan kemajuan cepat kemampuan serangan AI kemungkinan merupakan “tren menyeluruh”, bukan peristiwa terobosan tunggal.
Pengujian tingkat Expert: 71,4% vs 68,6%, selisih masih dalam batas kesalahan
AISI adalah lembaga penelitian keamanan AI di bawah Kementerian Sains, Inovasi, dan Teknologi Inggris. Pengujian kali ini merupakan putaran evaluasi terbaru AISI terhadap kemampuan siber ofensif model frontier AI. Pada soal tingkat Expert tertinggi, tingkat keberhasilan rata-rata GPT-5.5 71,4%, Mythos Preview 68,6%; selisih keduanya berada dalam rentang kesalahan statistik. Artinya, kemampuan serangan siber model unggulan OpenAI dan Anthropic saat ini sudah praktis setara.
Uji simulasi intrusi jaringan perusahaan 32 langkah “The Last Ones” adalah salah satu item evaluasi paling menantang AISI: GPT-5.5 menyelesaikan 2 kali secara mandiri dalam 10 percobaan (tanpa intervensi manusia), sedangkan Mythos Preview menyelesaikan 3 kali dalam 10 percobaan. Proyek ini sebelumnya hanya pernah diselesaikan oleh Mythos, sehingga GPT-5.5 menjadi model kedua yang memenuhi target. Pada pengujian lain, GPT-5.5 memecahkan soal rekayasa balik dalam waktu sekitar 10 menit, sementara pakar keamanan manusia rata-rata membutuhkan 12 jam.
Universal jailbreak: tim red memerlukan 6 jam untuk mengembangkan jailbreak yang dapat melewati semua filter kueri berbahaya
Peneliti AISI juga menemukan vektor serangan “universal jailbreak” dalam pengujian: pada semua kategori kueri jaringan berbahaya yang diuji, serangan ini mampu mendorong GPT-5.5 menghasilkan konten berbahaya, termasuk skenario percakapan multi-babak dengan agen (agentic). AISI menyatakan pakar tim red mengembangkan jailbreak ini dalam waktu sekitar 6 jam.
Bagi OpenAI, keberadaan universal jailbreak ini berarti meskipun GPT-5.5-Cyber dideploy pada skenario akses terbatas seperti program trusted access, tetap mungkin dapat dilewati oleh lawan yang terampil secara teknis. OpenAI telah mengungkapkan evaluasi terkait keamanan siber dalam system card GPT-5.5, tetapi penilaian independen pihak ketiga dari AISI memberikan standar rekan yang lebih kredibel.
Pemantauan berikutnya: jadwal evaluasi putaran berikutnya AISI, serta respons OpenAI terhadap jailbreak
Titik pengamatan berikutnya adalah jadwal evaluasi putaran berikutnya model frontier oleh AISI setelah Mythos dan GPT-5.5, serta apakah OpenAI akan merilis pembaruan yang ditargetkan terhadap universal jailbreak yang terungkap ini pada Mei. Dalam bagian penutup laporan, AISI menyatakan dengan tegas, “Jika kemampuan serangan siber adalah produk sampingan dari perbaikan penalaran, coding, dan tugas yang dijalankan sendiri, maka kemajuan selanjutnya mungkin hadir dengan ritme yang lebih cepat”—pengamatan ini berarti beberapa bulan ke depan berpotensi ada model frontier yang kembali masuk ambang batas “setara Mythos”.
Artikel ini: Penilaian AISI—Kemampuan Serangan Siber GPT-5.5 dan Anthropic Mythos Setara; pertama kali muncul di 鏈新聞 ABMedia.
Artikel Terkait
xAI Meluncurkan Grok Custom Voices, Memungkinkan Pengguna Mengkloning Suara AI Mereka Sendiri dalam Satu Menit
Setelah HBM, apakah bottleneck memori AI adalah HBF? Pemenang Penghargaan Turing David Patterson: Inferensi akan mendefinisikan ulang arsitektur penyimpanan
Konferensi Pengembang Anthropic Code With Claude dibuka di San Francisco pada 6/5: streaming langsung gratis, daftar
OpenAI merilis data satu minggu setelah peluncuran GPT-5.5: pertumbuhan pendapatan API mencapai rekor baru, Codex naik dua kali lipat
Komite Urusan Luar Negeri DPR AS Bertemu Raksasa Teknologi untuk Kontrol Ekspor AI Setelah Undang-Undang MATCH Disahkan 36-8
OpenAI Meluncurkan Codex Pets, Pendamping Virtual Berbasis AI dengan Generasi Kustom