2026-03-07 16:32:57

opini tidak populer: peluncuran model AI semakin membosankan.

bukan karena modelnya tidak berkembang.. mereka berkembang.
tapi setiap rilis hanya.. tolok ukur.
@OpenAI baru saja merilis GPT-5.4 dan seluruh pengumuman ini pada dasarnya adalah tabel ini.
75% di OSWorld. 57,7% di SWE-Bench Pro. 94,4% di GPQA Diamond.
keren.. tapi apa artinya bagi saya yang sedang membangun sesuatu jam 2 pagi?
tidak ada yang di luar AI twitter peduli tentang peningkatan 2% di MMLU. tidak ada. nol orang.
bagian paling lucu? lihat tabel ini dengan saksama..
> Opus 4.6 hampir mencapai semua tolok ukur.
> Gemini 3.1 Pro diam-diam mengalahkan semua orang di BrowseComp dengan 85,9%.
"pemenang" berubah tergantung baris mana yang Anda lihat.
Anda tahu apa yang sebenarnya ingin saya lihat?
tunjukkan saya tugas dunia nyata yang lebih baik ditangani daripada sebelumnya. tunjukkan saya demo yang sedikit membuat otak saya bingung. tunjukkan saya seseorang yang membangun sesuatu dengannya yang tidak mungkin bulan lalu.
tolok ukur terbaik adalah "apakah ini membuat hidup saya lebih mudah?"
itu saja. itu seluruh penilaian.
perusahaan-perusahaan di sini merayakan skor matematika sementara pengguna hanya ingin tahu apakah akhirnya bisa menangani basis kode 4K tanpa merusak setengah fitur.
mulailah dari sana.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka