Menurut halaman Arxiv, tim peneliti peneliti dari Singapore University of Technology and Design, Microsoft Research dan Tsinghua University hari ini merilis metode yang disebut Tuna, yang memungkinkan model untuk menyesuaikan instruksi menggunakan umpan balik dari model bahasa besar.
Tim peneliti menggunakan metode peringkat probabilistik dan peringkat konteks baru untuk menyempurnakan LLM yang disesuaikan dengan instruksi untuk meningkatkan kemungkinan menghasilkan tanggapan yang lebih baik. Peringkat probabilistik memungkinkan model yang disesuaikan dengan instruksi untuk mewarisi peringkat relatif respons berkualitas tinggi dan berkualitas rendah dari model besar orde tinggi. Di sisi lain, menggunakan pembelajaran peringkat kontekstual memungkinkan model untuk memperbaiki distribusi responsnya sendiri menggunakan kemampuan pemahaman kontekstual dari model yang lebih kuat. Menurut tim peneliti, Tuna unggul dalam Super Natural Instructions (119 tugas tes), LMentry (25 tugas tes), Vicuna QA, dan banyak lagi.