Согласно отчету TechWeb от 19 сентября, отечественная авторитетная система оценки Flag_ (Libra) объявила результаты оценки последних крупных моделей из сентябрьского списка. Основываясь на последнем наборе данных субъективной оценки CLCC v2.0, сентябрьский список Flag_ (Libra) фокусируется на оценке 7 моделей диалога с открытым исходным кодом, которые в последнее время стали популярными. Судя по общим результатам, b-chat Baichuan2-13, b-chat Qwen-7 и b-chat Baichuan2-7 являются одними из лучших, их точность превышает 65%. В списке базовых моделей результаты объективной оценки Baichuan 2, Qwen, InternLM и Aquila превзошли модели Llama и Llama2 того же уровня параметров. В списке моделей SFT Baichuan 2-13 B-chat, YuLan-Chat-2-13 B и AquilaChat-7 B входят в тройку лидеров. В обоих списках объективной оценки Baichuan 2 показал отличные характеристики, а базовая модель превзошла Llama 2 как в китайском, так и в английском полях. Сообщается, что Flag_ (Весы) — это крупная система оценки моделей и открытая платформа, запущенная Пекинским научно-исследовательским институтом искусственного интеллекта Чжиюань. Она направлена на создание научных, справедливых и открытых критериев оценки, методов и наборов инструментов, которые помогут исследователям во всесторонней оценке базовых моделей и Производительность алгоритмов обучения. Флаг_ Система оценки большой языковой модели в настоящее время включает 6 основных задач оценки, около 30 наборов данных оценки и более 100 000 вопросов оценки.