06:56
Согласно отчету Webmaster House от 23 октября, исследователи запустили новый метод визуальных подсказок, Set-of-Mark (SoM), который позволяет мультимодальной большой модели GPT-4V OpenAI лучше справляться с задачами мелкозернистого зрения. GPT-4V — это мультимодальная модель на основе GPT-4, которая может обрабатывать как текст, так и изображения и выдавать несколько типов выходных данных.  Основная идея SoM заключается в использовании интерактивной модели сегментации (например, SAM) для разделения изображения на регионы с различными уровнями детализации и добавления набора маркеров на эти области, таких как буквенно-цифровой, маска, прямоугольник. Используйте изображение с тегом в качестве входных данных, чтобы решить описанную выше проблему. Исследователи считают, что этот подход может позволить GPT-4V лучше понимать объекты и пространственные отношения на изображениях, а также может использовать генеративную мощь GPT-4V для создания выходных данных, отличных от текста, таких как маски или прямоугольники.








