OpenAI представляет модель GPT-Realtime для преобразования речи в речь с многомодальной поддержкой и расширенными возможностями ведения диалога

Кратко

OpenAI выпустила модель gpt-realtime для преобразования речи в речь с поддержкой мультимодальности, продвинутыми навыками ведения диалога и высокой производительностью в области ауди reasoning.

OpenAI представила модель GPT-Realtime Speech-To-Speech с мультимодальной поддержкой и расширенными возможностями ведения диалога

Организация по исследованию искусственного интеллекта OpenAI объявила о общей доступности своего Realtime API, теперь улучшенного функциями, которые позволяют разработчикам и предприятиям создавать надежные голосовые агенты, готовые к производству. API поддерживает удаленные серверы MCP, входные изображения и телефонные звонки через Протокол Инициации Сессии (SIP), что позволяет создавать более мощные и контекстно-осведомленные голосовые приложения.

Вместе с API OpenAI выпустила свою самую продвинутую модель преобразования речи в речь, gpt-realtime, разработанную для улучшения выполнения инструкций, вызова функций и естественного звучания речи. Модель может интерпретировать сложные подсказки, переключать языки посреди предложения, точно воспроизводить алфавитно-цифровые последовательности и улавливать невербальные сигналы. Также доступны два новых голоса, Cedar и Marin, предлагающие более выразительную и естественную интонацию. Существующие голоса были обновлены, чтобы включить эти улучшения.

Realtime API обрабатывает аудио напрямую через одну модель, снижая задержку и сохраняя нюансы, в отличие от традиционных конвейеров, которые связывают отдельные модели распознавания речи и синтеза речи. gpt-realtime был обучен в сотрудничестве с пользователями для успешного применения в таких областях, как поддержка клиентов, личная помощь и образование. Эталонные оценки показывают значительные улучшения в рассуждениях, соблюдении инструкций и точности вызова функций по сравнению с предыдущими моделями.

Дополнительные обновления включают асинхронный вызов функций, позволяя выполнять длительные операции, не прерывая текущие беседы, что дополнительно поддерживает бесшовные, готовые к производству голосовые взаимодействия.

OpenAI Расширяет Realtime API с поддержкой MCP, вводом изображений, интеграцией SIP и контролем затрат для голосовых агентов

Realtime API OpenAI теперь включает новые функции, разработанные для упрощения интеграции и расширения возможностей для готовых к производству голосовых агентов. Разработчики могут включить поддержку удаленного MCP, связав сессию с URL-адресом сервера MCP, что позволяет API автоматически управлять вызовами инструментов и получать доступ к дополнительным функциональным возможностям без ручной настройки.

Модель gpt-realtime теперь поддерживает ввод изображений, что позволяет системе включать фотографии, скриншоты и другие визуальные материалы наряду с аудио или текстом. Это позволяет пользователям задавать контекстуально специфические вопросы о том, что они видят, в то время как разработчики сохраняют контроль над тем, какие изображения делятся и когда.

Дополнительные улучшения включают поддержку Протокола Инициации Сессии (SIP) для подключения приложений к телефонным сетям и системам PBX, а также повторно используемые подсказки, которые позволяют разработчикам сохранять и развертывать предварительно настроенные инструкции, инструменты и примерные сообщения в нескольких сессиях.

Теперь общедоступные Realtime API и модель gpt-realtime доступны всем разработчикам, при этом цена снижена на 20% по сравнению с предыдущей версией gpt-4o-realtime-preview. Новые настройки для контекста разговора позволяют более умно управлять токенами, что снижает затраты на длительные сессии. Документация, игровая площадка для тестирования и руководство по запросам для Realtime API доступны для поддержки разработчиков в использовании этих возможностей.

GPT13.56%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить