V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ugpu
V2EX  ›  OpenAI

GPT-4o 实时语音对话是如何实现的?

  •  
  •   ugpu · 2024-05-15 09:51:15 +08:00 · 3353 次点击
    这是一个创建于 388 天前的主题,其中的信息可能已经有所发展或是发生改变。

    GPT-4o 实时语音对话是如何实现的? 现在 iPad iPhone 有这些应用吗? 我看视频里 可汗学院 XX 教小孩子做数学题目 还能可视化? 如何实现有老铁分享下吗.

    21 条回复    2024-05-27 11:50:02 +08:00
    sentinelK
        1
    sentinelK  
       2024-05-15 09:54:51 +08:00
    1 、这不是 4o 的新功能。gpt3.5 、4 早就可以语音对聊了。
    2 、语音对聊本质上就是语音识别>转换成文字上下文提交给 gpt>gpt 回复>口语化模型>文字转音频。
    sentinelK
        2
    sentinelK  
       2024-05-15 09:56:30 +08:00
    3 、你所谓的“可视化”,其实就是上下文增加图片附件。
    itskingname
        3
    itskingname  
       2024-05-15 10:10:30 +08:00   ❤️ 3
    之前的语音对话,都是语音->文字->问答->文字转语音

    GPT-4o 改成直接使用语音训练模型。它背后直接能够根据你的语音来回答,跳过了语音转文字的这一步。
    love060701
        4
    love060701  
       2024-05-15 10:14:09 +08:00   ❤️ 1
    GPT-4o 是原生多模态模型,直接语音输入、语音输出,没有中间的其他步骤,现在没有应用能做到。视频里用的是 ChatGPT 客户端,把课程界面分享给 ChatGPT ,然后 ChatGPT 回答的。
    stonesirsir
        5
    stonesirsir  
       2024-05-15 10:17:16 +08:00 via Android
    gpt-4o 的 api 可以语音对话吗?
    cannotagreemore
        6
    cannotagreemore  
       2024-05-15 10:23:25 +08:00   ❤️ 1
    @sentinelK 可以看下他们的文章中专门有一段说了 GPT-4o 并不需要做额外的 ASR 和 TTS 而是原生的多模态模型,语音对话的延迟会明显降低
    lDqe4OE6iOEUQNM7
        7
    lDqe4OE6iOEUQNM7  
       2024-05-15 10:44:13 +08:00
    之前是文本视觉音频分开训练的,现在文本、音频、视觉丢到一起训练,用的的是一个神经网络,以前要互相转换文字转语音,音频转文字,中间的时间就更久,还有会丢失细节,现在延迟几百毫秒
    lDqe4OE6iOEUQNM7
        8
    lDqe4OE6iOEUQNM7  
       2024-05-15 10:47:08 +08:00
    现在的视觉是基于多帧图片不是真正的视觉,后面算力足够应该会加上 sora 级别的视觉感知,从视觉到视觉,有对物理世界的理解,现在只是平面图片级别的理解
    lDqe4OE6iOEUQNM7
        9
    lDqe4OE6iOEUQNM7  
       2024-05-15 10:49:48 +08:00
    特斯拉做的 FSDV12 现在应该就是端到端的视觉,八个摄像头输入,然后输出控制,还有他的人形机器人
    xiaohundun
        10
    xiaohundun  
       2024-05-15 11:10:56 +08:00
    啊?竟让不是 ASR\TTS ,这怎么做到的。。
    justfindu
        11
    justfindu  
       2024-05-15 11:48:41 +08:00
    可打断并根据要求继续输出 我觉得这个有意思 怎么做的
    ugpu
        12
    ugpu  
    OP
       2024-05-15 11:53:05 +08:00
    emmm 你们不觉得响应速度过快了吗? 所以我对背后真实的方案有存疑 仅仅他们的网络导致这么快的相应速度 以及中断速度吗?
    ugpu
        13
    ugpu  
    OP
       2024-05-15 11:53:57 +08:00
    @sentinelK 纯 API 接口? 有这么快吗?
    mmdsun
        14
    mmdsun  
       2024-05-15 12:18:27 +08:00 via iPhone   ❤️ 1
    gpt 那个没开放接口不知道,说下用过微软 Azure 语音,底层 websocket 当然可以实时语音了。

    https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/index-speech-to-text
    xsen
        15
    xsen  
       2024-05-15 13:44:33 +08:00   ❤️ 1
    底层有可能走的是 webrtc ,直接就是端到端对话;若 gpt4o 可以 audio in audio out ,那延迟是可以做到 300ms 左右的——就是实时对话
    Hozoy
        16
    Hozoy  
       2024-05-15 15:24:59 +08:00   ❤️ 1
    OpenAI:“我们计划在未来几周内以 alpha 版的形式推出具有这些新功能的新语音模式,随着我们更广泛地推出,Plus 用户可以抢先体验。”
    ETiV
        17
    ETiV  
       2024-05-15 15:45:01 +08:00 via iPhone
    我也觉得是 WebRTC ,音视频以“流”的形式在本地和远程之间互动
    Tink
        18
    Tink  
       2024-05-15 15:49:07 +08:00
    多模态就是这样的呀
    DIO
        19
    DIO  
       2024-05-15 15:56:46 +08:00
    以后智能语音客服真假难辨喽
    DigitalG
        20
    DigitalG  
       2024-05-15 16:04:03 +08:00
    4o 有新增的语音对话 feature ( voice model ),还在“rolling to Plus users in the coming weeks.” (来源 openai 的社区),跟之前的模型有复用部分,单不完全是同一个东西。目前 app 里的后端模型应该有混合吧,我猜。不知道有没有什么分辨的办法。
    silencelixing
        21
    silencelixing  
       2024-05-27 11:50:02 +08:00
    你们都是在哪里体验的语音对话?我怎么找不到入口在哪儿?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2872 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:13 · PVG 15:13 · LAX 00:13 · JFK 03:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.