https://www.youtube.com/watch?v=CgQ3lUOpXgc

新版本
丰富的语音风格
理解语音内容意外的咨询(例如喘气声)
发出非语言性声音(例如笑声)
自然而即时的互动(Wow)



后续才会释放新版本语音界面哦
旧版本

缺陷
不知道语者的情绪
只有一种说话风格而已
改进
声音事件侦测、情绪辨识等


GPT-4o voice mode
多模态

语言模型训练

语音版语言模型
声音频率越高,蕴含的讯息阅读越多

speech unit

混合编码器


语者自动分段标记

模型训练
预训练

例如:100万小时的YouTuBe影片,但是影音背景声音也许会被学习到
按照指令生成多样化的声音

利用文字资讯
只用语音资料训练,模型很难学习到足够的参数
勘误:2500倍


在原有LLM上,加入语音训练(可以被认为是全新的语音、符号),即混合模式训练

Alignment


听、说和看



More

评论区