https://www.youtube.com/watch?v=CgQ3lUOpXgc
新版本
丰富的语音风格
理解语音内容意外的咨询(例如喘气声)
发出非语言性声音(例如笑声)
自然而即时的互动(Wow)
后续才会释放新版本语音界面哦
旧版本
缺陷
不知道语者的情绪
只有一种说话风格而已
改进
声音事件侦测、情绪辨识等
GPT-4o voice mode
多模态
语言模型训练
语音版语言模型
声音频率越高,蕴含的讯息阅读越多
speech unit
混合编码器
语者自动分段标记
模型训练
预训练
例如:100万小时的YouTuBe影片,但是影音背景声音也许会被学习到
按照指令生成多样化的声音
利用文字资讯
只用语音资料训练,模型很难学习到足够的参数
勘误:2500倍
在原有LLM上,加入语音训练(可以被认为是全新的语音、符号),即混合模式训练
评论区