" /> " />

目 录CONTENT

文章目录

GPT-4o背后可能的语音技术猜测

Administrator
2024-06-05 / 0 评论 / 0 点赞 / 15 阅读 / 5218 字

https://www.youtube.com/watch?v=CgQ3lUOpXgc


新版本

丰富的语音风格

理解语音内容意外的咨询(例如喘气声)

发出非语言性声音(例如笑声)

自然而即时的互动(Wow)

后续才会释放新版本语音界面哦

旧版本

缺陷

不知道语者的情绪

只有一种说话风格而已

改进

声音事件侦测、情绪辨识等

GPT-4o voice mode

多模态

语言模型训练

语音版语言模型

声音频率越高,蕴含的讯息阅读越多

speech unit

混合编码器

语者自动分段标记

模型训练

预训练

例如:100万小时的YouTuBe影片,但是影音背景声音也许会被学习到

按照指令生成多样化的声音

利用文字资讯

只用语音资料训练,模型很难学习到足够的参数

勘误:2500倍

在原有LLM上,加入语音训练(可以被认为是全新的语音、符号),即混合模式训练

Alignment

听、说和看

More

0

评论区