AI is Life. We Are Empty.

累计撰写 563 篇文章
累计创建 141 个标签
累计收到 7 条评论

目录CONTENT

首页
/
人工智能
/
正文

人工智能

GPT-4o背后可能的语音技术猜测

Administrator

2024-06-05 / 0 评论 / 0 点赞 / 74 阅读 / 0 字

06/05

https://www.youtube.com/watch?v=CgQ3lUOpXgc

新版本

丰富的语音风格

理解语音内容意外的咨询（例如喘气声）

发出非语言性声音（例如笑声）

自然而即时的互动（Wow）

后续才会释放新版本语音界面哦

旧版本

缺陷

不知道语者的情绪

只有一种说话风格而已

改进

声音事件侦测、情绪辨识等

GPT-4o voice mode

多模态

语言模型训练

语音版语言模型

声音频率越高，蕴含的讯息阅读越多

speech unit

混合编码器

语者自动分段标记

模型训练

预训练

例如：100万小时的YouTuBe影片，但是影音背景声音也许会被学习到

按照指令生成多样化的声音

利用文字资讯

只用语音资料训练，模型很难学习到足够的参数

勘误：2500倍

在原有LLM上，加入语音训练（可以被认为是全新的语音、符号），即混合模式训练

Alignment

听、说和看

More

0

生成式AI导论2024

支付宝打赏
微信打赏

版权归属： Administrator

本文链接： https://funkygod.vip/archives/gpt-4obei-hou-ke-neng-de-yu-yin-ji-shu-cai-ce

许可协议：本文使用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》协议授权

微信扫一扫
1. 支付宝打赏
2. 微信打赏

评论区

全网：猫咪不吃愚

AI is Life. We Are Empty.

30 分类数

563 文章数

7 评论数

文章目录