[(12) 【生成式AI導論 2024】第17講:有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理) - YouTube](https://www.youtube.com/watch?v=5H2bVEmYDNg)

输入:视觉

输入:Condition

openai的sora, 根据文字生成影片,非常强大


影响生影像

其他输入生成影像

各式各样的condition都可以生成影像

图片是像素所构成

图片是像素构成,影片是一帧一帧图片所构成

今天AI是怎么看影像的?
编码器和解码器都是类神经网络,如transformer


sora也是用类似技术

文字生图

已经有很多开源训练资料集

文字接龙,一步一步生成patch

同时生成patch

实际上操作流程是

怎么衡量影像生成的好坏
文字生图


文字生影片


所有的patch都两两做attention,则约35兆次
减少attention计算次数



计算量减少千倍
低解析度迭代高解析度


多个模型串行迭代,不断提高上个模型的帧数
More

评论区