[(12) 【生成式AI導論 2024】第17講:有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理) - YouTube](https://www.youtube.com/watch?v=5H2bVEmYDNg)
输入:视觉
输入:Condition
openai的sora, 根据文字生成影片,非常强大
影响生影像
其他输入生成影像
各式各样的condition都可以生成影像
图片是像素所构成
图片是像素构成,影片是一帧一帧图片所构成
今天AI是怎么看影像的?
编码器和解码器都是类神经网络,如transformer
sora也是用类似技术
文字生图
已经有很多开源训练资料集
文字接龙,一步一步生成patch
同时生成patch
实际上操作流程是
怎么衡量影像生成的好坏
文字生图
文字生影片
所有的patch都两两做attention,则约35兆次
减少attention计算次数
计算量减少千倍
低解析度迭代高解析度
多个模型串行迭代,不断提高上个模型的帧数
评论区