Sora来袭
- 2024年2月15日OpenAI公司在推上连续发了几个Sora文生图视频,引起轰动
- OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”
- Sora继承了DALL-E 3的画质和遵循指令能力
- 可以根据用户的文本提示创建逼真的视频
- 可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景
- 能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。
Sora来袭的反应
- 360集团创始人、董事长 周鸿祎
Sora将缩短AGI(通用人工智能)实现时间,从10年缩短到1年。OpenAI训练该模型应该会以视频和摄像头捕捉的画面为主,人工智能通过观看大量视频将对世界有更深入的理解,这离AGI实现不远
- 电影导演兼视觉效果专家 迈克尔·格雷西
很快,像Sora这样的人工智能工具将允许电影制作者仔细控制他们的输出,从头开始创建各种视频,当技术剥夺了其他人的创造力、工作、想法和执行力,却没有给予他们应有的荣誉和经济报酬时,不是一件好事情。
- 英伟达科学家 DrJimFan
Sora是一个数据驱动的物理引擎,它是对许多世界的模拟,无论是真实的还是幻想的,模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。
Sora的团队
- Sora核心团队有15人
- Sora团队的Leader是Aditya Ramesh:他也是DALLE、DALLE2、DALLE3的主要作者
- Sora的核心作者是Bill Peebles和Tim brooks
- Bill Peebles 在伯克利人工智能研究所完成了博士学位,导师是Alyosha Efros。在此之前,他在麻省理工学院攻读本科,指导老师是Antonio Torralba。他曾在FAIR、Adobe研究院和NVIDIA实习。
- Tim brooks 在伯克利人工智能研究所获得了博士学位,导师是Alyosha Efros,他是InstructPix2Pix的作者。在此之前他曾在谷歌工作,参与Pixel手机相机的研发,在NVIDIA从事视频生成模型的研究。
- Bill Peebles的说法是“每天基本不睡觉,高强度工作了一年。
如何试用Sora
- 答案是:现在还不行
- 到目前为止(北京时间 2023-02-20 18:20) Sora并没有对外开放
- 目前只有OpenAI内部员工,一批受邀请的视觉艺术家、设计师和电影制作人获得了Sora访问权限,他们也已开始在社交平台不断晒出使用Sora生成的新作品
- 未来开放时间不确定,但是首批可使用的用户数量不会太多,且肯定不会对中国大陆开放使用
- 国内用户要新手体验sora的功能,可能还是还很远
Sora的竞争对手
AI | 公司 | AI视频产品 | 发布日期 |
---|---|---|---|
英伟达 | PYoCo | 2023.05 | |
Runway | Gen-2 | 2023.06 | |
Pika Labs | Pika 1.0 | 2023.11 | |
Meta | Emu Video | 2023.11 | |
Stability AI | Stable Video Diffusion | 2023.11 | |
谷歌 | Video Poet | 2023.12 |
Sora的能力
- Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频 (其他AI视频工具还在突破几秒内的连贯性 )
- 静态图生成视频,Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来(比其他工具优势:关注细节部分,使得生成的视频更加生动逼真)
- 视频扩展与缺失帧填充
- 连接视频:可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间- 图像生成:Sora可以生成各种尺寸的图像,分辨率最高达2048×2048
- 3D一致:Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动
- 远距离连贯性
- 物体持久性
- 互动性:Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触
- 模拟数字世界:Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态
- 多机位:Sora可以生成多机位、多角度的视频
Sora作品展示
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
Sora会火吗?会有很多人使用吗?
- 答:不会火,不会有很多人使用
视频质量问题
- Sora刚推出的那天是正月初七,正准备和朋友一起出发去郊区爬山,一边收拾行李一边用手机发了以下记录
- 相对于ChatGPT,GPT4逆天的理解和语言表达能力,OpenAI的图像为产品DALLE3之类试用效果其实不佳
- 这也是我对Sora的视频质量不太看好的原因
- 虽然现在官方放出的Demo无比惊艳,风头无双,但Demo只是Demo
- 实际的产品能力还要等真正的产品对公众普通用户开放以后才是真实的
- 而基于此DALLE3的不是异常惊艳的图像能力能看,其视频生成质量不太看好(当然,这个不太好,是相对来说的,可能是好,但是不是那种让人惊掉下巴的那种好)
Sora的成本
- ChatGPT一推出就几乎是让所有的用户都体验了一本跟AI对话的神奇之处
- 同样是OpenAI的产品Sora没有选择对用户开放的策略
- 其中的一个很大的原因是Sora的使用的运行成本比文字版的ChatGPT要高很多
- ChatGPT的平均一次普通对话大约需要消耗:500token
- 而Sora的一分钟长度视频、每秒30帧的视频,平均每帧包含256个token,总计将产生460000token
- 视频需要的token大约是文本的1000倍,这还不算上视频训练时需要花费的大量计算资源
- 考虑到其模型大小,大约需要8张A100显卡来推理,而8张A100显卡在云上的收费大约需要3500元/天
- 上面说的最小成本,如果对普通用户开放使用,需要的显卡资源可能最近的一到两年都不足以支持
- 所以即便是不缺钱的大厂,未来有类似sora类的应用推出,收费也是不会偏宜的。
总结
- OpenAI最新推出的Sora在文本生成视频方面有了显著的改进和提升。
- 虽然目前还没有对外开放,但展示出的技术细节令人惊叹,短时间内还没有其他产品能与之竞争。
- 然而,由于在图像生成方面的质量和成本问题,短期内不会向普通用户开放体验,未来的使用门槛也较高。