Sora:OpenAI 用于文本生成视频的全新 AI 模型

Gábor Bíró 2024年2月16日
2 阅读时间

OpenAI 发布了 Sora,这是一款全新的 AI 模型,使用户能够根据文本指令创建视频,代表着人工智能驱动内容生成领域向前迈出了重要一步。

Sora:OpenAI 用于文本生成视频的全新 AI 模型
来源: OpenAI

OpenAI 推出了 Sora,这是一款新颖的生成式 AI 模型,能够根据文本提示创建视频。Sora 利用扩散模型和 Transformer 架构相结合的技术,类似于 GPT 模型背后的技术,来生成逼真且富有想象力的场景。它可以处理具有多个角色、特定类型的运动以及主体和背景的精确细节的复杂场景。该模型还能够为静态图像制作动画、扩展现有视频或填充缺失帧,以各种风格(包括照片写实、动画或黑白)制作长达一分钟的视频。

尽管 Sora 具有令人印象深刻的功能,但目前仍存在局限性。它在准确模拟复杂场景的物理特性、理解因果关系以及随着时间的推移保持精确的空间细节方面存在困难。例如,一个角色可能会咬一口饼干,但饼干之后可能不会显示咬痕,或者模型可能会混淆场景中的左右方向。

OpenAI 在广泛发布 Sora 之前正在谨慎行事。他们正积极与红队成员(测试系统缺陷的专家)合作,评估潜在的危害和风险,例如生成虚假信息、仇恨内容或偏见。此外,正在开发检测分类器,以识别 Sora 生成的误导性内容,该公司计划未来 включить C2PA 元数据,以确保 Sora 生成视频的出处。

目前,Sora 仅向有限的红队成员和少数视觉艺术家、设计师和电影制作人开放,以收集关于如何使该模型对创意专业人士最有帮助的反馈。OpenAI 正在与全球的政策制定者、教育工作者和艺术家进行沟通,以了解他们的担忧并确定这项技术的积极用例。他们强调,从实际使用中学习对于随着时间的推移创建和发布越来越安全的 AI 系统至关重要。

Sora 的推出延续了 OpenAI 快速开发先进生成式 AI 工具的模式,包括用于文本的 ChatGPT 和用于图像的 DALL-E 3。Sora 标志着 AI 在视频内容生成能力方面取得了重大进展,进一步加速了这一快速发展领域的竞争和创新。

Gábor Bíró 2024年2月16日