Sora：OpenAI 用于文本生成视频的全新 AI 模型

Gábor Bíró • 2024年2月16日

2 阅读时间

OpenAI 发布了 Sora，这是一款全新的 AI 模型，使用户能够根据文本指令创建视频，代表着人工智能驱动内容生成领域向前迈出了重要一步。

Sora：OpenAI 用于文本生成视频的全新 AI 模型

来源: OpenAI

OpenAI 推出了 Sora，这是一款新颖的生成式 AI 模型，能够根据文本提示创建视频。Sora 利用扩散模型和 Transformer 架构相结合的技术，类似于 GPT 模型背后的技术，来生成逼真且富有想象力的场景。它可以处理具有多个角色、特定类型的运动以及主体和背景的精确细节的复杂场景。该模型还能够为静态图像制作动画、扩展现有视频或填充缺失帧，以各种风格（包括照片写实、动画或黑白）制作长达一分钟的视频。

尽管 Sora 具有令人印象深刻的功能，但目前仍存在局限性。它在准确模拟复杂场景的物理特性、理解因果关系以及随着时间的推移保持精确的空间细节方面存在困难。例如，一个角色可能会咬一口饼干，但饼干之后可能不会显示咬痕，或者模型可能会混淆场景中的左右方向。

OpenAI 在广泛发布 Sora 之前正在谨慎行事。他们正积极与红队成员（测试系统缺陷的专家）合作，评估潜在的危害和风险，例如生成虚假信息、仇恨内容或偏见。此外，正在开发检测分类器，以识别 Sora 生成的误导性内容，该公司计划未来 включить C2PA 元数据，以确保 Sora 生成视频的出处。

目前，Sora 仅向有限的红队成员和少数视觉艺术家、设计师和电影制作人开放，以收集关于如何使该模型对创意专业人士最有帮助的反馈。OpenAI 正在与全球的政策制定者、教育工作者和艺术家进行沟通，以了解他们的担忧并确定这项技术的积极用例。他们强调，从实际使用中学习对于随着时间的推移创建和发布越来越安全的 AI 系统至关重要。

Sora 的推出延续了 OpenAI 快速开发先进生成式 AI 工具的模式，包括用于文本的 ChatGPT 和用于图像的 DALL-E 3。Sora 标志着 AI 在视频内容生成能力方面取得了重大进展，进一步加速了这一快速发展领域的竞争和创新。

推荐阅读

认知计算

Gábor Bíró • 2024年9月18日

科技世界不断涌现令人兴奋的新发展，这些发展正在改变我们的生活和工作方式。在这些最有前景和最引人入胜的进展中，认知计算脱颖而出。但它究竟是什么？为什么如此重要呢？

苹果收购法国 AI 初创公司 Datakalab，增强设备端 AI 能力

Gábor Bíró • 2024年4月29日

苹果公司收购了法国人工智能初创公司Datakalab，此举表明其正在深化对人工智能的投资，尤其是在设备端处理方面。Datakalab 专注于低功耗计算机视觉和深度学习算法。此次收购于 2023 年 12 月完成，金额未公开，最近在欧盟委员会的文件中被注意到，突显了苹果在预计推出人工智能功能之前的战略，并可能进一步加强其对保护隐私的人工智能的承诺。

OpenAI 发布 GPT-4o：更快、更便宜、原生多模态

Gábor Bíró • 2024年5月14日

OpenAI 近期发布了其最新的旗舰语言模型 GPT-4o。其名称源于 "omni"（全能），寓意着人工智能领域的重大飞跃，因为该模型原生支持处理文本、音频和视觉的输入和输出。这种固有的多模态方法为开发者和用户解锁了新的可能性，进一步巩固了 OpenAI 在人工智能创新前沿的地位。

意法半导体在西西里岛新建微芯片工厂

Gábor Bíró • 2024年6月9日

欧洲联盟已批准向意法半导体提供20亿欧元的意大利政府援助，用于在西西里岛卡塔尼亚建造一座价值50亿欧元的微芯片工厂。这项投资是欧盟旨在减少对亚洲进口依赖并加强其半导体供应链战略的一部分。

黑灯工厂与无人仓库

Gábor Bíró • 2024年8月21日

几十年来，制造业和物流行业一直在探讨全自动化工厂和仓库的出现，在这些工厂和仓库中，生产和物料搬运由高度先进的机器人和智能机器管理，几乎不需要人工干预。这些设施甚至可以在完全黑暗的环境中运行，因此得名“黑灯工厂”。

效率陷阱

Gábor Bíró • 2025年3月5日

你有没有想过，现代科技本应让我们的生活更轻松、为我们节省时间，但实际上为什么并没有带来更多的空闲时间？尽管我们身边有洗衣机、洗碗机、电脑和智能手机，为什么我们工作的时间和祖父母辈一样多，甚至可能更多？答案在于一个早在工业革命时期就已被认识到的现象，我们称之为“杰文斯悖论” (Jevons Paradox)。

逆波兰表示法：求值数学表达式的优雅替代方案

Gábor Bíró • 2025年3月2日

逆波兰表示法 (RPN) 是一种高效的数学表达式求值方法，其特点是将运算符置于运算数之后。这种方法允许省略括号，简化并清晰化计算过程。尽管乍一看可能有些不同，但使用 RPN 可以显著加快运算的执行速度，尤其是在计算机系统和可编程计算器中。