Apple OpenELM 模型旨在设备端运行,不只局限于云端

Gábor Bíró 2024年4月26日
4 阅读时间

苹果公司推出了 OpenELM (Open Efficient Language Models,开放高效语言模型),这是一个新的开源大型语言模型系列,专门设计用于在 iPhone 和 iPad 等设备本地运行。这代表着与当今大多数强大 AI 模型通常严重依赖云端服务器处理的模式相比,发生了重大转变。虽然苹果凭借其神经网络引擎率先实现了设备端 AI 加速,但在以云服务为主导的大型生成模型领域,苹果一直相对低调。这项进展是苹果更广泛战略的关键组成部分,旨在将更先进的 AI 功能直接集成到其硬件中,目标是增强用户隐私、减少延迟并实现离线功能。

Apple OpenELM 模型旨在设备端运行,不只局限于云端
来源: Apple

设备端 AI 的挑战

直接在消费设备上运行复杂的大型语言模型 (LLM) 提出了相当大的技术难题。现代 LLM 通常包含数十亿甚至数万亿的参数——模型在训练期间学习的变量。处理这些模型需要巨大的计算能力(复杂的矩阵乘法)和大量的内存 (RAM) 才能加载模型权重。云服务器可以访问强大的 GPU 和几乎无限的资源,但移动设备在严格的约束下运行:

  • 内存有限:智能手机的内存远小于服务器。
  • 处理能力受限:虽然移动 CPU、GPU 和神经处理单元(NPU,如苹果的神经网络引擎)功能强大,但它们无法与专用服务器硬件相提并论。
  • 电池续航:高强度计算会迅速耗尽电池电量。
  • 散热限制:设备在持续高负荷处理下可能会过热。

由于这些限制,在手机上直接运行能够进行复杂推理和生成的真正“智能” LLM 非常困难。这必然需要在模型大小和功能上做出妥协。这正是像 OpenELM 这样的高效模型的开发至关重要的原因,这些模型针对资源约束内的性能进行了优化,对于设备端 AI 的未来至关重要。

OpenELM 概述:效率是关键

OpenELM 模型采用分层缩放策略,该策略在 Transformer 架构的每一层内有效分配参数,以在给定的计算预算内最大限度地提高准确性。例如,在约 10 亿参数的预算内,苹果报告称,与之前的 OLMo 模型相比,OpenELM 的准确率提高了 2.36%,关键是仅需一半的预训练 tokens(数据)。这种效率至关重要:以更少的资源获得更好的结果,使这些模型更适合直接在消费硬件上运行,而不会过度消耗电池电量或降低设备速度。苹果发布了多种尺寸的 OpenELM(2.7 亿、4.5 亿、11 亿和 30 亿参数),允许开发人员选择最适合目标设备功能的模型。

特性和功能

OpenELM 项目包括几个关键要素,使其与众不同:

  • 开源可用性:在 AI 领域,苹果公司采取了一项引人注目的举措,将 OpenELM 在 Hugging Face Hub 上提供。这使开发人员和研究人员不仅可以访问和使用这些模型,还可以检查、构建和贡献于其开发。这项策略可能有助于苹果在竞争激烈的 AI 领域加速进步并吸引人才。
  • 全面的训练框架:与许多仅提供模型权重和推理代码的模型发布不同,苹果公司包含了在公开数据集上进行训练和评估的完整框架。这包括训练日志、多个检查点和预训练配置,显著提高了透明度和可重复性。
  • 增强的隐私和速度:通过在设备本地运行,OpenELM 消除了将潜在敏感的用户数据发送到云服务器进行处理的需求,直接解决了隐私问题——这是苹果品牌的核心原则。此外,本地处理减少了网络延迟,从而实现了更快、更灵敏的 AI 驱动功能。

与 iOS 的集成和未来展望

预计苹果将在即将发布的 iOS 18 中集成 OpenELM,预计 iOS 18 将推出一系列新的 AI 功能。这种集成可能会为各种设备端 AI 功能提供动力。但是,重要的是要设定合理的期望:这些高效模型,特别是较小的变体,可能无法与 GPT-4 等巨型云端模型的广泛推理能力相媲美。相反,它们更适合特定的本地化任务,例如智能文本摘要、改进的预测文本、离线 Siri 增强功能、分析设备端内容(如照片或笔记)以及生成上下文回复。

苹果可能会采用混合方法,将 OpenELM 用于最能从设备端速度和隐私中获益的任务,同时可能依赖云端模型(甚至来自合作伙伴的模型)来处理更复杂的查询。总而言之,OpenELM 模型的发布标志着设备端 AI 发展迈出了重要一步。通过强调效率、隐私和采用开源方法,苹果正在将自己定位为在下一代直接集成到移动和消费设备中的 AI 中发挥更突出的作用,并利用其紧密集成的硬件和软件生态系统。

Gábor Bíró 2024年4月26日