Apple OpenELM 模型旨在设备端运行，不只局限于云端

Gábor Bíró • 2024年4月26日

4 阅读时间

苹果公司推出了 OpenELM (Open Efficient Language Models，开放高效语言模型)，这是一个新的开源大型语言模型系列，专门设计用于在 iPhone 和 iPad 等设备本地运行。这代表着与当今大多数强大 AI 模型通常严重依赖云端服务器处理的模式相比，发生了重大转变。虽然苹果凭借其神经网络引擎率先实现了设备端 AI 加速，但在以云服务为主导的大型生成模型领域，苹果一直相对低调。这项进展是苹果更广泛战略的关键组成部分，旨在将更先进的 AI 功能直接集成到其硬件中，目标是增强用户隐私、减少延迟并实现离线功能。

来源: Apple

设备端 AI 的挑战

直接在消费设备上运行复杂的大型语言模型 (LLM) 提出了相当大的技术难题。现代 LLM 通常包含数十亿甚至数万亿的参数——模型在训练期间学习的变量。处理这些模型需要巨大的计算能力（复杂的矩阵乘法）和大量的内存 (RAM) 才能加载模型权重。云服务器可以访问强大的 GPU 和几乎无限的资源，但移动设备在严格的约束下运行：

内存有限：智能手机的内存远小于服务器。
处理能力受限：虽然移动 CPU、GPU 和神经处理单元（NPU，如苹果的神经网络引擎）功能强大，但它们无法与专用服务器硬件相提并论。
电池续航：高强度计算会迅速耗尽电池电量。
散热限制：设备在持续高负荷处理下可能会过热。

由于这些限制，在手机上直接运行能够进行复杂推理和生成的真正“智能” LLM 非常困难。这必然需要在模型大小和功能上做出妥协。这正是像 OpenELM 这样的高效模型的开发至关重要的原因，这些模型针对资源约束内的性能进行了优化，对于设备端 AI 的未来至关重要。

OpenELM 概述：效率是关键

OpenELM 模型采用分层缩放策略，该策略在 Transformer 架构的每一层内有效分配参数，以在给定的计算预算内最大限度地提高准确性。例如，在约 10 亿参数的预算内，苹果报告称，与之前的 OLMo 模型相比，OpenELM 的准确率提高了 2.36%，关键是仅需一半的预训练 tokens（数据）。这种效率至关重要：以更少的资源获得更好的结果，使这些模型更适合直接在消费硬件上运行，而不会过度消耗电池电量或降低设备速度。苹果发布了多种尺寸的 OpenELM（2.7 亿、4.5 亿、11 亿和 30 亿参数），允许开发人员选择最适合目标设备功能的模型。

特性和功能

OpenELM 项目包括几个关键要素，使其与众不同：

开源可用性：在 AI 领域，苹果公司采取了一项引人注目的举措，将 OpenELM 在 Hugging Face Hub 上提供。这使开发人员和研究人员不仅可以访问和使用这些模型，还可以检查、构建和贡献于其开发。这项策略可能有助于苹果在竞争激烈的 AI 领域加速进步并吸引人才。
全面的训练框架：与许多仅提供模型权重和推理代码的模型发布不同，苹果公司包含了在公开数据集上进行训练和评估的完整框架。这包括训练日志、多个检查点和预训练配置，显著提高了透明度和可重复性。
增强的隐私和速度：通过在设备本地运行，OpenELM 消除了将潜在敏感的用户数据发送到云服务器进行处理的需求，直接解决了隐私问题——这是苹果品牌的核心原则。此外，本地处理减少了网络延迟，从而实现了更快、更灵敏的 AI 驱动功能。

与 iOS 的集成和未来展望

预计苹果将在即将发布的 iOS 18 中集成 OpenELM，预计 iOS 18 将推出一系列新的 AI 功能。这种集成可能会为各种设备端 AI 功能提供动力。但是，重要的是要设定合理的期望：这些高效模型，特别是较小的变体，可能无法与 GPT-4 等巨型云端模型的广泛推理能力相媲美。相反，它们更适合特定的本地化任务，例如智能文本摘要、改进的预测文本、离线 Siri 增强功能、分析设备端内容（如照片或笔记）以及生成上下文回复。

苹果可能会采用混合方法，将 OpenELM 用于最能从设备端速度和隐私中获益的任务，同时可能依赖云端模型（甚至来自合作伙伴的模型）来处理更复杂的查询。总而言之，OpenELM 模型的发布标志着设备端 AI 发展迈出了重要一步。通过强调效率、隐私和采用开源方法，苹果正在将自己定位为在下一代直接集成到移动和消费设备中的 AI 中发挥更突出的作用，并利用其紧密集成的硬件和软件生态系统。