米斯特拉尔的多模态模型：Pixtral 12B 发布

Gábor Bíró • 2024年9月9日

3 阅读时间

法国人工智能初创公司 Mistral AI 迅速崛起，并发布了 Pixtral 12B，进军多模态人工智能领域。多模态人工智能指的是能够同时处理和理解来自多种数据类型信息的系统，例如文本和图像。这款拥有 120 亿参数的新模型使 Mistral 能够与 OpenAI 和 Anthropic 等主要参与者的类似产品竞争。Mistral 以专注于开源解决方案和挑战美国科技巨头而闻名。

来源: Mistral

Pixtral 12B 功能特点

Pixtral 12B 基于 Mistral 早期推出的 Nemo 12B 文本模型构建，并融入了一个 4 亿参数的视觉编码器，使其能够同时处理图像和文本。虽然与一些行业巨头相比，120 亿参数使其成为一个中等规模的模型，但作为一个开源产品，它提供了强大的功能。该模型可以处理高达 1024x1024 像素的图像，并将其分解为 16x16 像素的图像块进行分析。它采用了 2D 旋转位置嵌入（RoPE）技术，这对于帮助模型更好地理解图像中物体之间的空间关系至关重要。Pixtral 12B 拥有 131,072 个词汇 tokens 和专门的图像处理 tokens，擅长图像描述（描述图片中的场景）、物体计数（例如，数篮子里的苹果）和视觉问答（VQA）等任务，例如回答“图像中汽车是什么颜色？”等问题。

许可和可用性

Pixtral 12B 在宽松的 Apache 2.0 许可证下发布。这对人工智能社区来说是一个显著的优势，因为它意味着该模型可以被自由下载、使用、修改和部署，即使是用于商业目的，也无需用户共享其修改。这促进了创新，使企业能够将其集成到产品中而无需担心供应商锁定，并提高了透明度。开发者可以通过 GitHub 和 Hugging Face 访问该模型（大小约为 24GB），从而能够针对各种特定应用对其进行微调。

与其他模型的比较

Pixtral 12B 进入了一个竞争激烈的领域，其中不乏强大的多模态模型，如 OpenAI 的 GPT-4o、Anthropic 的 Claude 和 Google 的 Gemini 系列。Mistral 模型的关键差异化因素在于其开源性质。虽然竞争对手通常主要通过商业 API（应用程序编程接口）提供访问，但 Pixtral 12B 的开放性为研究人员和开发者提供了更大的访问权限、透明度和定制能力。这种方法对于加速研究、实现独立审计和促进协作开发生态系统至关重要。虽然其性能需要与这些闭源竞品进行全面的基准测试，但其易于访问的规模和灵活性使其成为人工智能社区一个有吸引力的替代方案。

模型	公司	主要特点	可用性
Pixtral 12B	Mistral AI	120 亿参数，文本和图像处理，开源	在 Apache 2.0 许可证下免费提供
GPT-4o	OpenAI	大规模多模态模型，高级推理	商业 API 访问
Claude 3 (Opus/Sonnet/Haiku)	Anthropic	文本和图像理解，强大的性能，注重伦理	商业 API 访问
Gemini (Pro/Ultra)	Google	多模态功能，集成到 Google 服务中	API 访问和通过 Google 产品

未来展望

Mistral AI 刚刚完成了一轮 6.45 亿美元的融资，公司估值达到惊人的 60 亿美元，正蓄势待发，准备实现显著增长。这笔巨额投资突显了市场信心，并为公司快速创新和在全球范围内竞争提供了所需的资源。Pixtral 12B 的发布与 Mistral 的战略完美契合，即免费提供强大的开源模型，同时通过优化的托管版本和企业咨询服务产生收入。随着 Mistral 继续扩展其产品组合，Pixtral 12B 预计很快将集成到公司的聊天平台 (Le Chat) 和 API 平台 (La Plateforme) 中。这种集成将使更广泛的用户能够轻松测试、使用和探索该模型不断扩展的功能，从而进一步推动其应用和发展。