法国创业公司Mistral推出首款多模态AI模型Pixtral 12B

darthracer 发表于 2024-9-21 23:52

法国人工智能创业公司Mistral发布了其第一个可以处理图像和文本的模型。

这款名为Pixtral 12B的模型拥有120亿个参数，大小约为24GB。参数大致上可以对应模型的解决问题的能力，参数更多的模型通常比参数少的模型表现更好。

Pixtral 12B是基于Mistral另一款文本模型Nemo 12B构建的，这个新模型可以回答关于任意数量和大小的图像的问题，无论是给定URL还是使用base64编码的图像。与其他多模态模型（如Anthropic的Claude家族和OpenAI的GPT-4o）相似，Pixtral 12B理论上应该能够执行图像字幕和计算照片中物体数量等任务。

Pixtral 12B可通过GitHub和AI及机器学习开发平台Hugging Face上的torrent连接下载、微调和使用，并且不受限制地采用Apache 2.0许可证。（Mistral发言人通过电子邮件确认了Pixtral 12B所采用的许可证。）

遗憾的是，但目前还没法亲自体验Pixtral 12B，因为在发布时没有任何可用的网络示范。Mistral开发者关系负责人Sophia Yang在X上的一篇文章中表示，Pixtral 12B将很快在Mistral的聊天机器人和API服务平台Le Chat和Le Plateforme上提供测试。

目前尚不清楚Mistral可能使用了哪些图像数据来开发Pixtral 12B。

大多数生成式AI模型，包括Mistral的其他模型，都是通过大量网络公开数据训练的，这些数据通常是受版权保护的。一些模型供应商认为“合理使用”权赋予他们抓取任何公开数据的权利，但许多版权持有者不同意，并已对OpenAI和Midjourney等大型供应商提起诉讼，以阻止这种做法。

Pixtral 12B的发布是在Mistral完成由General Catalyst领投的6.45亿美元融资之后，该轮融资对公司的估值达到60亿美元。成立刚一年多的Mistral（微软持有少数股权）被AI社交媒体中的许多人视为欧洲对OpenAI的回应。这家年轻公司的战略迄今为止涉及发布免费的“开放”模型，对这些模型的托管版本收费，并为企业客户提供咨询服务。

页: [1]

萌子岛's Archiver

法国创业公司Mistral推出首款多模态AI模型Pixtral 12B