法国创业公司Mistral推出首款多模态AI模型Pixtral 12B
法国人工智能创业公司Mistral发布了其第一个可以处理图像和文本的模型。
这款名为Pixtral 12B的模型拥有120亿个参数,大小约为24GB。参数大致上可以对应模型的解决问题的能力,参数更多的模型通常比参数少的模型表现更好。
Pixtral 12B是基于Mistral另一款文本模型Nemo 12B构建的,这个新模型可以回答关于任意数量和大小的图像的问题,无论是给定URL还是使用base64编码的图像。与其他多模态模型(如Anthropic的Claude家族和OpenAI的GPT-4o)相似,Pixtral 12B理论上应该能够执行图像字幕和计算照片中物体数量等任务。
Pixtral 12B可通过GitHub和AI及机器学习开发平台Hugging Face上的torrent连接下载、微调和使用,并且不受限制地采用Apache 2.0许可证。(Mistral发言人通过电子邮件确认了Pixtral 12B所采用的许可证。)
遗憾的是,但目前还没法亲自体验Pixtral 12B,因为在发布时没有任何可用的网络示范。Mistral开发者关系负责人Sophia Yang在X上的一篇文章中表示,Pixtral 12B将很快在Mistral的聊天机器人和API服务平台Le Chat和Le Plateforme上提供测试。
目前尚不清楚Mistral可能使用了哪些图像数据来开发Pixtral 12B。
大多数生成式AI模型,包括Mistral的其他模型,都是通过大量网络公开数据训练的,这些数据通常是受版权保护的。一些模型供应商认为“合理使用”权赋予他们抓取任何公开数据的权利,但许多版权持有者不同意,并已对OpenAI和Midjourney等大型供应商提起诉讼,以阻止这种做法。
Pixtral 12B的发布是在Mistral完成由General Catalyst领投的6.45亿美元融资之后,该轮融资对公司的估值达到60亿美元。成立刚一年多的Mistral(微软持有少数股权)被AI社交媒体中的许多人视为欧洲对OpenAI的回应。这家年轻公司的战略迄今为止涉及发布免费的“开放”模型,对这些模型的托管版本收费,并为企业客户提供咨询服务。
页:
[1]