DeepMind提出产图AI评估标准Gecko

darthracer · 2024-6-11 23:52

生成式AI模型进化快速，比较各模型性能除了通过成果评价，更量化标准也有必要。DeepMind最近发布产图AI的评估标准，能更有效评估模型性能。

Google DeepMind团队发表在arXiv论文提出“Gecko”基准评估法，针对图片生成AI模型提供更全面可靠的基准。

DeepMind论文表示：“虽然文本产图模型无处不在，但未必产生与提示一致的图片。”目前主要评估DALL‧E、Midjourney和Stable Diffusion等模型能力的数据库和自动指标未能反映全貌，小型人工评估只能提供有限见解，自动指标可能忽视重要细节，甚至与人工判断互相矛盾。

为解决问题，研究员开发Gecko基准测试组件，以2千条涵盖各技能和复杂度的文本提示，大量指示文本产图模型。Gecko之后会细分提示涉及的独特技术，精准指出模型弱点。

共同主要作者Olivia Wiles解释：“这种基于AI技能的基准测试将提示分类为子技能，让开发者不仅找出哪些技能有挑战性，更能掌握哪种复杂度会构成挑战。”