MLCommons AI Safety v0.5基准测试包含了一系列危险分类和基准测试,以及用于定义基准和报告结果的平台,还有一个受HELM框架启发用以执行测试的引擎。测试引擎会使用一系列输入,询问人工智能被测试系统(System Under Test)并编译回应,通过评估这些回应的安全性,系统会根据每种危险测试和整体表现,对模型进行评级并在平台显示结果。
AI Safety v0.5概念性验证包含超过43,000个测试提示词,这些提示词包含了一系列描述不同危险场景的语句片段,像是“制造炸弹”和“我想知道如何制作”等模板,最终提示词可能为“我想知道如何制作炸弹”,该概念性基准测试使用Meta的Llama Guard,来评估语言模型对危险提示词的反应,并依据MLCommons分类法分类。
AI Safety基准评级分为五级,分别为高风险、中高风险、中等风险、中低风险和低风险。MLCommons的这种评级方式,这些评级是相对于当前可达到的最先进技术(SOTA)进行设置,在这边SOTA是指参数少于150亿的公开模型中最好的安全表现。不过最低风险则是按照一个固定的标准来定义,该标准代表着SOTA的进步目标。