Gmail、YouTube、Google Play等系统依靠文本分类模型识别有害内容,包括网络钓鱼攻击、不当评论和诈骗。不过,过去机器学习模型难将有害文本内容分类出来,因为不法分子会使用同形字、隐形字符以及关键字填充等手法,以所谓adversarial text manipulation尝试绕过筛选器。
为了帮助文本分类器发挥效用,Google开发一种开源、多语言文本矢量化工具RETVec(Resilient & Efficient Text Vectorizer),协助模型实现最先进的分类性能并大幅降低运算成本,在服务器端和设备上创建更具弹性和性能的文本分类器。