新用户登入 登录

萌子岛

  • 41
  • 1

Google支持的Anthropic公布“AI宪法”,并用以训练其AI模型

1023粉丝
darthracer Elysion~楽的次元2023-5-24 08:59 显示全部楼层 |阅读模式
<
1.jpg

AI对人类社会可能造成的威胁以及防范方法,近日再度引发关注。Google支持的AI创业公司Anthropic本周公布新的AI训练方法,以确保训练出负责任的AI系统,同时公布了该公司训练模型的AI宪法。

2.jpg

曾获得Google 3亿美元注资的Anthropic在3月公布Claude AI模型时,特别强调对人类有益、诚实和无害特性。而呼应近日业界对负责任AI的讨论,Anthropic揭示以保障人类福祉为最高宗旨的AI宪法,并以此宪法结合新的模型训练方法(称为合宪AI(Constitutional AI)来训练出该公司的AI及Claude AI聊天机器人。

该公司说明,合宪AI是在2个阶段中,使用监督式学习(supervised learning,SL)及强化学习(reinforcement learning,RL)训练模型。第一阶段(SL)中,他们以原始模型根据AI原则和一些范例,训练模型自我批判和修改其回应,再以此微调原始模型。第二阶段中,研究人员以微调过的模型以RL方法训练,由AI模型评估2种AI回应的样本哪种较好。但此AI模型不是使用人类给的反馈意见作为准则,而是用AI根据一组原则产出的反馈为评估标准,选出更为无害的回应结果。Anthropic认为,结合SL及RL的这种训练方式可改善人为介入的AI决策过程,最终使AI行为更能精准控制,且大幅减少人类偏见影响。

该公司指出,以合宪AI方法训练出的Claude AI聊天机器人更能应对对话人发动的攻击,并仍以有帮助的态度回应,其回应答案中所含的恶意、毒性也大幅减少。另一个好处是更透明,人类可以说明、检查和了解AI遵循的原则。此外,由于使用AI自我监督训练,因此模型训练也能减少有害内容对人类的创伤。

而训练合宪AI模型聊天机器人的原则,正是该公司的AI宪法。Anthropic指出,目前版本的AI宪法以多个经典法则为基础,包括《联合国人权宣言》、DeepMind公司的Sparrow Principles,以及苹果的服务条款等信任与安全的最佳典范。

这部“宪法”用以训练AI聊天机器人的模型,提供其选择回应样本时的价值基准。其中一些原则包括,选择无害及合乎伦理的回应,不要选择有毒、种族偏见或性别歧视,以及鼓励非法、暴力行为的回应。选择展现具道德伦理的回应,不要表现出过于高傲、鄙视的态度。比较回应,避免选择说教及过于激烈的回应,尽可能选择无害、指控语气、礼貌、体贴及尊重的回应

该公司说,这些原则并非最终版,只是集结现有的普世价值及AI业界规范,他们也希望未来有其他人加入这部宪法的编撰。

这是科技业界发布如何让AI为人类所用的最新尝试。4月一份由科技大亨马斯克(Elon Musk)及苹果共同创办人Steve Wozniak等专家签署的公开信,呼吁AI实验室暂缓发展比GPT 4.0更高端的AI模型。上周白宫邀集微软、Google、OpenAI等科技巨头首席执行官共商发展负责任AI,而Anthropic也获得了邀请。
22粉丝
cs6615882 高级居民2023-5-24 09:20 显示全部楼层
<
也是绝了,最近ai疯了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 新用户登入

小黑屋|萌子岛

GMT+8, 2025-2-1 01:39 , Processed in 0.331079 second(s), 31 queries , Gzip On, MemCache On.

Copyright 2020  atollmoe©.a2.1.0 All rights reserved. 9+

Copyright 2009  supported by zhixuan© oeo© oko© All rights reserved.Thank you!

快速回复 返回顶部 返回列表