5月21日,以“如何共守智能体安全底线”为主题,“AI新治向”系列沙龙第二期活动在广州举行。活动上,南方科技大学计算机系长聘副教授(研究员、博导)危学涛以“智能体伦理与安全的探索与思考”为主题进行了分享。
在分享中,危学涛厘清了safety(无意的行为)与security(恶意的攻击)的区别,并指出智能体无意失误带来的风险往往比恶意攻击更为隐蔽且难以防范。基于此,他提出了模型能力内生对齐、外部动态护栏、国家标准引导“三管齐下”的系统性治理路径,尤其关注长尾风险与隐性风险等深水区挑战。
“AI新治向”系列沙龙第二期活动现场,南方科技大学计算机系长聘副教授(研究员、博导)危学涛作主题分享。
理解智能体安全风险的双重维度
随着智能体从对话层面向数字世界、物理世界跃迁,其安全风险也向广域化与深层化的方向发展。危学涛认为,在探讨智能体伦理安全之前,必须厘清safety与security两个“安全”相关的关键概念。
Security针对的威胁源于恶意攻击,如黑客劫持、后门攻击等,其目标是防止智能体“被人利用”;Safety关注的则是非蓄意的、无恶意的系统故障或自身缺陷,例如模型偏见导致的不公正输出、决策错误引发的人身或精神伤害,其目标是防止智能体“自身出错”。
危学涛进一步将智能体伦理安全问题归纳为“内容安全”和“行为安全”两大维度。内容安全,指的是智能体生成有害的文本、图像、视频内容等的风险。行为安全,是智能体在与复杂环境的互动中决策行为产生的危险后果,往往带来更大的挑战,例如,内容创作智能体未经授权爬取网页内容并发布至自媒体平台,购物智能体购买了致用户过敏的食物等。
他指出,在智能体实际部署中,无意失误带来的风险往往比恶意攻击更为隐蔽且难以防范。
模型、护栏、国标“三管齐下”系统治理
在危学涛看来,深水区隐性风险“漏网之鱼”的隐蔽性、“防不胜防”的长尾风险,以及安全对齐技术的表面对齐、可验证治理工具缺乏等问题,给智能体伦理安全带来巨大挑战。
基于此,危学涛提出了模型能力内生对齐、外部设置动态护栏、国家标准引导“三管齐下”的系统治理路径。他强调,在整个治理体系中,护栏模型应该成为未来智能体系统的标配,它不以被监控的基础模型的意志为转移,像一个“杀毒软件”可以“即插即用”地部署在各类终端,具备最小闭环、持续校正更新、兼顾监管牵引和现实驱动等优点。
面对智能体的隐性风险挑战,危学涛认为,从国家标准层面来看,尤其应该通过提供可验证、可量化的指标和工具进行系统性引导。他还呼吁,推动哲学社科和计算机AI两个领域进一步有效交流和交叉融合,有的放矢开发治理工具,为智能体伦理安全治理提供有效抓手。
“AI新治向”系列沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室、南方都市报社主办,广东省网络数据安全与个人信息保护协会支持。相关政府部门、司法、学界、企业、媒体等多方代表出席了活动,聚焦国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新发展实施意见》核心要求,剖析智能体应用安全风险底层逻辑,探讨多元共治与创新实践方案。
出品:南都大数据研究院
采写:南都研究员 唐静怡
摄影:南都N视频记者 袁炯贤