南科大危学涛:模型、护栏、国标“三管齐下”守住智能体安全
创始人
2026-05-21 22:35:09

5月21日,以“如何共守智能体安全底线”为主题,“AI新治向”系列沙龙第二期活动在广州举行。活动上,南方科技大学计算机系长聘副教授(研究员、博导)危学涛以“智能体伦理与安全的探索与思考”为主题进行了分享。

在分享中,危学涛厘清了safety(无意的行为)与security(恶意的攻击)的区别,并指出智能体无意失误带来的风险往往比恶意攻击更为隐蔽且难以防范。基于此,他提出了模型能力内生对齐、外部动态护栏、国家标准引导“三管齐下”的系统性治理路径,尤其关注长尾风险与隐性风险等深水区挑战。

“AI新治向”系列沙龙第二期活动现场,南方科技大学计算机系长聘副教授(研究员、博导)危学涛作主题分享。

理解智能体安全风险的双重维度

随着智能体从对话层面向数字世界、物理世界跃迁,其安全风险也向广域化与深层化的方向发展。危学涛认为,在探讨智能体伦理安全之前,必须厘清safety与security两个“安全”相关的关键概念。

Security针对的威胁源于恶意攻击,如黑客劫持、后门攻击等,其目标是防止智能体“被人利用”;Safety关注的则是非蓄意的、无恶意的系统故障或自身缺陷,例如模型偏见导致的不公正输出、决策错误引发的人身或精神伤害,其目标是防止智能体“自身出错”。

危学涛进一步将智能体伦理安全问题归纳为“内容安全”和“行为安全”两大维度。内容安全,指的是智能体生成有害的文本、图像、视频内容等的风险。行为安全,是智能体在与复杂环境的互动中决策行为产生的危险后果,往往带来更大的挑战,例如,内容创作智能体未经授权爬取网页内容并发布至自媒体平台,购物智能体购买了致用户过敏的食物等。

他指出,在智能体实际部署中,无意失误带来的风险往往比恶意攻击更为隐蔽且难以防范。

模型、护栏、国标“三管齐下”系统治理

在危学涛看来,深水区隐性风险“漏网之鱼”的隐蔽性、“防不胜防”的长尾风险,以及安全对齐技术的表面对齐、可验证治理工具缺乏等问题,给智能体伦理安全带来巨大挑战。

基于此,危学涛提出了模型能力内生对齐、外部设置动态护栏、国家标准引导“三管齐下”的系统治理路径。他强调,在整个治理体系中,护栏模型应该成为未来智能体系统的标配,它不以被监控的基础模型的意志为转移,像一个“杀毒软件”可以“即插即用”地部署在各类终端,具备最小闭环、持续校正更新、兼顾监管牵引和现实驱动等优点。

面对智能体的隐性风险挑战,危学涛认为,从国家标准层面来看,尤其应该通过提供可验证、可量化的指标和工具进行系统性引导。他还呼吁,推动哲学社科和计算机AI两个领域进一步有效交流和交叉融合,有的放矢开发治理工具,为智能体伦理安全治理提供有效抓手。

“AI新治向”系列沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室、南方都市报社主办,广东省网络数据安全与个人信息保护协会支持。相关政府部门、司法、学界、企业、媒体等多方代表出席了活动,聚焦国家网信办、国家发展改革委、工业和信息化部联合印发的《智能体规范应用与创新发展实施意见》核心要求,剖析智能体应用安全风险底层逻辑,探讨多元共治与创新实践方案。

出品:南都大数据研究院

采写:南都研究员 唐静怡

摄影:南都N视频记者 袁炯贤

相关内容

热门资讯

教育部公示!福建拟新增1所公办... 5月21日教育部网站发布公示拟同意设置34所学校其中福建拟新增1所公办本科高校↓根据《中华人民共和国...
雨夜赏绝美烟花!花海公园焰火秀...   5月21日晚,焰火秀在福州花海公园上空上演。
焰火秀点亮福州夜空 5月21日晚焰火秀在花海公园上空上演各色烟花在江面上空绚丽绽放漫天华彩与闽江两岸的璀璨灯火交相辉映点...
下班快回家!福州发布暴雨橙色预... 注意!福州市气象台2026年05月21日17时20分将暴雨黄色预警信号升级为暴雨橙色预警信号:过去1...
ST应急:现阶段在手订单能够满... 5月21日,ST应急(300527.SZ)发布投资者关系活动记录表。 对于投资者关心的订单情况,公司...
广西来宾出现入汛以来首轮洪峰 ... 受近期持续强降雨和上游来水影响,广西来宾辖区水位不断上涨。根据最新水情分析,柳江运江水文站于5月21...
“救护车去山姆代购”?济南急救... 央广网济南5月21日消息(记者李舜)5月20日,有网友发布视频称“救护车成了山姆代购”,视频画面显示...
多路子弟兵奔赴灾区救援! 连日来 持续强降雨 引发广西、湖南、贵州等多地 洪涝和地质灾害 武警部队官兵和民兵等救援力量 紧急前...
漠阳江出现近二十年一遇洪水,阳... 5月21日上午,受强降雨持续影响,漠阳江水位上涨,迎来近二十年一遇洪水,沿江河堤两岸区域大面积被淹,...
南科大危学涛:模型、护栏、国标... 5月21日,以“如何共守智能体安全底线”为主题,“AI新治向”系列沙龙第二期活动在广州举行。活动上,...
工信部公布首批备案网络安全漏洞... 【大河财立方 记者 陈薇】近日,工业和信息化部公布首批通过备案的网络产品安全漏洞收集平台名单,共计3...
蚂蚁、度小满、京东科技争抢AI... 界面新闻记者 | 林倩冰 多家互联网平台金融机构正布局AI支付赛道,帮助AI Skill(AI能力...
低空安防新赛道成为热点,重载无... 深圳商报·读创客户端记者 苑伟斌 5月21日,2026世界无人机大会暨国际低空经济与无人系统博览会和...
外省救援队驱车25小时,星夜驰... 极目新闻记者 唐佳燕 柳之萌 胡秀文 据央视新闻5月21日消息,自5月17日8时以来,湖南石门遭遇今...
直击阳春河口镇水浸现场:救援队... 5月20日,阳江市阳春市遭遇特大暴雨袭击,多个镇街发布暴雨红色预警,教育局紧急发布停课通知。随着雨势...
龙华一小区消防水管爆管、水流外... 龙华区中海闻华里小区业主向奥一新闻反映,5月21日上午10点多,中海闻华里小区避难层消防水管发生爆管...
感知山东|梁山县开展火锅经营单... 为深入推进食品安全领域突出问题专项整治,规范火锅餐饮经营秩序,切实保障群众夏季饮食安全,近日,梁山县...
航拍广东阳江内涝!直击救援:村... 5月20日,广东阳江遭遇超级暴雨,漠阳江出现接近20年一遇洪水。 南都N视频记者获悉,20日晚,阳...
海峡两岸(福州)职工“三创”大... 福州新闻网5月21日讯(记者 李白蕾 通讯员 林小鹭)21日,第七届海峡两岸(福州)职工创新创业创造...
福建创新推出“你点我捐”:备份... 福州新闻网5月21日讯(记者 沐方婷)“这批合格备份样品用起来放心,但更珍贵的是背后这份心意——让孤...