国家知识产权局信息显示,电子科技大学;中国电信股份有限公司四川分公司申请一项名为“一种面向大型语言模型安全对齐的动态失衡基准评估系统及方法”的专利,公开号CN121599094A,申请日期为2025年10月。
专利摘要显示,本发明涉及人工智能安全与大型语言模型评估技术领域,具体涉及一种面向大型语言模型安全对齐的动态失衡基准评估系统及方法,目的在于解决传统静态基准测试引起的模型安全对齐评估失真和对齐悖论问题。该系统包括:元学习驱动的自适应样本生成模块,采用元学习框架构建样本生成器,通过监测大模型响应模式自动识别对齐薄弱环节并生成新测试用例;双维关联指标计算模块,计算欺骗检测率DR量化意图偏离,和能力保持度PR评估核心能力保留;时序演化与阈值自适应模块,根据训练阶段动态调整阈值;多层级失衡场景库,包含700+的失衡场景,划分为四个层级;评估‑反馈‑优化闭环模块,将评估结果实时反馈至多层级联监督系统,根据DR和PR动态调整训练策略。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
来源:市场资讯