手机版
位置:筑能财经 > 热点 >

Google DeepMind、OpenAI等最新研究:如何评估AI模型极端风险?

来源:手机网易网 | 2023-05-27 09:41:27

目前,构建通用人工智能(AGI)系统的方法,在帮助人们更好地解决现实问题的同时,也会带来一些意外的风险。

因此,在未来,人工智能的进一步发展可能会导致很多极端风险,如具有攻击性的网络能力或强大的操纵技能等等。

今天,Google DeepMind 联合剑桥大学、牛津大学等高校和 OpenAI、Anthropic等企业,以及 Alignment Research Center 等机构,在预印本网站 arXiv 上发表了题为“Model evaluation for extreme risks”的文章,提出了一个针对新型威胁评估通用模型的框架,并解释了为何模型评估对应对极端风险至关重要。


(相关资料图)

他们认为,开发者必须具备能够识别危险的能力(通过"危险能力评估"),以及模型应用其能力造成伤害的倾向(通过"对齐评估")。这些评估将对让决策者和其他利益相关方保持了解,并对模型的训练、部署和安全做出负责任的决策至关重要。

学术头条(ID:SciTouTiao)在不改变原文大意的情况下,做了简单的编译。内容如下:

为了负责任地推动人工智能前沿研究的进一步发展,我们必须尽早识别人工智能系统中的新能力和新风险。

人工智能研究人员已经使用一系列评估基准来识别人工智能系统中不希望出现的行为,如人工智能系统做出误导性的声明、有偏见的决定或重复有版权的内容。现在,随着人工智能社区建立和部署越来越强大的人工智能,我们必须扩大评估范围,包括对具有操纵、欺骗、网络攻击或其他危险能力的通用人工智能模型可能带来的极端风险的考虑。

我们与剑桥大学、牛津大学、多伦多大学、蒙特利尔大学、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作,介绍了一个评估这些新威胁的框架。

模型安全评估,包括评估极端风险,将成为安全的人工智能开发和部署的重要组成部分。

图|方法概述:为了评估来自新的、通用的人工智能系统的极端风险,开发者必须评估其危险能力和对齐水平。早期识别风险,可以使得在训练新的人工智能系统、部署这些人工智能系统、透明地描述它们的风险以及应用适当的网络安全标准时更加负责。

对极端风险进行评估

通用模型通常在训练中学习它们的能力和行为。然而,现有的指导学习过程的方法并不完善。例如,Google DeepMind 之前的研究已经探讨了人工智能系统如何学习追求人们不希望看到的目标,即使我们正确地奖励了它们的良好行为。

负责任的人工智能开发者必须更进一步,预测未来可能的发展和新的风险。随着持续进步,未来的通用模型可能会默认学习各种危险的能力。例如,未来的人工智能系统能够进行攻击性的网络活动,在对话中巧妙地欺骗人类,操纵人类进行有害的行为,设计或获取武器(如生物、化学武器),在云计算平台上微调和操作其他高风险的人工智能系统,或者协助人类完成任何这些任务,这都是可能的(尽管不确定)。

怀有不良意图的人可能会滥用这些模型的能力。或者,由于无法与人类价值观和道德对齐,这些人工智能模型可能会采取有害的行动,即使没有人打算这样做。

模型评估有助于我们提前识别这些风险。在我们的框架下,人工智能开发者将使用模型评估来揭开:

一个模型在多大程度上具有某些“危险的能力”,威胁安全,施加影响,或逃避监督。模型在多大程度上容易使用其能力来造成伤害(即模型的对齐水平)。有必要确认模型即使在非常广泛的情况下也能按预期行事,并且在可能的情况下,应该检查模型的内部运作情况。

这些评估的结果将帮助人工智能开发者了解是否存在足以导致极端风险的因素。最高风险的情况将涉及多种危险能力的组合。如下图:

图|构成极端风险的要素:有时,特定的能力可能会被外包,可以是交给人类(例如用户或众包工作者)或其他AI系统。这些能力必须被用于造成伤害,无论是因为滥用还是因为对齐失败(或两者皆有)。

一个经验法则:如果一个人工智能系统具有足以造成极端伤害的能力特征,假设它被滥用或无法对齐,那么人工智能社区应将其视为“高度危险”。要在现实世界中部署这样的系统,人工智能开发者需要展现出异常高的安全标准。

模型评估是关键的治理基础设施

如果我们有更好的工具来识别哪些模型是有风险的,公司和监管机构就能更好地确保:

负责任的训练:负责任地决定是否以及如何训练一个显示出早期风险迹象的新模型。负责任的部署:对是否、何时以及如何部署有潜在风险的模型做出负责任的决定。透明度:向利益相关者报告有用的和可操作的信息,以帮助他们应对或减少潜在的风险。适当的安全:强大的信息安全控制和系统适用于可能构成极端风险的模型。

我们已经制定了一个蓝图,说明了针对极端风险的模型评估应如何为训练和部署能力强大的通用模型的重要决策提供支持。开发者在整个过程中进行评估,并授权外部安全研究人员和模型审核员对模型进行结构化访问,以便他们进行额外的评估。评估结果可以在模型训练和部署之前提供风险评估的参考。

图|将针对极端风险的模型评估嵌入到整个模型训练和部署的重要决策过程中。

展望未来

在Google DeepMind和其他地方,对于极端风险的模型评估的重要初步工作已经开始进行。但要构建一个能够捕捉所有可能风险并有助于防范未来新出现的挑战的评估流程,我们需要更多的技术和机构方面的努力

模型评估并不是万能的解决方案;有时,一些风险可能会逃脱我们的评估,因为它们过于依赖模型外部的因素,比如社会中复杂的社会、政治和经济力量。模型评估必须与其他风险评估工具以及整个行业、政府和大众对安全的广泛关注相结合。

谷歌最近在其有关负责任人工智能的博客中提到,“个体实践、共享行业标准和合理的政府政策对于正确使用人工智能至关重要”。我们希望许多从事人工智能工作和受这项技术影响的行业能够共同努力,为安全开发和部署人工智能共同制定方法和标准,造福所有人。

我们相信,拥有跟踪模型中出现的风险属性的程序,以及对相关结果的充分回应,是作为一个负责任的开发者在人工智能前沿研究工作中的关键部分。

标签:

精彩放送

新闻资讯

  1. 全球时讯:符合哪些条件的可以提前申请退休
  1. 2023年广东退休人员养老金调整最新进展 上调方式及补发时间何时公布|全球微头条
  1. 小鹏汽车业绩亮“红灯”
  1. 天天新动态:钢厂减产动能趋弱
  1. 洛克王国轮回黑洞拼图任务_洛克王国轮回黑洞拼图怎么拼
  1. 德阳市人民政府副秘书长带队督导重点项目建设
  1. 我国风电光伏发电总装机突破8亿千瓦
  1. 心理学的诡计价格_心理学的诡计大全集
  1. 快消息!我该如何清洁薄纱?_异性女朋友过生日送什么礼物
  1. 【独家】宝山区助力老年朋友提升数字技能,共创友善数字社区
  1. 成都郫都区示范幼儿园城南园区招生补录程序及资料2023 当前讯息
  1. 环球通讯!期限日益临近 美国两党仍未就债务上限达成协议
  1. 哈啰顺风车开始测试自营拼车业务
  1. 抖音直播间怎么点赞主播详细介绍
  1. 今日热议:绝地求生怎么更新版本(steam平台怎么样)
  1. 调查 | 私装GPS跟踪窃听他人行踪?有人拿定位器动歪脑筋
  1. 全球看热讯:浙江云和县:校园“双减”球类联赛精彩纷呈
  1. 全球关注:以文塑旅 “景”上添花——宁夏非遗旅游渐入佳境
  1. 天天即时看!5月25日欧洲地区对二甲苯收盘价格上涨
  1. 入境游恢复近两月 外国游客纷至沓来-世界时快讯
  1. 祁山在哪里呢 祁山在哪里-环球报资讯
  1. 中国国家话剧院与爱奇艺达成战略合作,“CNT现场”首部作品《英雄时代》5月26日上线云影院
  1. 广东华兴银行:创新服务体系,探索科技金融新生态
  1. 环球热头条丨“田头小站”保障荔枝生长全生命周期 助力丰产丰收
  1. 比亚迪、长城汽车股价继续下挫 比亚迪跌超3%长城汽车跌超4% 环球快消息
  1. 世界视点!通勤服务公司中区分公司 “花式宣传”主题月
  1. 荞麦花开摇曳生姿 小杂粮产业带动农民增收致富
  1. 玩酷网络自助下单 玩酷vip
  1. 嘴里苦怎么回事怎么解决_嘴里苦怎么回事 天天新资讯
  1. 汇通财经整理:金属市场5月26日看点
  1. 金山区张堰镇获“中国曲艺之乡”称号 世界报资讯
  1. 注意!最高罚5万元!柳州发布最新通告|天天速看料
  1. 【碧蓝档案/枣伊吕波/同人文章】得来闲处,且适闲情
  1. 当前资讯!渭南联通总经理闫刚上任已数月 从商洛联通平调早年起步西安联通
  1. 当前热门:应收账款是负数是什么意思_应收账款负数是什么意思
  1. 郑州拟入选中央财政支持中医药传承创新发展示范试点 最新消息
  1. 今日报丨美联储5月会议纪要:继续加息尚存分歧 后续政策走向更依赖经济数据
  1. 电力ETF指数基金(560580)冲高1.20%,华电国际涨5.35%,华能国际涨2.02%
  1. 宁波隆洋投资管理有限公司-世界最新
  1. 当前要闻:2023年纺织和服装行业专题报告 美国和日本服装及化妆品行业疫后复盘
  1. 规范使用人工智能 助力维护司法公正
  1. vivo S17系列官宣:31日发布 1.5K双曲屏
  1. 剑指过往业绩展示 银行理财酝酿新规-每日热门
  1. 当前视点!今年买基金有这三大困惑?快进来看看吧
  1. 投资“鸡肋时间” 3招让你“变废为宝”!
  1. 北交所主题基金业绩回升 新基金密集成立 全球新资讯
  1. 联合信用:2023年城投企业区域分化持续 债务化解有五大信号 聚焦
  1. 聚和材料:5月25日融券净卖出4.36万股,连续3日累计净卖出5.6万股
  1. 巩固制造业升级发展良好态势 天天简讯
  1. 当前热议!教育部部署开展“2023高考护航行动”
  1. 穿越千年与历史相遇 这种方式最“窟”|世界快资讯
  1. 前沿生物:5月25日融资买入97.31万元,融资融券余额8316.13万元 视焦点讯
  1. 瞄准算力基础设施风口 9只相关主题ETF产品扎堆申报
  1. 世界微资讯!9只算力领域ETF密集申报 基金公司争夺细分领域结构性机会
  1. 怎么做清炖羊肉?
  1. 月余时间双方互相起诉 动视暴雪与网易“矛盾”再升级
  1. 进入u盘系统怎么修复系统文件-(进入u盘系统怎么修复系统文件)_每日视点
  1. 江苏“润心”行动织密学生心理健康关爱网 天天热推荐
  1. 天天速递!苹果手机刷机的方法(苹果手机刷机的方法教程视频)
  1. 焦点速看:反击!中国在南沙三岛礁布设灯浮标
  1. 即时看!句号在右上_句号怎么打在右下角
  1. “销售一空”!口岸免税店火爆回归_天天通讯
  1. 网易Q1游戏相关毛利率创近年新高,《蛋仔派对》带动业绩增长-世界微速讯
  1. 60魔兽插件文件夹在哪里_60魔兽插件
  1. 韩火火微博新浪超话_韩火火微博 环球新资讯
  1. 每日视讯:2700x配什么显卡(r71700x和2700x主板一样吗)
  1. 天天观点:扁食馅怎么做好吃 自制扁食馅
  1. 当前速读:美财政部账上现金不足500亿美元 下月初或无钱可用
  1. 当前简讯:认罪认罚具结书_认罪
  1. 生化总动员_关于生化总动员介绍|世界新消息
  1. 头条焦点:生员_关于生员介绍
  1. 比亚迪,又火了!_焦点短讯
  1. 今日观点!掐断交易?俄罗斯黄金:换个壳继续卖
  1. 安宁股份(002978):5月25日北向资金减持7.43万股-全球播报
  1. 初恋50次迅雷下载 RMVB 下载_初恋50次迅雷下载 天天热资讯
  1. 腊豆腐干的家常做法(豆腐干的家常做法)
  1. 胸有成竹的近义词是什么_胸有成竹的近义词介绍_世界动态
  1. 如何清理积碳最有效_如何清理积碳|全球热点
  1. 定罪通论
  1. 消息!小手拍拍歌词歌曲_小手拍拍歌词
  1. 108坊故事|华商报双仁府社区联系点成立_环球速看
  1. 小学成绩分析及改进措施(小学成绩多好能考上好一本)|世界热点评
  1. 腺苷怎么读_腺苷
  1. 【世界时快讯】无冠藤_关于无冠藤介绍
  1. 写在腾讯320_环球热文
  1. 环球速讯:最后的玩家(对于最后的玩家简单介绍)
  1. 宠物小精灵之mega进化_宠物小精灵之精灵猎手_热门看点
  1. 全球信息:弹弹堂萌小喵等级获得技能(弹弹堂萌小喵)
  1. 浙江宁波一医院门诊楼发生火灾 无人员伤亡
  1. 快播:嘉峪关市代表队在全省青少年速度滑冰锦标赛暨公开赛中获总奖牌数第一的好成绩
  1. 大规模裁员?阿里辟谣
  1. V观财报|晶科能源拟斥资560亿扩产 上交所:合理?有必要?
  1. 绿城管理控股(09979)将于7月26日派发特别股息每股约8.91港仙
  1. 刘亚仁的逮捕令被驳回,离开警察局后被人扔咖啡瓶、泼水-世界热点评
  1. 海力风电董监高陈海骏2023年05月24日减持3,400股,套现29.26万元 每日热讯
  1. 碱性氧化物与水反应方程式 碱性氧化物
  1. 哈萨克斯坦媒体人走进新疆霍尔果斯感知中华文化-今日热搜
  1. 精选!王曼昱4-1险胜!比孙颖莎陈梦赢得更艰难,马琳眉头紧锁很不满意
  1. 夺冠前夕多特给出承诺 官宣胡梅尔斯续约至2024年
  1. 法国蒙彼利埃大学DBA学费多少钱?附申请流程_世界看热讯