谷歌拉响通用人工智能警报,首次公开AI安全防御蓝图
IT之家 4 月 4 日消息,科技媒体 WinBuzzer 昨日(4 月 3 日)发布博文,报道称谷歌旗下 DeepMind 最新发布全球 AGI(通用人工智能)安全框架,呼吁在技术失控前建立跨国防护机制。
DeepMind 认为 AGI 即将落地,主张立即行动。AGI 可能将在未来数年实现人类级认知能力,其自主决策特性可能加速医疗、教育等领域的突破,但滥用、目标错位等风险亦需警惕。
谷歌 DeepMind 发布《技术性 AGI 安全与保障方法》白皮书,提出应对通用人工智能(AGI)潜在风险的系统性方案。
IT之家援引博文介绍,报告聚焦四大风险领域(滥用、错位、事故、结构性风险),提出通过安全机制设计、透明化研究及行业协作降低危害。
而目标错位是 AGI 核心风险之一。当 AI 为完成任务采取非常规手段(如入侵订票系统获取座位),即产生与人类意图的偏差。DeepMind 通过“放大监督”技术训练 AI 识别正确目标,并利用 AI 自评(如辩论机制)提升复杂场景下的判断力。
DeepMind 提出的国际安全框架摒弃抽象伦理讨论,聚焦技术快速演进中的实际问题,包括组建类似核不扩散条约的跨国评估机构、设立国家级 AI 风险监测中心等。
谷歌 DeepMind 提出强化技术研究、部署预警系统、通过国际机构协调治理三大支柱方案,强调当前亟需限制 AI 网络攻击等危险能力。
DeepMind 的倡议并非孤立行动。竞争对手 Anthropic 于 2024 年 11 月警告需在 18 个月内遏制 AI 失控,并设置能力阈值触发保护机制;Meta 在 2025 年 2 月推出《前沿 AI 框架》,停止公开高危模型。
安全防护已延伸至硬件领域。英伟达 2025 年 1 月推出 NeMo Guardrails 微服务套件,实时拦截有害输出,目前应用于医疗、汽车等行业。
-
一季度全国规上文化企业营业收入增长6.2%
中新经纬4月29日电 国家统计局网站29日披露的数据显示,2025年一季度全国规模以上文化及相关产业企业营业收入增长6.2%。具体来看,据对全国8.0万家规模以上文化及相关产业企业(以下简称“文化企业”)调查,2025年一季度,文化企业实现营业收入33939亿元,按可比口径计算,比上年同期增长6.2
时间:2025-04-29 10:19:00 -
特斯拉公布Semi工厂建设进展及全新标识,预计首批量产车年底下线
IT之家 4 月 29 日消息,特斯拉今日发布了一段视频,展示了其位于内华达超级工厂附近的 Semi 电动卡车专属生产基地建设情况,并首次公开该车型专属标识设计方案。 特斯拉 Semi 项目负责人 Dan Priestley 表示:“我们在过去数月中已经完成了厂房主体结构建设,包括墙体、立柱与混凝土
时间:2025-04-29 10:09:00 -
天津自贸试验区打造特色产业链,为区域协同贡献“天津经验”
津云新闻讯:4月27日,天津市政府新闻办组织召开“实施自贸试验区提升战略 打造制度型开放新高地”新闻发布会,滨海新区区长、天津自贸试验区管委会常务副主任单泽峰表示,向改革要动力、向创新要活力是天津自贸试验区十年建设发展的成功经验。天津自贸试验区将创新“基因”融入高质量发展“血脉”,坚持以首创性、
时间:2025-04-28 08:51:00 -
招320人!杭州外国语学校招生方案发布,明天开始报名
刚刚,杭州外国语学校正式发布2025年招收初一新生方案。今年将面向杭州市主城区(上城区、拱墅区、西湖区、滨江区、钱塘区和西湖风景名胜区)招收8个班,共320人。网上报名时间自2025年4月28日12时至5月13日12时止。今年将继续采取学生自主报名、按一定比例电脑派位、组织语言学习能力测评的办法,根
时间:2025-04-27 20:00:00 -
新版国家卫生监督抽查计划发布,首次明确打击网络“医托”等
国家疾控局等3部门近日联合发布医疗卫生领域《2025年国家随机监督抽查计划》。相较于2024年计划,2025年计划在监管范围等方面作出调整,新增互联网诊疗、精神卫生等监管领域,并首次明确打击网络“医托”等新型违法行为,进一步强化公共卫生和医疗秩序治理。与2024年计划相比,医药费用、高值耗材使用、医
时间:2025-04-27 09:15:00