为了避免人工智能可能带来的灾难，我们要向核安全学习

在最近几周，有一群声音很响的专家主宰了围绕人工智能的讨论。据他们所说，我们有可能创建一种人工智能系统，日后它可能会变得极其强大，甚至能够灭绝人类。

最近，一群科技公司领导者和人工智能专家发布了另一封公开信，他们宣称，降低人工智能导致人类灭绝的风险，应该与预防流行病和核战争一样，成为全球的优先事项。已经有超过30000人签署了第一份关于暂停人工智能开发的请愿书，其中包括许多在人工智能领域杰出的专家。

那么，科技企业该做什么才能让人类避免被人工智能毁灭呢?最新的一个建议来自牛津大学、剑桥大学、多伦多大学、蒙特利尔大学、谷歌 DeepMind、OpenAI、Anthropic、几家人工智能研究非营利组织和图灵奖得主约书亚·本希奥（Yoshua Bengio）的研究人员的一篇新论文。

他们建议，人工智能开发人员应该在开发的早期阶段，甚至在开始任何训练之前，评估模型造成“极端风险”的潜力。风险包括人工智能模型操纵及欺骗人类，以及获取武器或发现可利用的网络安全漏洞。

这个评估过程可以帮助开发人员决定是否继续使用这个模型。如果风险被认为太高，该组织建议暂停开发，直到风险得到缓解。

该论文的主要作者、DeepMind 的研究科学家托比•舍夫兰（Toby Shevlane）表示：“正在推进前沿领域的领先人工智能公司有责任关注新出现的问题，并尽早发现它们，以便我们能够尽快解决这些问题。”

据舍夫兰所言，人工智能开发者应该进行技术测试，以便了解模型的潜在危险能力，并确认它是否有利用这些能力的趋势。

游戏名为“让我说（make me say）”，用以测试人工智能语言模型是否具有操纵人的能力。在游戏中，模型会试图让人类猜测一个特定的单词，例如“长颈鹿”，而人类并不事先知道这个单词。然后，研究人员测量该模型成功的频率。

人们可以为不同的、更危险的能力创建类似的任务。舍夫兰说，希望开发人员能够建立一个详细的、描述模型运行情况的总览，这将使研究人员能够评估模型在错误的人手中会做出什么。

下一步是让外部审计人员和研究人员评估人工智能模型在部署前后的风险。虽然科技公司开始认识到外部审计和研究是必要的，但对于外部人员完成这项工作到底需要多大程度的访问权限，存在不同的观点。

舍夫兰并没有建议人工智能公司让外部研究人员完全访问数据和算法，但他表示，人工智能模型需要尽可能多的审查。

网络安全研究和咨询公司 Trail of Bits 负责机器学习保障的工程总监海蒂•赫拉夫（Heidi Khlaaf）表示，即使是这些方法也“不成熟”，远远不够严谨且无法解决问题。在此之前，她的工作是评估和核实核电站的安全性。

Seede AI

AI 驱动的设计工具

713 查看详情 Seede AI

赫拉夫指出，从80多年来有关核武器安全研究和风险缓解的经验中汲取教训，对人工智能领域将有所裨益。她表示，这些严苛的检测措施并非出于利润考虑，而是为应对一种非常紧迫的生存威胁而实施的。

她说，在人工智能领域，有很多将其与核战争、核电站和核安全相提并论的文章，但这些论文中没有一篇提到核法规或如何为核系统构建软件。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

（来源：STEPHANIE ARNETT/MITTR | ENVATO）

人工智能社区可以从核风险中学到的最重要一件事是可追溯性：将每一个动作和组成部分放在放大镜下进行细致的分析和记录。

例如，核电厂有数千页的文件来证明该系统不会对任何人造成伤害，赫拉夫说。人工智能开发的开发人员刚刚开始将描述模型表现的段落拼接起来。

“你需要有一种系统的方式来应对风险。你不能抱着一种心态：‘哦，这可能会发生，让我把它写下来。’”她说。

舍夫兰说，这些是可以共存的。“我们的目标是，该领域将有许多涵盖广泛风险的、优秀的模型评估方法……模型评估是良好治理的核心（但远不是唯一）工具。”

目前，人工智能公司甚至没有全面了解训练其算法的数据集，他们也没有完全理解人工智能语言模型是如何产生结果的。舍夫兰认为，这种情况应该改变。

“帮助我们更好地理解特定模型的研究，可能会帮助我们更好地应对一系列不同的风险，”他说。

如果忽略基本面和看似较小的问题，而只关注极端风险，可能会产生复合效应，进而带来更大的危害。赫拉夫说：“我们是在连爬都不会的情况下试图学会跑步。”

支持：Ren

以上就是为了避免人工智能可能带来的灾难，我们要向核安全学习的详细内容，更多请关注其它相关文章！

2023-06-11

了解您产品搜索量及市场趋势，制定营销计划