OpenAI 最近发布了其最新的旗舰生成式模型 o1,它被宣传为一个“推理”模型。o1 在回答问题之前会花更多时间“思考”,分解问题并检查自己的答案。

虽然 o1 在许多方面还做得不好,OpenAI 自己也承认这一点,但在某些任务上,例如物理和数学,o1 表现出色,尽管它的参数数量并不比 OpenAI 之前的顶级模型 GPT-4o 多。(在 AI 和机器学习中,“参数”通常以数十亿计,大致对应于模型的解决问题能力)。

这给 AI 监管带来了新的思考。

例如,加州提出的法案 SB 1047 对开发成本超过 1 亿美元或训练计算能力超过一定阈值的 AI 模型施加了安全要求。然而,像 o1 这样的模型表明,扩大训练计算并不是提高模型性能的唯一途径。

Nvidia 研究主管 Jim Fan 在 X 上发帖指出,未来的 AI 系统可能依赖于小巧易于训练的“推理核心”,而不是最近的趋势——训练密集型架构(例如 Meta 的 Llama 405B)。他指出,最近的学术研究表明,像 o1 这样的小型模型在有更多时间思考问题的情况下,可以大大超过大型模型。

那么,将 AI 监管措施与计算能力挂钩是否过于短视?Cohere 研究实验室负责人 Sara Hooker 在接受 TechCrunch 采访时表示:

“[o1] 指出了将模型规模作为风险的替代指标的局限性。它没有考虑到在推理或运行模型时可以做的一切。对我来说,这是一种将不良科学与政策相结合的做法,这种政策强调的不是我们现在在世界上看到的当前风险,而是未来的风险。”

这是否意味着立法者应该从头开始重新起草 AI 法案?并非如此。许多法案的撰写都旨在易于修改,因为人们认为 AI 会在颁布后发展得远超预期。例如,加州的法案将赋予该州政府运营机构重新定义触发该法案安全要求的计算阈值的权力。

真正棘手的部分将是找出哪种指标可以比训练计算更好地代表风险。就像 AI 监管的许多其他方面一样,这是一个需要思考的问题,因为美国和世界各地的法案正在逐步通过。