AlphaCode惊世登场：编程版“阿法狗”悄悄参赛，击败一半程序员

来源|量子位

今天，DeepMind 的“Alpha”家族再添一名新成员：会刷编程竞赛题的 AlphaCode 来了！

其实，AlphaCode 早在几个月前就“悄悄进村”了，一直没人察觉。它默默参加了著名网站 Codeforces 最近举行的 10 场编程比赛，成绩超过了一半人类。

直到今天 DeepMind 才公布最终成绩：AlphaCode 在这 10 场比赛中排名前 54.3%，Elo 评分 1238。

更重要的是，在编程比赛这样考察算法创造力的问题中，AI 终于不落下风，而这恰恰是 AI 过去所欠缺的。

如果把这个分数放到过去六个月总体来看，AlphaCode 的成绩更为优秀，因为它只刷了 10 周的题目，就已经达到了前 28% 用户的水平。

Codeforces 是一个由俄罗斯程序员 Mikhail Mirzayanov 创办的编程竞赛网站，大约每周举行一次名为“Codeforces Rounds”的编程比赛。

通过 Codeforces 的 Elo 评分可以衡量一位程序员的编程水平。

△ Codeforces 创始人 Mikhail Mirzayanov

当看到 AlphaCode 的成绩后，连创始人 Mirzayanov 都惊讶不已。

他原本对 AI 持怀疑态度，因为编程比赛考验的是发明算法的能力，这是最困难的，没想到 AlphaCode 的结果完全超出了他的预期。

DeepMind 发布这条消息仅半天，在 Twitter 上已经有 2000 多次转发、5000 多点赞。

AlphaCode 如何编程

说了这么多，下面我们来看看 AlphaCode 是如何成为“编程做题家”的。

以下是 Codeforces 上的 1553D 问题：（链接：https://codeforces.com/ problemset / problem / 1553 / D）

有两个字符串 s 和 t，都是由小写字母组成。对于字符串 s，我们从前向后扫描整个字符串。

如果按下 Backspace 键，就删除该光标前到上一个未删除字符之间的所有字符。

例如字符串 s 是”abcbd”，你分别在第一个位置和第四个位置按下 Backspace，那么将得到字符串”bd”。

因为在第一个光标位置前没有字符，所以第一次没有动作。第四个光标位置前的字符是 c，上一个未删除字符是 a，所以按下 Backspace 将删除前三个字符”bd”。

好了，现在问题来了：

我们能否从前向后扫描一次 s 字符串, 让 s 变为 t。如果可以输出 YES，否则输出 NO。

AlphaCode 给出的代码是这样的：

向以上程序输入 4 组字符串：

得到的输出是：

在这里，AlphaCode不再是黑箱。

它不仅成功解决了问题，还能将代码和注意力高亮的对应位置显示出来。

一位网友表示：既然 AI 能看得这么细，那么如果能在代码后面加入注释就更好了。

至于更多的案例，可以去 AlphaCode 网站观摩。

原理

DeepMind 说，在 Codeforces 比赛中所需解决问题的能力，已经超出了现有 AI 系统的能力。

整个 AlphaCode 模型的流程如下：

用标准的语言建模目标在 GitHub 代码上预训练一个基于 Transformer 的语言模型。这个模型可以合理地代表人类编写代码的空间，大大减少了问题的搜索空间。

在竞争性编程数据集上微调模型，使用 GOLD 与 tempering 作为训练目标，进一步减少了搜索空间，并利用预训练弥补了少量的竞争性编程数据。

为每个问题从模型中生成非常多的样本。

对样本进行过滤，以获得一小部分候选提交的样本（最多 10 个），在隐藏的测试案例上进行评估，方法是利用实例测试和聚类，根据程序行为挑选样本。

总而言之，通过将大规模 Transformer 模型与大规模采样和过滤相结合，DeepMind 在可以解决的问题数量方面取得了重大进展，比之前的工作高出一个数量级。

刷题人士抵触

正如 Codeforces 创始人所说，在编程问题中对算法的发明创造是最难的。

在全球编程比赛网站上常年排名前几的谷歌工程师 Petr Mitrichev 说：解决编程比赛问题是一件非常困难的事情。它既需要良好的代码技能，也需要人类解决问题的创造力。

AlphaCode 不是第一个编程工具，Codex 以及 GitHub Copilot 都给人留下了深刻的印象。

但 DeepMind 认为，AlphaCode 和前辈们大有不同：最近的大规模语言模型展示了生成代码的惊人能力，现在能够完成简单的编程任务。然而，当对更复杂、看不见的问题进行评估时，这些模型的表现仍然很差，这些问题需要解决问题的技能，而不仅仅是将指令翻译成代码。

与 Twitter 上截然不同的是，Codeforces 高手们却多有抵触情绪。

一位程序员认为：“这个 AI 真是个菜鸟。”

因为 AlphaCode 只有1238分，只相当于一个学生水平，一个参加信息学奥赛的中学生也能刷到这个水平。

虽然 DeepMind 声称 AlphaCode 是为了辅助人类，但也有程序员开始担心了：

现在连刷题的世界都被AI占领，本来这里是程序员们切磋的地方，AI应该适可而止，给程序员们留一片净土吧！

全国电力领域人工智能算法大赛在深圳举办

广东能源领域大规模设备更新和节能改造(煤电专场)对接会成功举办

第17届国际太阳能光伏与智慧能源(上海)大会在沪开幕

长三角区域生态环境保护协作小组第四次工作会议召开

生态环境部：加快研究发布电力、煤炭、燃油等碳足迹核算方法

湖北省洪湖市经开区100MW/200MW•h钠离子储能电站示范项目全面开工

福建福州台商投资区污水处理厂项目正式开工!

天津首个110千伏“光伏电站自配储能”项目并网投运

广东惠州抽水蓄能电站累计发电逾300亿千瓦时！

裕民铁列克提10万千瓦储能配置40万千瓦风电项目首台风机完成吊装

欧洲太阳能展主办方负责人：中国光伏产业助力欧洲能源转型

隆基钟宝申：供给需求双发力推动光伏行业高质量发展

王莉霞：2023年内蒙古外送电量3065亿度相当于3个三峡工程年发电量

鞠建东：中国新能源产品远没有达到去产能的阶段

北大副校长董志勇：警惕中国新能源“产能过剩”的言论陷阱

国家能源局：一季度光伏发电新增并网容量3365.6万千瓦

龙源电力敦煌480兆瓦风电项目全容量并网

南方电网加快AI领域探索实践

全球最大风电试验平台投运！

爱旭颠覆性“满屏”新品全球首发，光伏行业迈入25%+量产效率新时代！

新能源产业托起绿色低碳城市未来

AlphaCode惊世登场：编程版“阿法狗”悄悄参赛，击败一半程序员

来源|量子位