前沿谷歌DeepMind最新论文,解决「红蓝帽子」难题(附论文下载)

只看楼主收藏回复

楼主

来自Newscientist

机器之心编译出品

参与：李九喻

进入公众号界面，回复数字24，可下载本文所涉及的论文：Learning to Communicate to Solve Riddles with Deep Distribute Recurrent Q-Networks

先试着回答一个问题。

有一天，狱警别出心裁的想出了一种独特的囚犯特赦机制。他们让100名囚犯依次站成一纵队，每人戴一顶红色或蓝色的帽子，每个囚犯可以看到前面所有人的帽子——但看不见自己及后面人的帽子（比如，最后一个能看到前面99个人帽子颜色，但看不到自己的，倒数第二个死囚能看到前面98人帽子的颜色，但看不到自己及后面1个人的帽子，以此类推）。从队尾开始，狱警要问每个囚犯自己帽子的颜色。如果回答正确，他们将被赦免。在排队之前，囚犯们被允许可以一起商量，设计出一套回答问题的策略。他们应该怎么做？

是不是很难？谷歌的人工智能却没有被难倒。由谷歌的DeepMind团队开发的深度神经网络——一个教会自己打几十款经典街机游戏的软件——现在也可以解决像这样的难题。据说这道难题也是谷歌的面试问题之一。

问题的答案可以在未来帮助一起工作的机器人通过信息分享来解决难题。「这是朝人工智能之间的沟通和协作跨出的第一步。」与谷歌DeepMind团队一起合作研究，来自牛津大学的Jakob Foerster说道：「从长远来看，这会给人工智能增加更多扩展性，并允许它们解决以前不可能解决的问题。」

解决帽子谜语的方法是把每个人都被塑造成一个独立的智能代理。每个个体知道自己能看到的帽子颜色，各自决定怎么告诉别人，然后再使用共同的信息得出答案。

DeepMind此次使用了分布式深度递归网络（DDRQN），它使得每个代理能够学会解决基于通信的协作任务。在这些任务中，代理没有获得任何事先设定的通信协议。因此，它们为了成功的通信，必须首先自动的开发出它们自己的通信协议并在相互间达成一致。根据这些多代理学习问题的实证结果，分布式深度递归网络成功的解决了这些问题，并发现了完成这项工作所需要的优雅简洁的通信协议。这是第一次增强深度学习成功的学会通信协议。同时，DeepMind团队还提出了ablation experiments，证实了分布式深度递归网络架构中每一个核心部件的重要性。

在学习玩电脑游戏时，人工智能已经在很大程度上学会了如何解决问题。「他们有不同于人类的解决问题协议。」Foerster说，「我们还没有完全理解这些方案，但我们知道它们行得通。」

©本文由机器之心原创编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn

机器之心是Comet Labs旗下的前沿科技媒体。Comet Labs是由联想之星发起、独立运作的全球人工智能和智能机器加速投资平台，携手全球领先的产业公司和投资机构，帮助创业者解决产业对接、用户拓展、全球市场、技术整合、资金等关键问题。旗下业务还包括：Comet旧金山加速器、Comet北京加速器、Comet垂直行业加速器。

↓↓↓点击「阅读原文」查看机器之心网站，获取更多精彩内容。

送TA礼物

举报 | 1楼回复

发表回复

发帖请遵守贴吧协议及“七条底线”

推荐热门榜

友情链接

前沿 谷歌DeepMind最新论文,解决「红蓝帽子」难题(附论文下载)

前沿谷歌DeepMind最新论文,解决「红蓝帽子」难题(附论文下载)