Yoshua Bengio为什么能跟Hinton、LeCun相提并论？？

Question

Yoshua Bengio为什么能跟Hinton、LeCun相提并论？？

Hinton的几种算法让深度神经网络work，带活了整个领域。 Lecun发明（改进？）了CNN，是目前计算机视觉最有用的模型。 Bengio的成就很…

关注者

1,448

被浏览

360,324

17 个回答

Bengio 的 "A neural probabilistic language model" 这篇论文开创了神经网络做 language model 的先河。里面的思路影响、启发了之后的很多基于神经网络做 NLP 的文章，并且这些文章的方法在工业界也被广泛使用，如 word2vec，又及最近的一些机器翻译模型。这篇文章的贡献并不比 Yann Lecun 在 CNN 上的工作逊色。再说最近又火起来的 RNN 吧，Bengio 在 94 年就对 RNN 为什么难以学到 long-term dependencies 做过深刻的研究（

IEEE Xplore Abstract

）。另外，他的 "Greedy Layer-Wise Training of Deep Networks" 对 Hinton 提出的 layer-wise 方法训练深度神经网络做了更系统的扩展和研究，让大家又重燃对深度神经网络的兴趣和信心。Bengio 的工作还拓展到神经网络的工具上，大名鼎鼎的 Theano (

Welcome — Theano 0.7 documentation

) 就是他们 group 的工作。

“三巨头”说法的另一个原因是他们三人在神经网络不被看好的年头还一直坚持研究神经网络，这就超出了学术能力而到达了学术品位和信仰的境界。他们三人活跃在 CIFAR （

Meet the Man Google Hired to Make AI a Reality

），这个对神经网络的命运啊有很大的关系（

How a Toronto professor’s research revolutionized artificial intelligence

）：

CIFAR “had a huge impact in forming a community around deep learning,” adds LeCun, the CIFAR program’s other co-director. “We were outcast a little bit in the broader machine learning community: we couldn’t get our papers published. This gave us a place where we could exchange ideas.”

个人很喜欢读 Bengio 的文章，读的时候有一种浑然天成的感觉，读完觉得“这个问题就该这么解决啊”。另外三巨头的文章、演讲都很有个性，基本不人云亦云。

编辑于 2015-11-27 00:29

ssaaaiiii 大力出奇迹 · Accepted Answer

2016年底更：

在过去两年yoshua最重要的两个工作应该是attention以及GAN了。可以看看现在用神经网络做nlp的，基本离不开attention，比如google上线的neural machine translation system(而实际上最早关于的neural machine translation文章也来自yoshua)。做generative model的基本离不开GAN，今年GAN在nips还开了个tutorial。

更新，关于bound：

题主应该是个数理基础很好的人，否则也不会纠结bound这个事。我个人很喜欢带bound的paper，前提是这个bound可以给人启发。我觉得对于证bound这个事见人见智，bound本身是个优美而严格的东西，但是为了证bound而最后给出一个丑的不行的下界从中得不到任何启发，我觉得并没有什么卵用，每年icml这么多bound paper，不少都是在做数学游戏，照着凸问题狂搞，较少人敢碰非凸问题的bound，大家一边喷神经网络没理论没bound，一边又都不敢碰，这就有点怂了。不过最近越来越多的人开始重新进军NN的bound问题，jordan组最近出了几篇不错基于pac learning 关于nn的可学习性的paper，那里面的bound还是挺精彩的。题主可以一睹。

再补充一点，我曾经当面问过他为什么不证bound，其实他早年搞过svm的时候也搞过bound，只是这事到神经网络的上面的时候太难了，能给出的bound都没有意义，有意义的bound又很难证。这不是他数学不好的问题，而是在之前一段时间整个机器学习界都很少有人碰这个问题，因为给不出有意义的bound。

所以不是“他数学太弱，连个像样的bound都证不出来。”（题主某评论，貌似已经删掉），其实他早年玩bound的玩的不知道高到哪里去了。而是他认为“有些bound即使证明出来了，因为跟实际差的太远，也没有任何价值”。

==========原答案===============

这几位教授在国际上对他们的评价基本都是“深度学习的活跃研究者”，“三巨头”这个说法是中国特色，基本类似于“四大金刚”，“十八罗汉”或者“葫芦娃七兄弟”的感觉，国人发现他们几个总是搞在一起谋划大事，而最新的成果又很多来源于他们三个，所以干脆一拍脑门起个狂霸酷炫的组合名字“深度学习三巨头”好了，这个称呼看看就好，认真你就输了。

若论资排辈，自然是hinton>lecun>bengio。

首先年龄上bengio最小。

hinton不用多说，经典工作堆成山，门下徒子徒孙遍地，lecun是hinton的postdoc，当年micheal jordan想去hinton门下读postdoc都被婉拒，而bengio又是jordan的postdoc。

虽说lecun不是cnn的发明人，但是他是第一个把bp用在cnn上并且完善cnn使得它可以在real application上work的人，也是自98年之后近20年的cnn第一推动者。

说回bengio，bengio当年在att lab工作时，组长就是lecun，lecun的经典文章bengio是三作，那片文章的4个作者如今都是大牛。（题外话，当时vapnik也在att lab，可想当时有多热闹）

所以资历上看，bengio资历浅。

但是这不妨碍bengio成为dl的几大贡献者，bengio的主要贡献在于：1.他对rnn的一系列推动包括经典的neural language model，gradient vanishing 的细致讨论，word2vec的雏形，以及现在的machine translation；2.他是神经网络复兴的主要的三个发起人之一（这一点他们三个人都承认，之前他们一直在谋划大事，正是他们三个人的坚持才有了现在的神经网络复兴，这点最高票答案说的很对）包括了pre－training的问题，如何initialize参数的问题，以denoising atuencoder为代表的各种各样的autoencoder结构，generative model等等。

3.symbolic computional graph思想的theano。这个库启发了后来的多个库的开发（直接基于它的库就不提了比如keras），包括国内很火的MXnet，google的tensorflow以及berkeley的cgt等等，可以说这个工具以及所涵盖的思想可以算同类型库的鼻祖。4.ICLR的推动者，个人认为ICLR是一种崭新的会议形式，包容开放，也正符合bengio本人的思想。5.其他paper。

说到除了bengio之外的人，不得不提的一个名字是：Jürgen Schmidhuber。

他是LSTM的共同发明人之一，gradient vanishing的贡献人，也是reccurent 结构的狂热推动者，手下得意门生比如alex grave等。Schmidhuber本人由于地处欧洲，和北美学术圈交流较少，而他本人脾气稍显不羁，所以跟另外三位交集没那么大，喜欢自己搞，此外他个人也是AGI的fans。但不得不说他对dl的贡献也是非常大。如果要我说dl贡献最大的几个人，我会把Schmidhuber也算进去。

他的主页：

Juergen Schmidhuber's home page -Universal Artificial Intelligence

综上，bengio的贡献足以让他进入最新一次神经网络复兴的前四名研究者了。

P.S. 个人比较喜欢数学理论清晰的工作，个人认为就数学严谨性而言，lecun >= bengio > hinton. 而三人的insight和intuition都是极好的。

编辑于 2016-12-18 05:20