深度学习专题

顶尖研究机构

MSR
Facebook 的人工智能实验室 (FAIR, facebook AI research)

人员方面，有 Yann LeCun，有VC维和SVM的缔造者Vladimir Vapnik，提出随机梯度下降法的Léon Bottou，做出高性能PHP虚拟机HHVM的Keith Adams, 以及 Rob Fergus, Jason Weston, Marc'Aurelio Ranzato, Tomas Mikolov, Florent Perronnin, Piotr Dollar, Hervé Jégou, Ronan Collobert, Yaniv Taigman等
百度IDL

深度学习(deep learning)通用理论基础

深度学习的核心在于学习多层次的表示（distributed representations，对应不同程度的抽象），从而实现DIKW金字塔(data -> information -> knowledge -> wisdom).

Representation Learning: A Review and New Perspectives by Yoshua Bengio, et al., 2012

表示学习

greedy layerwise pre-training 将深度网络分解成几个浅层网络，每层用无监督方法训练

gradient-based learning

Restricted-Boltzman Machine

Stacks of RBMs forms a deep belief network (DBN) 即，受限玻尔兹曼机堆叠成为深度信念网络 Stacks of slightly modified RBMs can form a deep Boltzmann machine (DBM).

Autoencoders

Enery-based Models 分为有潜变量和无潜变量的情形；极大似然方法学习参数

CNN(卷积神经网络)专题

CNN 已经有了诸多成熟的架构

LeNet
AlexNet
googleNet

Going deeper with convolutions

VGG-Net

　very deep convolutional networks for large-scale image recognition

ShCNN

Shepard Convolutional Neural Networks by Jimmy SJ. Ren, et al., NIPS 2015

SenseTime(商汤科技，一家专注于计算机视觉和深度学习原创技术的中国公司)研究人员出品，代码在此。可用在超分辨率重建，图像修补等。
PlaNet

PlaNet - Photo Geolocation with Convolutional Neural Networks

谷歌的工作，仅用图片的像素来定位图片位置

RNN（recurrent neural networks, 循环神经网络）专题

本文是一些关于 RNN 的东西，更多资料参见Awesome RNN

RNN 是 Recursive Neural Nwtwork(递归神经网络，有时也被简写为 RNN) 的一种，其核心在于对当前的状态保留记忆（以隐变量的方式存在）。

给定输入序列 $(x_1,x_2, ..., x_T)$ , 一个标准的RNN通过如下迭代方程计算输出序列 $(y_1,y_2, ..., y_T)$ :

$h_t = sigma(W^{hx}x-t + W^{hh}h_{t-1})$

$y_t = W^{yh}h_t$

所谓的记忆重现，就体现在了 $h_t$ 与 $h_{t-1}$ 上了。

此外，注意到，RNN 各层之间共享一套参数（由此极大减少了待学习的参数数量），训练用到的是 BPTT(backpropagation through time)。

针对传统 RNN 的各种缺陷，有如下几种改进的 RNN 模型。

LSTM(long short term memory networks)

一般用 BPTT 训练 RNN 模型时会因为梯度坍塌/爆炸而无法捕捉远距离依赖，而 LSTM 专治此不服。Understanding LSTM Networks 是一篇不错的介绍文章，里面对 LSTM 有很生动的介绍。Andrej Karpathy 所写的 The Unreasonable Effectiveness of Recurrent Neural Networks 更是值得一读。RNN Tutorials 系列文章也写的很好，建议一读。

LSTM 目前已在诸多领域获得了成功，俨然已是最流行的 RNN 模型，谷歌的邮件智能回复系统也采用了 LSTM.
BirDirectional RNNs

核心想法：t时刻的输出不仅依赖于之前的序列，可能也要依赖于之后的序列
GRU(gated recurrent units)

包含一个重置门，一个进化门。相比 LSTM 少了一个输出门。

Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, by Bengio 等人
An Empirical Exploration of Recurrent Network Architectures by Rafal Jozefowicz, et al., Google

探讨 RNN 的内在机理。非常重要的一篇，待认真研读。
A Critical Review of Recurrent Neural Networks for Sequence Learning
Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks by Sami Bengio, et al., at Google.

定时采样

recurrent.js Karpathy 大神用　javascript 写的RNN库

更多请参考　Awesome RNN

神经变分推断(neural variational inference)

深度隐变量模型(deep latent variabl models)

Neural Variational Inference for Text Processing, by Yishu Miao, et al., Oxford, ICLR 2016, under review

RNTN（Recursive Neural Tensor Networks）递归神经张量网络

Memory Networks

End-to-End Memory Networks by Sainbayar Sukhbaatar, et al., 2015

#

如何在 sequence-2-sequence 任务中，实现对一些关键信息的‘保留’？比如我们在对话过程中，会出现“你好啊，我叫小S”，然后另一方要回答，“很高兴认识啊小S。”那么这个小S，也就是说实体信息或者日期信息等等，就是在对话的 input-output 中，被“复制”的。这个信息是应该“原封不动”地被保留，从 sequence2sequence 的输入端被复制到输出端的。现有的 end2end sequence2sequence 等模型，即使加了 attention 机制，也很难做到这点

Ptr-Net(pointer network) 关于指针网络，参考 http://fastml.com/introduction-to-pointer-networks/ 指针网络是序列-到-序列注意力模型的一种变体，是最近seq2seq比较火的一个分支，在基于深度学习的阅读理解，摘要系统中都被广泛应用。

CopyNet 提出了拷贝机制。