Sequence Models

1. RNN(Recurrent Neural Network)
2. Word Embedding
3. Machine Translation

1. RNN(Recurrent Neural Network)

序列模型针对输入是序列数据的应用，比如：语音识别(Speech Recoginition) 音乐生成(Music Generation) DNA顺序分析(DNA Sequence Analysis) 机器翻译(Machine Translation)

循环神经网络(模型Recurrent Neural Network Model)是一种序列模型。它仅仅是个模型，可以有许多中实现。标准的神经网络没有办法解决两个问题：1. 输入和输出要求是固定长度，虽然这个可以通过一些方法绕过去比如通过pad 2. 更重要的问题是没有办法分享在不同position上学习到的特征，因为序列数据也是存在相互关系的，而标准网络没有共享表示这些关系的参数，所以带来不必要的模型复杂度以及引入大量的无用参数。

RNN会考虑序列数据前后之间的联系。下图是RNN的两种表示方法，右边的比较简单，左边的则更加接近于现实。一个NN处理序列数据中的一个元素，然后将这些NN全部连接起来，之间通过状态数据（途中的a）来传递序列所包含的上下文信息。如果序列信息传递方向是单向的话，那么就是标准的RNN，不过有时候传递信息是双向的，就需要引入BRNN(Bidirectional RNN). 比如图中举的例子，“Teddy”必须看到后面”President”或者是 “Bears” 才能知道是总统还是熊。RNN的前向传播入下图所示，a<t>以a<t-1>和X<t>作为输入. 然后Y<t>以a<t>作为输入。

按照输入和输出区分，RNN有下面这些类型

通常RNN的深度比较大，容易出现vanishing gradient的问题。为了解决梯度消失的问题，实践中很少使用上图中navie的实现，而是更精巧的实现。这些实现可以解决梯度小时问题，并且可以将状态传递到更远的距离，从而可以学习更长的序列数据。GRU(Gated Recurrent Unit)和LSTM(Long Short-Term Memory)就是这两种实现。历史上，LSTM出现的更早也更加复杂，GRU在LSTM上改进产生的也更加简单，计算量也就更小。如果没有特殊需求或者是偏好的话，使用LSTM是个不错的选择，除非计算量过大或者是GRU明显更加适用时才使用GRU。

我觉得讨论Unit之前最好先看看实践中的网络是什么样的。

里面每个方格对应的是一个Unit，然后在每个时序对应的网络上，Unit是堆叠起来的。然后这个堆叠高度不能太大，否则数据量会非常大，通常控制在3层以内。我们可以选择性地将最上层的Unit作为输入，接入一个标准NN来得到最终的输出，而不是直接使用最上层的Unit作为输出。

下图是GRU的内部结构

其中c是内部状态，Tu(update gate)表示如何根据当前状态和上个状态确定下一个状态，Y根据c计算得出，Tr(relevance gate)表示上个状态和当前状态的关系。

LSTM相比GRU则引入了更多的状态，除了Tu(update gate)还有Tf(forget gate)以及To(output gate)

双向RNN(BRNN)和RNN非常类似，只不过除了传递前向状态之外，还增加了后向状态传递，前后状态共同决定输出。比如下图中y<2>, 由正向a<3>和反向a<3>共同决定，而反向a<3>则由x<3>和反向a<4>决定，反向a<4>由x<4>决定。BRNN要求输入序列是完整并且长度固定，但是在一些场景比如连续语音识别上，除非有刻意停顿否则很难认为输入已经完全ready。

2. Word Embedding

3. Machine Translation

这节主要说的应用是机器翻译(MT, machien translation). 在最开始也提到了image captioning. 这两个应用非常相似，差别在于MT输入是自然语言，而后面一个应用输入是图像。使用的模型都是课程最开始提到的many-to-many RNN. 因为Tx != Ty, 所以确切地说是右下方的模型。

这种many-to-many RNN分为两个部分：encoder-decoder. encoder是将输入编码，decoder部分则负责解析编码然后输出。

我们还是以MT为例，有几个问题需要解决：

在输出过程中，如果有多个选项，如何进行选择(beam search, length norm)
如何对错误分析，定位是encoder还是decoder问题(error analysis)
对结果如何评判好坏(Bleu, Bilingual evaluation understudy)
如何解决翻译长输入问题(attention model)

在输出阶段，如果每个step都是选择概率最大输出的话(greedy search), 并不能保证最终输出序列的概率最大。P(y<t> | x, y<1>, y<2>, … y<t-1>) 最大，不能保证P(y<Ty>, y<Ty-1> … y<1> | x)最大。我们可以使用beam search（束搜索）来改进，原理就是同时保持B个当前观察到的最大概率序列。很明显B越大，选择到最大概率的输出序列的几率也就越大，但是同时会耗费更多的计算和内存资源。通常产品中B=100左右，研究时选择B=1000 or 10000这样。

在beam search时，概率是相乘的，但是数值稳定性不好，所以可以改成log然后相加。此外，随着Ty越大，概率越小，所以为了可以平衡长语句的概率，用length norm操作。具体地说就是乘以 1 / (Ty ** alpha) 来平衡。默认alpha是1，如果我们希望输出长语句的话，可以将alpha减小比如0.7, 0.2这样。

我们在做错误分析时，假设输出是y^, 而人类的标准是y*，那么我们可以对比P(y^|x)和 P(y*|x)来确定是encoder or decoder需要改进:

如果P(y^|x) > P(y* |x)的话，说明我们认为选择比人类的要好（而事实上是不可能的），所以我们倾向认为encoder部分没有学习到足够的特征
如果P(y^|x) < P(y*|x)的话，那么说明事实上我们存在更好的选择序列，但是却没有找到，是decoder部分的问题，所以应该加大B值。

我理解这种encoder/decoder有个很大的问题，就是如果encoder阶段输出状态不够大，或者是没有办法将序列性质（比如某个词的翻译可能和前后几个词相关）包含进去的话，那么在输出长句时效果会很差。Attention Model 将decoder放在encoder之上，而不是之后，来解决翻译长句的问题。以下图为例，encoder是一个BRNN, decoder每个unit的输入包含多个附近的encoder的输出。其中alpha<t, t’> 表示 encoder的a<t’>对 y<t>的影响因子。

Sequence Models

Table of Contents

1. RNN(Recurrent Neural Network)

2. Word Embedding

3. Machine Translation