Kaggle Facial Keypoints Detection

这个教程真心不错，里面能够学到不少东西，比如FlipBatchIterator来在线提供不同的batch, EarlyStopping策略，以及Specialist来单独处理某些实例。

做这个题目最无奈的就是没有GPU/CUDA来加速CNN的训练，使用默认BatchIterator或者是作者给的FlipBatchIterator, 因为每轮(epoch)都要使用mini-batch方式来训练所有数据，在CPU主频3.5Ghz的电脑，一个epoch需要~240s也就是4min. 这个几乎不能忍受。虽然我仿照caffe的思路，为nolearn提供了 MiniBatchIterator 实现（每一个epoch不需要训练所有数据），但是速度依然不够。另外使用FlipBatchIterator感觉非常容易出现震荡(validation loss时高时低), 没有直接使用数据扩增后的数据效果好。不过有点是非常灵活，尤其是可以提供多种不同变化组合来进行数据扩增，比如这里

最后没有办法还是改用ANN。其实ANN的效果还行，而且训练速度也非常快，差不多一轮在1~2s左右，运行个400 epochs基本上就差不多了。但是ANN不能太深，超过3层之后大约在40 epochs之后就训练不动了，控制在2~3层就差不多了。

我使用的ANN没有增加dropout layer. 做这个题目的时候我重新思考了一下关于如何使用dropout layer. 最好不要一上来就开始加dropout, 只有确定出现overfitting情况的时候再开始添加。training和validation error差别很大的时候，可以认为出现overfitting. 出现overfitting的时候，首先应该考虑增加数据，然后考虑regularization(weight-decay or dropout, 比如在caffe里面如果使用weight-decay的话，那么就可以不要使用dropout). 增大数据和调整模型直到overfitting现象消失，然后再考虑增加模型复杂度来增加精确度，之后继续出现overfitting，这样不断迭代改进。

note(dirlt @ 2015-04-17): 判断出现overfitting一个标准应该是，training error不断下降但是validation error却保持稳定或者是震荡。今天借用了fzh师姐的一台GPU机器跑了一个CNN模型，效果确实比ANN好不少(从LB上看，ANN是3.08932，CNN是2.67626)。因为这个CNN我也没有增加dropout layer, 所以印象中后期应该是出现了overfitting的情况，但是当时觉得效果还不错就没有在做调整。