我使用C将我的图像数据转换为caffe db格式(leveldb,lmdb),例如我将此
代码用于
imagenet.
是否需要对数据进行洗牌,我可以写入所有积极因素,然后写入所有负面信息,例如00000000111111111,或者数据是否需要洗牌,标签应该看起来像010101010110101011010?
来自DB的caffe样本数据如何使用size = batch_size的所有数据的随机子集?
你应该把样品洗牌吗?如果你不洗牌,想想学习过程; caffe只看到0个样本 – 你期望算法推断出什么?只是简单地预测0,一切都很酷.如果你在达到第一个之前有足够的0,那么caffe将非常有信心预测总是0.从这一点开始移动模型是非常困难的.
另一方面,如果它经常看到0和1的混合,它从一开始就学习分离示例的有意义的特征.
底线:对训练样本进行洗牌非常有利,特别是在使用基于SGD的
方法时.
AFAIK,caffe不会随机抽样batch_size样本,而是在batch_size样本之后顺序遍历输入数据库batch_size.
TL; DR洗牌.