【tensorflow2.0】优化器optimizers

前端之家收集整理的这篇文章主要介绍了【tensorflow2.0】优化器optimizers前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

机器学习界有一群炼丹师,他们每天的日常是:

拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。

不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。

机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或者模型设计的问题,很可能就是优化算法的问题。

深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。

详见《一个框架看懂优化算法之异同 SGD/AdaGrad/Adam》

https://zhuanlan.zhihu.com/p/32230623

对于一般新手炼丹师,优化器直接使用Adam,并使用其默认参数就OK了。

一些爱写论文的炼丹师由于追求评估指标效果,可能会偏爱前期使用Adam优化器快速下降,后期使用SGD并精调优化器参数得到更好的结果。

此外目前也有一些前沿的优化算法,据称效果比Adam更好,例如LazyAdam,Look-ahead,RAdam,Ranger等.

一,优化器的使用

优化器主要使用apply_gradients方法传入变量和对应梯度从而来对给定变量进行迭代,或者直接使用minimize方法对目标函数进行迭代优化。

当然,更常见的使用是在编译时将优化器传入keras的Model,通过调用model.fit实现对Loss的的迭代优化。

初始化优化器时会创建一个变量optimier.iterations用于记录迭代的次数。因此优化器和tf.Variable一样,一般需要在@tf.function外创建。

  1. import tensorflow as tf
  2. numpy as np
  3. # 打印时间分割线
  4. @tf.function
  5. def printbar():
  6. ts = tf.timestamp()
  7. today_ts = ts%(24*60*60)
  8. hour = tf.cast(today_ts//3600+8,tf.int32)%tf.constant(24)
  9. minite = tf.cast((today_ts%3600)//60,tf.int32)
  10. second = tf.cast(tf.floor(today_ts%60),tf.int32)
  11. timeformat(m):
  12. if tf.strings.length(tf.strings.format("{}",m))==1:
  13. return(tf.strings.format(0{}"else tf.strings.join([timeformat(hour),timeformat(minite),timeformat(second)],separator = :)
  14. tf.print(=========="*8,end = ""print(timestring)
  15. f(x) = a*x**2 + b*x + c的最小值
  16. 使用optimizer.apply_gradients
  17. x = tf.Variable(0.0,name = x tf.float32)
  18. optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)
  19. @tf.function
  20. minimizef():
  21. a = tf.constant(1.0)
  22. b = tf.constant(-2.0)
  23. c = tf.constant(1.0)
  24. while tf.constant(True):
  25. with tf.GradientTape() as tape:
  26. y = a*tf.pow(x,2) + b*x + c
  27. dy_dx = tape.gradient(y,x)
  28. optimizer.apply_gradients(grads_and_vars=[(dy_dx,x)])
  29. 迭代终止条件
  30. if tf.abs(dy_dx)<tf.constant(0.00001):
  31. break
  32. if tf.math.mod(optimizer.iterations,100)==0:
  33. printbar()
  34. tf.step = x = )
  35. y = a*tf.pow(x,1)"> c
  36. return y
  37. tf.y =x =
  38. ================================================================================10:50:09
  39. step =  100
  40. x =  0.867380381
  41. ================================================================================10:50:09
  42. step =  200
  43. x =  0.98241204
  44. ================================================================================10:50:09
  45. step =  300
  46. x =  0.997667611
  47. ================================================================================10:50:09
  48. step =  400
  49. x =  0.999690652
  50. ================================================================================10:50:09
  51. step =  500
  52. x =  0.999959
  53. ================================================================================10:50:09
  54. step =  600
  55. x =  0.999994457
  56. y = 0
  57. x = 0.999995172
  1. 使用optimizer.minimize
  2. )
  3. f():
  4. a = tf.constant(1.0)
  5. y = a*tf.pow(x,2)+b*x+c
  6. (y)
  7. @tf.function
  8. def train(epoch = 1000):
  9. for _ in tf.range(epoch):
  10. optimizer.minimize(f,[x])
  11. tf.epoch = (f())
  12. train(1000)
  13. tf.y =

epoch = 1000

y = 0

x = 0.99999851

  1. f(x) = a*x**2 + b*x + c的最小值
  2. # 使用model.fit
  3. tf.keras.backend.clear_session()
  4. class FakeModel(tf.keras.models.Model):
  5. def __init__(self,a,b,c):
  6. super(FakeModel,self).()
  7. self.a = a
  8. self.b = b
  9. self.c = c
  10. build(self):
  11. self.x = tf.Variable(0.0,1)">)
  12. self.built = True
  13. call(self,features):
  14. loss = self.a*(self.x)**2+self.b*(self.x)+self.c
  15. return(tf.ones_like(features)*loss)
  16. myloss(y_true,y_pred):
  17. tf.reduce_mean(y_pred)
  18. model = FakeModel(tf.constant(1.0),tf.constant(-2.0),tf.constant(1.0))
  19. model.build()
  20. model.summary()
  21. model.compile(optimizer =
  22. tf.keras.optimizers.SGD(learning_rate=0.01),loss = myloss)
  23. history = model.fit(tf.zeros((100,2)),tf.ones(100),batch_size = 1,epochs = 10) 迭代1000次
  24. tf.x=loss=
  25. Model: fake_model"
  26. _________________________________________________________________
  27. Layer (type)                 Output Shape              Param #   
  28. =================================================================
  29. Total params: 1
  30. Trainable params: 1
  31. Non-trainable params: 0
  32. Epoch 1/10
  33. 100/100 [==============================] - 0s 901us/step - loss: 0.2481
  34. Epoch 2/10
  35. 100/100 [==============================] - 0s 940us/step - loss: 0.0044
  36. Epoch 3/10
  37. 100/100 [==============================] - 0s 926us/step - loss: 7.6740e-05
  38. Epoch 4/10
  39. 100/100 [==============================] - 0s 908us/step - loss: 1.3500e-06
  40. Epoch 5/10
  41. 100/100 [==============================] - 0s 909us/step - loss: 1.8477e-08
  42. Epoch 6/10
  43. 100/100 [==============================] - 0s 965us/step - loss: 0.0000e+00
  44. Epoch 7/10
  45. 100/100 [==============================] - 0s 842us/step - loss: 0.0000e+00
  46. Epoch 8/10
  47. 100/100 [==============================] - 0s 828us/step - loss: 0.0000e+00
  48. Epoch 9/10
  49. 100/100 [==============================] - 0s 837us/step - loss: 0.0000e+00
  50. Epoch 10/10
  51. 100/100 [==============================] - 0s 936us/step - loss: 0.0000e+00
  52. x= 0.99999851
  53. loss= 0

二,内置优化器

深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。

在keras.optimizers子模块中,它们基本上都有对应的类的实现。

    @H_404_349@

    SGD,默认参数为纯SGD,设置momentum参数不为0实际上变成SGDM,考虑了一阶动量,设置 nesterov为True后变成NAG,即 Nesterov Acceleration Gradient,在计算梯度时计算的是向前走一步所在位置的梯度。

    @H_404_349@

    Adagrad,考虑了二阶动量,对于不同的参数有不同的学习率,即自适应学习率。缺点是学习率单调下降,可能后期学习速率过慢乃至提前停止学习。

    @H_404_349@

    RMSprop,考虑了二阶动量,对于不同的参数有不同的学习率,即自适应学习率,对Adagrad进行了优化,通过指数平滑只考虑一定窗口内的二阶动量。

    @H_404_349@

    Adadelta,考虑了二阶动量,与RMSprop类似,但是更加复杂一些,自适应性更强。

    @H_404_349@

    Adam,同时考虑了一阶动量和二阶动量,可以看成RMSprop上进一步考虑了Momentum。

    @H_404_349@

    Nadam,在Adam基础上进一步考虑了 Nesterov Acceleration。

 

参考:

开源电子书地址:https://lyhue1991.github.io/eat_tensorflow2_in_30_days/

GitHub 项目地址:https://github.com/lyhue1991/eat_tensorflow2_in_30_days

猜你在找的Tensorflow相关文章