我正在通过Kubernetes集群提供jupyter笔记本.我设置了resources.limits来防止有人耗尽所有主机服务器的内存.
虽然一个问题是jupyter笔记本内核崩溃并自动重启后,它们不会在容器超出内存后抛出任何OOM错误,这将使用户非常困惑.
那么如何在使用Kubernetes运行时让jupyter笔记本引发OOM错误?
如果您只有一个特定的pod,则可以监视事件/日志,as in here:
kubectl get events --watch
kubectl logs -f podname
话虽这么说,但并未正确报告pod lifecycle中的所有事件,如kubernetes/kubernetes
issue 38532和(废弃)PR 45682所示.
但你仍然应该看到OOMKilled:当码头工人检查吊舱时是真的.