nvidia-smi で Failed to initialize NVML: Driver/library version mismatch が表示されたとき
解決方法
サーバーを再起動できる場合は再起動が望まれるが、再起動できない場合はカーネルモジュールを読み直すために、以下のコマンドを実行する。
# sudo rmmod nvidia_drm でエラーになる場合、以下の 4 行を実行
sudo systemctl stop gdm
sudo systemctl isolate multi-user.target
sudo systemctl stop systemd-logind
killall gdm-x-session
# lsmod | grep nvidia で出てきたカーネルモジュールをアンロード
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia # nvidia は必ず最後に kill する
nvidia-smi # 復旧確認(ここで恐らく自動的にモジュールがロードされる)参考リンク
より細かい解説は、以下のサイトで別の方がされていますので、適宜ご参照ください。
https://stackoverflow.com/questions/43022843/nvidia-nvml-driver-library-version-mismatch
https://ryo-iijima.com/nvidia-smi-version-mismatch/
https://qiita.com/ell/items/be3d3527b723f70f888d
Tech ブログについて
今回はいきなりの投稿になりましたが、今後、エンジニアリングに関するノウハウやトラブルシューティングに関する記事を、徐々に増やしていく予定です。投稿内容は主に、弊社の開発で生まれた知識のうち、外部に公開しても問題のないものになります。ですので、投稿内容のジャンルに多少の偏りがあると思いますが、悪しからず…。


