nvidia-smi で Failed to initialize NVML: Driver/library version mismatch が表示されたとき

解決方法

サーバーを再起動できる場合は再起動が望まれるが、再起動できない場合はカーネルモジュールを読み直すために、以下のコマンドを実行する。

# sudo rmmod nvidia_drm でエラーになる場合、以下の 4 行を実行
sudo systemctl stop gdm    
sudo systemctl isolate multi-user.target
sudo systemctl stop systemd-logind
killall gdm-x-session

# lsmod | grep nvidia で出てきたカーネルモジュールをアンロード
sudo rmmod nvidia_drm      
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia          # nvidia は必ず最後に kill する

nvidia-smi                 # 復旧確認(ここで恐らく自動的にモジュールがロードされる)

参考リンク

より細かい解説は、以下のサイトで別の方がされていますので、適宜ご参照ください。

https://stackoverflow.com/questions/43022843/nvidia-nvml-driver-library-version-mismatch
https://ryo-iijima.com/nvidia-smi-version-mismatch/
https://qiita.com/ell/items/be3d3527b723f70f888d

Tech ブログについて

今回はいきなりの投稿になりましたが、今後、エンジニアリングに関するノウハウやトラブルシューティングに関する記事を、徐々に増やしていく予定です。投稿内容は主に、弊社の開発で生まれた知識のうち、外部に公開しても問題のないものになります。ですので、投稿内容のジャンルに多少の偏りがあると思いますが、悪しからず…。