华为显卡检测不到问题排查
👁️ 阅读数: 次
报错示例
- npu-smi info 出现-8005报错
- lspci | grep d500 输出为空
- ls -l /usr/local/Ascend 能看到driver等目录 说明驱动安装过,但是硬件启动失败
快速解决方式
- 断电重启 断电时间需大于1分钟,后在重新上电重启
重启后,用lspci | grep d500命令,是否有输出
lspci | grep d500有输出,再用npu-smi info 确认显卡状态;如果有展示,则显卡已正常;无显示 跳转步骤5
npu-smi info步骤2 3都正常输出,则可bash /home/cgnee/trueno3/docker_run.sh启动算法服务
cd /home/cgnee/trueno3 bash docker_run.sh && docker logs -fn 100 trueno3- 步骤2 3 都无输出,则驱动需卸载后重新安装(见卸载重新安装部分教程)
卸载老驱动和固件
- 查看固件信息
dpkg -l | grep Ascend - 如果看到类似 firmware字样 则执行如下命令卸载固件 (注意替换成实际的值)
未看到上述字样,则跳转到步骤3
sudo /usr/local/Ascend/firmware/script/uninstall.sh - 查看驱动信息
dpkg -l | grep Ascend - 如果看到类似 ascend310p-driver字样 则执行如下命令卸载固件
sudo /usr/local/Ascend/driver/script/uninstall.sh - 重启系统
reboot - 重启完成 切换root用户;清理残留Ascend目录文件
rm -rf /usr/local/Ascend
安装驱动和固件
| 必须先驱动后固件 |
|---|
- 安装驱动前必须能检测到显卡 检测不到 则按照 快速解决方式以及卸载老驱动和固件步骤解决直到如下命令有输出
lspci | grep d500 查看系统版本
uname -a| linx 一般是凝思系统 | | ------------------------------------------------- | | ky10 一般是麒麟v10系统 | | oe或openEuler 是欧拉系统 | | ubuntu 一般会有类似字样 | | PS: 请特别注意后面的arm64 和 x86 驱动区分cpu架构 |
- 进入/home/cgnee/trueno3/driver (默认一键部署目录是此目录,如不是请切换到对应目录,同目录下有docker_run.sh driver文件夹等)
# 此目录默认存在kylin linx 等目录 cd /home/cgnee/trueno3/driver - 按照步骤1 确认到的系统 进入到对应目录 本例以linx 凝思系统为例
# 此目录默认存在kylin linx 等目录 cd linx - 检查用户HwHiAiUser是否存在 不存在会展示类似(id: ‘HwHiAiUser’: no such user)字样;已存在则跳过步骤5
id HwHiAiUser - 创建用户和用户组
groupadd HwHiAiUser useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash - 设置新用户默认密码 执行如下命令 然后输入两次 jx123456
sudo passwd HwHiAiUser # 根据提示输入两次密码 jx123456 - 安装驱动
dpkg -i Ascend-hdk-310p-npu-driver* # 其中会提示输入密码 则输入jx123456 # 等待Driver package installed successfully! 关键回显 则驱动安装成功 判断驱动是否安装完毕 执行如下命令 若可正常显示显卡信息 则跳过9 否则顺序执行8
npu-smi info
- 若步骤8 没有正常显示显卡讯息 又报错;则先reboot软重启,重新执行npu-smi info 是否正常显示;如报-8005等报错信息,则按照 快速解决方式 步骤 断电重启
- 安装固件
dpkg -i Ascend-hdk-310p-npu-firmware*
# 等待Firmware package installed successfully! 关键回显 则固件安装成功
- 整个步骤完成,可正常启动docker_run.sh 启动算法服务