华为显卡检测不到问题排查

👁️ 阅读数:

报错示例

  1. npu-smi info 出现-8005报错
  2. lspci | grep d500 输出为空
  3. ls -l /usr/local/Ascend 能看到driver等目录 说明驱动安装过,但是硬件启动失败

快速解决方式

  1. 断电重启 断电时间需大于1分钟,后在重新上电重启
  2. 重启后,用lspci | grep d500命令,是否有输出

    lspci | grep d500
    
  3. 有输出,再用npu-smi info 确认显卡状态;如果有展示,则显卡已正常;无显示 跳转步骤5

    npu-smi info
    
  4. 步骤2 3都正常输出,则可bash /home/cgnee/trueno3/docker_run.sh启动算法服务

    cd /home/cgnee/trueno3
    bash docker_run.sh  && docker logs -fn 100 trueno3
    
  5. 步骤2 3 都无输出,则驱动需卸载后重新安装(见卸载重新安装部分教程)

卸载老驱动和固件

  1. 查看固件信息
    dpkg -l | grep Ascend
    
  2. 如果看到类似 firmware字样 则执行如下命令卸载固件 (注意替换成实际的值) 未看到上述字样,则跳转到步骤3
    sudo /usr/local/Ascend/firmware/script/uninstall.sh
    
  3. 查看驱动信息
    dpkg -l | grep Ascend
    
  4. 如果看到类似 ascend310p-driver字样 则执行如下命令卸载固件
    sudo /usr/local/Ascend/driver/script/uninstall.sh
    
  5. 重启系统
    reboot
    
  6. 重启完成 切换root用户;清理残留Ascend目录文件
    rm -rf /usr/local/Ascend
    

安装驱动和固件

必须先驱动后固件
  1. 安装驱动前必须能检测到显卡 检测不到 则按照 快速解决方式以及卸载老驱动和固件步骤解决直到如下命令有输出
    lspci | grep d500
    
  2. 查看系统版本

    uname -a
    

    | linx 一般是凝思系统 | | ------------------------------------------------- | | ky10 一般是麒麟v10系统 | | oe或openEuler 是欧拉系统 | | ubuntu 一般会有类似字样 | | PS: 请特别注意后面的arm64 和 x86 驱动区分cpu架构 |

  3. 进入/home/cgnee/trueno3/driver (默认一键部署目录是此目录,如不是请切换到对应目录,同目录下有docker_run.sh driver文件夹等)
    # 此目录默认存在kylin linx 等目录
    cd /home/cgnee/trueno3/driver
    
  4. 按照步骤1 确认到的系统 进入到对应目录 本例以linx 凝思系统为例
    # 此目录默认存在kylin linx 等目录
    cd linx
    
  5. 检查用户HwHiAiUser是否存在 不存在会展示类似(id: ‘HwHiAiUser’: no such user)字样;已存在则跳过步骤5
    id HwHiAiUser
    
  6. 创建用户和用户组
    groupadd HwHiAiUser
    useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
    
  7. 设置新用户默认密码 执行如下命令 然后输入两次 jx123456
    sudo passwd HwHiAiUser
    # 根据提示输入两次密码 jx123456
    
  8. 安装驱动
    dpkg -i Ascend-hdk-310p-npu-driver*
    # 其中会提示输入密码  则输入jx123456
    # 等待Driver package installed successfully!  关键回显 则驱动安装成功
    
  9. 判断驱动是否安装完毕 执行如下命令 若可正常显示显卡信息 则跳过9 否则顺序执行8

    npu-smi info
    

    1

  10. 若步骤8 没有正常显示显卡讯息 又报错;则先reboot软重启,重新执行npu-smi info 是否正常显示;如报-8005等报错信息,则按照 快速解决方式 步骤 断电重启
  11. 安装固件
   dpkg -i Ascend-hdk-310p-npu-firmware*
   # 等待Firmware package installed successfully!  关键回显 则固件安装成功
  1. 整个步骤完成,可正常启动docker_run.sh 启动算法服务
Copyright © 王智景 all right reserved,powered by Gitbook文件修订时间: 2025-12-01 09:15:15

results matching ""

    No results matching ""

    results matching ""

      No results matching ""