ascend-npu-exporter 904904
2/29/2024
8/25/2025
3
Host Metrics
>=9.3.2
Prometheus
ascend-npu-dashboard
Grafana Dashboard for Monitoring Ascend NPU Exporter,适用于ascend-npu-exporter监控昇腾AI处理器的Grafana Dashboard 也可以访问github仓库查看最新版ascend-npu-dashboard
1.简介
采用ascend-npu-exporter二进制启动方式监控昇腾AI处理器,数据存储在prometheus中,可下载该面板通过Grafana展示。
2.涉及指标
| 指标名 |
|---|
| 昇腾AI处理器数目 |
| 昇腾AI处理器的AI Core当前频率 |
| 昇腾AI处理器网络健康状态 (仅支持Atlas 训练系列产品 |
| 昇腾AI处理器网口Link状态 (仅支持Atlas 训练系列产品 |
| 昇腾AI处理器网口实时接收速率(仅支持Atlas 训练系列产品) |
| 昇腾AI处理器网口实时发送速率 (仅支持Atlas 训练系列产品) |
| 昇腾AI处理器持续健康状态 |
| 昇腾AI处理器的进程的信息,取值为进程使用的内存 |
| 昇腾AI处理器AI Core利用率 |
| 昇腾AI处理器温度 |
| 昇腾AI处理器功耗(910和310为处理器功耗,310P为板卡功耗) |
| 昇腾AI处理器DDR内存已使用信息 |
| 昇腾AI处理器HBM内存总信息 |
详细指标参见NPU-Exporter Prometheus Metrics接口
3.截图示例
20240229版本 20240301版本:调整加速卡信息面板 20240410版本:监控状态新增“离线”展示
Get Dashboard✕
Download
Copy to Clipboard
Used Metrics 1616
npu_chip_info_name
machine_npu_nums
npu_chip_info_aicore_current_freq
npu_chip_info_network_status
npu_chip_info_link_status
npu_chip_info_bandwidth_rx
npu_chip_info_bandwidth_tx
npu_chip_info_health_status
npu_chip_info_process_info
npu_chip_info_utilization
npu_chip_info_temperature
npu_chip_info_power
npu_chip_info_total_memory
npu_chip_info_used_memory
npu_chip_info_hbm_total_memory
npu_chip_info_hbm_used_memory