查看GPU服务器的显卡信息通常使用NVIDIA提供的`nvidiasmi`命令(NVIDIA System Management Interface)。这个命令行工具能够显示关于NVIDIA GPU的多种信息,包括但不限于显卡型号、驱动版本、显存使用情况、GPU利用率、温度、功耗等。
以下是使用`nvidiasmi`查看显卡信息的步骤:
1. 登录服务器:首先,需要通过SSH或其他方式登录到GPU服务器。
2. 运行nvidiasmi命令:在服务器的命令行终端中输入以下命令:
nvidiasmi
执行此命令后,你将看到类似以下格式的输出信息:
+-----------------------------------------------------------------------------+ | NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... Off | 00000000:00:1E.0 Off | 0 | | N/A 35C P0 57W / 300W | 10938MiB / 16160MiB | 88% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ ... +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | 0 0 0 1234 C python 10938MiB | | 0 0 0 5678 C tensorflow 2048MiB | +-----------------------------------------------------------------------------+
3. 查看具体信息:输出中包含了以下信息:
GPU Name:GPU型号名称。
PersistenceM:GPU持久模式状态。
BusId:GPU总线ID。
Disp.A:显示设备状态(Off表示没有连接显示器)。
Volatile Uncorr. ECC:易失性未更正的ECC错误计数。
Fan, Temp, Perf, Pwr:风扇转速、温度、性能状态、功耗。
MemoryUsage:显存使用情况。
GPUUtil:GPU利用率。
Compute M.:计算模式。
MIG M.:多实例GPU状态(如果支持)。
Processes:运行在GPU上的进程及其资源使用情况。
4. 定期监控:如果需要定期监控GPU状态,可以使用`watch`命令:
watch n 1 nvidiasmi
这将每秒更新一次GPU信息。
确保服务器上已安装了正确的NVIDIA驱动程序,`nvidiasmi`命令才能正常工作。如果没有安装驱动或驱动不兼容,该命令可能无法执行或返回错误信息。