跑模型被挤了？立即查看服务器GPU/CPU占用，别再误杀他人进程！

昨天晚上跑的模型今天来一看别别人kill了心累

更让人郁闷的是，你后来才发现，原来有些人根本不会先看服务器是不是空着。

但抱怨归抱怨，作为一名有素质的“共享玩家”，学会在自己跑模型前，先看看服务器上有没有别人在跑，以及如何友好地处理资源冲突，这应该是所有人应该最先学习的！

【重要忠告⚠️】核心原则：千万不要直接 Kill 别人的进程！这是共享服务器的基本素养，请务必牢记。

那到底该怎么看服务器的资源占用情况呢？别急，教程这就奉上！

核心教程：如何查看服务器资源占用情况？

无论是 CPU 还是 GPU，我们都有对应的查看工具和命令。

1. CPU 占用情况：`top` 命令

如果你想看服务器上 CPU 的使用情况，top 命令绝对是你的首选，它就像 Linux 里的“任务管理器”，能实时动态显示系统进程。

怎么看？

top

看 CPU 整体利用率：

Cpu(s)

us

sy

看负载：

load average

看哪个进程在用：

%CPU

USER

通过 top，你就能知道服务器的 CPU 是不是“满载”了，有没有人在上面跑着特别耗 CPU 的程序。

2. GPU 占用情况：`nvidia-smi` 系列，AIer的“救命稻草”

对于搞深度学习的我们，GPU 才是真正的命根子。NVIDIA 提供了一套强大的工具来监控 GPU。

nvidia-smi (系统自带，基本款)：

nvidia-smi

显存使用率 (Memory-Usage)

GPU 利用率 (GPU-Util)

gpustat (简化版，更清晰)：

nvidia-smi

gpustat

如果提示没有这个应用：

pip install gpustat

nvitop (实时查看进程，强烈推荐！)：

top

如果提示没有这个应用：

pip install nvitop

通过这些命令，你就能精准地知道，服务器上的 GPU 是不是被占用了，以及具体是哪个用户在占用。

3. 查看其他用户的进程：`ps -aux | grep [其他用户的名字]`

当你通过 top 或 nvitop 发现某个用户正在占用资源，但想了解更详细的信息时，可以用这个命令：

ps -aux | grep [其他用户的名字]

[其他用户的名字]

ps -aux | grep userA

4. 【进阶版】可视化监控与集群管理工具

如果你权限够高/有条件：DCGM-Exporter + Prometheus/Alertmanager

可视化监控系统

卡空闲/高负载告警

如果你用的服务器是集群/有资源管理工具：问问管理员！

资源分配管理工具

squeue

【作者建议💡】

直接去问管理这台共享服务器的负责人或团队成员

【终极忠告】千！万！不！要！直！接！Kill！别人的进程！

再强调一遍，这是程序员共享服务器的“黄金法则”：

绝不能直接 Kill：

正确姿势：

礼貌地联系使用者协商

联系服务器管理员

一点额外的小建议

除了这些命令行工具，如果你用的是带图形界面的服务器（比如通过 Xterminal 连接），通常也会有一些可视化的 CPU/GPU 状态监控工具，操作起来更直观，也可以去探索一下。

最后，我想说句心里话：强烈建议所有从事编程的朋友，尤其是搞 AI 的，一定要学好 Linux！ 服务器环境、各种工具、日常操作，都离不开 Linux。学好它，很多服务器上的疑难杂症都能迎刃而解，你的编程之路会顺畅很多，少踩很多坑！

核心教程：如何查看服务器资源占用情况？

1. CPU 占用情况：`top` 命令

2. GPU 占用情况：`nvidia-smi` 系列，AIer的“救命稻草”

3. 查看其他用户的进程：`ps -aux | grep [其他用户的名字]`

4. 【进阶版】可视化监控与集群管理工具

【终极忠告】千！万！不！要！直！接！Kill！别人的进程！

一点额外的小建议

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

核心教程：如何查看服务器资源占用情况？

1. CPU 占用情况：top 命令

2. GPU 占用情况：nvidia-smi 系列，AIer的“救命稻草”

3. 查看其他用户的进程：ps -aux | grep [其他用户的名字]

4. 【进阶版】可视化监控与集群管理工具

【终极忠告】千！万！不！要！直！接！Kill！别人的进程！

一点额外的小建议

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

1. CPU 占用情况：`top` 命令

2. GPU 占用情况：`nvidia-smi` 系列，AIer的“救命稻草”

3. 查看其他用户的进程：`ps -aux | grep [其他用户的名字]`