GPU使用指南

本文最后更新于:13 天前

1 登录

1
2
*research*
CSDC702

2 创建项目

进入 rancher,点 research 集群,点击 Project/Namespace

image.png

起个名字直接 create

image.png


3 创建命名空间

找到创建的 project,点击上方 Add Namespace

image.png

添加 Namespace,起个名字(自己的名字缩写)直接点 Create

image.png


4 添加 Deployment

image.png

  1. name 取个名字(自己名字缩写)
  2. Docker Image 镜像版本选择基础环境的 conda:conda:cuda_12.4.0_ubuntu22.04_base_20251023102432
  3. Port Mapping 端口映射添加一个 name: ssh;port: 22 的端口(后面默认为 nodeport 和 Random)
    image.png
  4. Node Scheduling 选择指定的名称为 gpu 的节点(目前有 4 个:gpu,gpu2,gpu3 和 gpu4)
  5. 添加工作目录挂载点(路径必须是/data/name,name 为名字缩写,Mount Point 必须是/workspace
    image.png
  6. 设置 gpu 数量(切记不可超过 gpu 物理机显卡数量,一般只需要设置为 1,然后可以成功启动 pod,按照需要再逐渐增大目前都是八卡,所有 pod 都没用的情况下才能设为 8
    image.png

5 配置 pod 对应的虚拟机的 hostname 和 hosts

image.png

1
2
3
4
5
6
7
8
9
10
11
12
13
14
hostname: gpupod
hostAliases:
- ip: "192.168.88.190"
hostnames:
- "gpu"
- ip: "192.168.88.192"
hostnames:
- "gpu2"
- ip: "192.168.88.194"
hostnames:
- "gpu3"
- ip: "192.168.88.196"
hostnames:
- "gpu4"

6 开启 ssh 登录

image.png

点击 Execute Shell 进入 pod 控制台,执行以下命令启动 ssh 服务:

1
2
3
4
# 启动ssh服务
service ssh start
# 设置ssh连接密码,执行后输入两次密码即可
passwd

7 通过 xshell 或其他 ssh 工具访问 pod

主机填 192.168.88.122,端口号填 port 映射的 random 的最终端口,用户名为 root,密码为自己 ssh 那里设置的密码
image.png


8 保存 pod 为镜像

当有重大变动时最好把当前 pod 保存为一个镜像,不保存的话 pod 一旦关闭就会导致所有的操作丢失包括环境,通过宿主机即物理机下的 home 目录下的 save_docker_image.sh 脚本保存
通过以下指令保存镜像(docker 不变,gpu4 根据自己在 Node Scheduling 中选的 gpu 节点的名字决定,运行在哪个上就用哪个名字)

1
2
3
4
# 连接宿主机
ssh docker@gpu4
# 保存镜像
bash save_docker_image.sh

根据提示输入镜像序号(名称前缀都是 k8s_Workload名称_pod名称
image.png

[!NOTE] 温馨提示
保存镜像后,如果更新镜像重新启动pod,ssh 服务不会默认启动,要进 shell 手动打开:service ssh start


GPU使用指南
https://alleyf.github.io/2025/10/81a09e3b6a23.html
作者
fcs
发布于
2025年10月23日
更新于
2025年12月21日
许可协议