菜单

Administrator
发布于 2025-06-05 / 14 阅读
0
0

多机集群训练环境搭建

启用WSL功能


1.搜索“启用和关闭Windows功能”



2.打开"适用于Linux的Windows子系统"功能


3.重启

安装WSL


1.右键Windows开始菜单(或按Win+X快捷键),点击"终端"


2.输入命令

wsl --import WSL标识名 WSL安装目录 back.tar备份文件位置 

进入系统


方式1


其中,Ubuntu为上一步导入时设置的的"WSL标识名"参数

方式2

命令行中直接输入wsl

运行训练脚本

1.进入项目目录

cd ~/rail

2.运行训练脚本

主节点

.venv/bin/torchrun --nnodes=节点数量 --node_rank=0 --nproc_per_node=该节点GPU数量 --rdzv-id=随意 --rdzv_backend=c10d --rdzv_endpoint=localhost:29678 Transformer.py (--num_epoches 10 --batch_size 1 --lr 0.01)

(括号内为可选参数,需保证所有节点一致)

其他节点

.venv/bin/torchrun --nnodes=节点数量 --node_rank=依次递增 --nproc_per_node=该节点GPU数量 --rdzv-id=与主节点保持一致 --rdzv_backend=c10d --rdzv_endpoint=主节点IP:29678 Transformer.py (--num_epoches 10 --batch_size 1 --lr 0.01)

(括号内为可选参数,需保证所有节点一致)

注意事项

1.需要保证所有节点能够互相通过网络访问到

2.需要在Windows防火墙的入站规则中放行29678端口的TCP访问

3.导入的Linux子系统用户名为alignment,密码为1


评论