启用WSL功能
1.搜索“启用和关闭Windows功能”

2.打开"适用于Linux的Windows子系统"功能

3.重启
安装WSL
1.右键Windows开始菜单(或按Win+X快捷键),点击"终端"

2.输入命令
wsl --import WSL标识名 WSL安装目录 back.tar备份文件位置 进入系统
方式1

其中,Ubuntu为上一步导入时设置的的"WSL标识名"参数
方式2
命令行中直接输入wsl
运行训练脚本
1.进入项目目录
cd ~/rail
2.运行训练脚本
主节点
.venv/bin/torchrun --nnodes=节点数量 --node_rank=0 --nproc_per_node=该节点GPU数量 --rdzv-id=随意 --rdzv_backend=c10d --rdzv_endpoint=localhost:29678 Transformer.py (--num_epoches 10 --batch_size 1 --lr 0.01)
(括号内为可选参数,需保证所有节点一致)
其他节点
.venv/bin/torchrun --nnodes=节点数量 --node_rank=依次递增 --nproc_per_node=该节点GPU数量 --rdzv-id=与主节点保持一致 --rdzv_backend=c10d --rdzv_endpoint=主节点IP:29678 Transformer.py (--num_epoches 10 --batch_size 1 --lr 0.01)
(括号内为可选参数,需保证所有节点一致)
注意事项
1.需要保证所有节点能够互相通过网络访问到
2.需要在Windows防火墙的入站规则中放行29678端口的TCP访问
3.导入的Linux子系统用户名为alignment,密码为1