基础环境 [11]
集群调度系统 slurm 介绍【一般向】
一般来说,集群是由很多台不同种类的服务器组成的,这些服务器有着相同或类似的操作系统,共享一块容量较大的共享存储。给不同用户分配不同服务器计算资源的软件被称为调度系统。同时,集群普遍处于内网环境中,一般都需要通过VPN再进入集群
目前国内外大部分的集群,都使用slurm调度系统进行集群的统一管理,本文将以普通用户的角度,对slurm的使用方式进行介绍
一 使用概述
1.1 集群组成
登录服务器
...
防止终端意外退出–Tmux介绍
一 概述
由于训练一般都是在远程的Linux上,如果本地网络出现波动救护导致断开与远程服务器的连接,假设这个时候训练是在前台执行的,那么训练一般都会直接因为会话的断开而终止。
命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。
会话
...
使用SSH密钥连接云主机及公钥配置指南(包含Xshell及自动脚本配置)
一. 背景介绍:为什么要用SSH连接云主机?
SSH(Secure Shell)是一种加密网络协议,用于在不安全的网络上安全地进行系统登录和其他远程操作。例如,我们在租用云服务器时,通过SSH连接云主机,可以更方便地执行命令、部署应用、管理文件。
二. SSH密钥连接的好处
安全性高:相比于密码登录,密钥认证不易被暴力破解。
登录便捷:配置密钥后,无需每次输入密码。
支持自动化:脚本化操作更加
...
如何安装正确版本的PyTorch
一. 概述
当你首次使用带有GPU的云主机时,通常需要安装一个与主机CUDA版本和GPU架构兼容的PyTorch版本。选择正确的版本可以充分利用GPU的计算能力,避免运行时错误或性能问题。
二.环境检查
在安装PyTorch之前,需要确认当前环境中的GPU、CUDA版本以及PyTorch版本。
2.1 检查CUDA版本
在终端中运行以下命令:
nvcc –version
你会看到类似如下输出:
...
NVIDIA SXM4 机型安装驱动和nvidia-fabricmanager服务【centos7.9】
一 概述
一般的GPU使用是PCIe与主机通信,但这样的GPU的通信速率会被PCIe通道限制,PCIe4.0 X16的理论速率是32GB/s,为了解决这个问题,NVIDIA提出了NVswitch方案,推出了SXM机型的GPU,A100,H100这样的GPU都分别设有PCIe和SXM版本,到SXM4版本,GPU之间的通信速率可以达到600GB/s,完全脱离于CPU进行卡间通信,极大的提高了GPU的利
...
Intel 编译器安装步骤
一 概述
在Intel的CPU上,Intel oneAPI编译器相比于其他编译器,如mpicc,gcc等,具有更好的优化效果,本文介绍如何安装oneAPI进行安装,其实只需要一直按照提示走就可以
二 安装 Intel 编译器
Intel oneAPI编译器下载:
Intel oneAPI Base Toolkit:https://registrationcenter-download.intel.
...
HuggingFace模型文件下载方法
大多数模型都被托管在HuggingFace上,这个网站大陆内无法访问,需要科学上网,大多数集群一般都无法直连,所以需要开发者自行下载到本地后再上传
可以选择手动点击下载模型到本地,然后再上传到目标服务器上:
如果本机Windows电脑上安装了git工具的话,可以用git bash进行下载,git bash的下载安装教程:https://blog.csdn.net/weixin_41714277/
...
Jupyter lab 安装和配置教程
一 概述
Jupyter 是一个在浏览器中使用的交互式的笔记本,可以非常方便的用于调试python代码
二 安装
建议读者先安装conda,然后在conda环境中安装jupyter
注:只要某个环境安装了 JupyterLab,它就可以通过注册(ipykernel)访问其他环境的 Python 解释器。所以只需在一个环境安装jupyter。
创建一个conda环境来安装jupyter,建议py
...
conda 和 python 命令介绍
一 概述
深度学习的环境配置一般都十分复杂,不同的python软件包一般都会相互依赖,对彼此的版本也有很强的要求,Conda的出现,为配置python运行环境带来了便利。同时,通过conda也可以同时管理和切换多个python运行环境,使不同的conda环境不会相互影响。
二 安装
建议安装Miniconda,可以前往官网下载:https://docs.anaconda.com/miniconda
...
配置FRP以实现远程登录或访问内网服务器(无公网IP的服务器)
一 概述
本文致力于解决以下痛点:
希望能够远程登录在办公室的电脑主机(Windows下可以使用向日葵,但Linux没什么好方法)
希望能够将办公室电脑主机上的服务发布在互联网上以实现随时随地访问,或通过域名直接访问
希望能直接使用公网IP登录到办公室电脑主机内的docker容器,以方便在外地登录使用
Frp是一种内网穿透技术,可以将内网服务器上的一个端口映射到一台公网服务器的某端口上,基于此
...