公司新闻

深度学习中GPU和显存分析

日期:2022-06-09 06:29:16 作者:乐鱼在线 来源:乐鱼体育安卓版下载 阅读:10

  显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。

  这里推荐一个好用的小工具:gpustat,直接pip install gpustat即可安装,gpustat基于nvidia-smi,可以提供更美观简洁的展示,结合watch命令,可以动态实时监控GPU的使用情况。

  GPU计算单元类似于CPU中的核,用来进行数值计算。衡量计算量的单位是flop:the number of floating-point multiplication-adds,浮点数先乘后加算一个flop。计算能力越强大,速度越快。衡量计算能力的单位是flops:每秒能执行的flop数量。

  K、M,G,T是以1024为底,而KB 、MB,GB,TB以1000为底。不过一般来说,在估算显存大小的时候,我们不需要严格的区分这二者。

  在深度学习中会用到各种各样的数值类型,数值类型命名规范一般为TypeNum,比如Int64、Float32、Double64。

  Num: 一般是 8,16,32,64,128,表示该类型所占据的比特数目。

  其中Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。

  举例来说:有一个1000x1000的 矩阵,float32,那么占用的显存差不多就是

  只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。

  在PyTorch中,当你执行完model=MyGreatModel.cuda之后就会占用相应的显存,占用的显存大小基本与上述分析的显存差不多(会稍大一些,因为其它开销)。

  据此可以计算出每一层输出的Tensor的形状,然后就能计算出相应的显存占用。

  显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用

  可以看出显存不是和batch-size简单的成正比,尤其是模型自身比较复杂的情况下:比如全连接很大,Embedding层很大。

  神经网络的每一层输入输出都需要保存下来,用来反向传播,但是在某些特殊的情况下,我们可以不要保存输入。比如ReLU,在PyTorch中,使用nn.ReLU(inplace = True) 能将激活函数ReLU的输出直接覆盖保存于模型的输入之中,节省不少显存。感兴趣的读者可以思考一下,这时候是如何反向传播的(提示:y;dx[y=0]=0)

  在深度学习中,一般占用显存最多的是卷积等层的输出,模型参数占用的显存相对较少,而且不太好优化。

  计算量的定义,之前已经讲过了,计算量越大,操作越费时,运行神经网络花费的时间越多。

  AlexNet的分析如下图,左边是每一层的参数数目(不是显存占用),右边是消耗的计算资源。

  今年谷歌提出的MobileNet,利用了一种被称为DepthWise Convolution的技术,将神经网络运行速度提升许多,它的核心思想就是把一个卷积操作拆分成两个相对简单的操作的组合。如图所示, 左边是原始卷积操作,右边是两个特殊而又简单的卷积操作的组合(上面类似于池化的操作,但是有权重,下面类似于全连接操作)。

  总结了当时常用模型的各项指标,横座标是计算复杂度(越往右越慢,越耗时),纵座标是准确率(越高越好),圆的面积是参数数量(不是显存占用)。左上角我画了一个红色小圆,那是最理想的模型的的特点:快,效果好,占用显存小。

  增大batch size能增大速度,但是很有限(主要是并行计算的优化)

  增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。

  增大batch size使得一个epoch所能进行的优化次数变少,收敛可能变慢,从而需要更多时间才能收敛(比如batch_size 变成全部样本数目)。

  本文都是针对单机单卡的分析,分布式的情况会和这个有所区别。在分析计算量的时候,只分析了前向传播,反向传播计算量一般会与前向传播有细微的差别。

乐鱼在线
乐鱼在线 @ 版權歸所有 乐鱼在线