校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁(yè) > 知識(shí)庫(kù) > pytorch DistributedDataParallel 多卡訓(xùn)練結(jié)果變差的解決方案

pytorch DistributedDataParallel 多卡訓(xùn)練結(jié)果變差的解決方案

熱門(mén)標(biāo)簽:儋州電話機(jī)器人 地圖標(biāo)注面積 朝陽(yáng)手機(jī)外呼系統(tǒng) 所得系統(tǒng)電梯怎樣主板設(shè)置外呼 市場(chǎng)上的電銷機(jī)器人 小蘇云呼電話機(jī)器人 北京電銷外呼系統(tǒng)加盟 佛山400電話辦理 北瀚ai電銷機(jī)器人官網(wǎng)手機(jī)版

DDP 數(shù)據(jù)shuffle 的設(shè)置

使用DDP要給dataloader傳入sampler參數(shù)(torch.utils.data.distributed.DistributedSampler(dataset, num_replicas=None, rank=None, shuffle=True, seed=0, drop_last=False)) 。 默認(rèn)shuffle=True,但按照pytorch DistributedSampler的實(shí)現(xiàn):

    def __iter__(self) -> Iterator[T_co]:
        if self.shuffle:
            # deterministically shuffle based on epoch and seed
            g = torch.Generator()
            g.manual_seed(self.seed + self.epoch)
            indices = torch.randperm(len(self.dataset), generator=g).tolist()  # type: ignore
        else:
            indices = list(range(len(self.dataset)))  # type: ignore

產(chǎn)生隨機(jī)indix的種子是和當(dāng)前的epoch有關(guān),所以需要在訓(xùn)練的時(shí)候手動(dòng)set epoch的值來(lái)實(shí)現(xiàn)真正的shuffle:

for epoch in range(start_epoch, n_epochs):
    if is_distributed:
        sampler.set_epoch(epoch)
    train(loader)

DDP 增大batchsize 效果變差的問(wèn)題

large batchsize:

理論上的優(yōu)點(diǎn):

數(shù)據(jù)中的噪聲影響可能會(huì)變小,可能容易接近最優(yōu)點(diǎn);

缺點(diǎn)和問(wèn)題:

降低了梯度的variance;(理論上,對(duì)于凸優(yōu)化問(wèn)題,低的梯度variance可以得到更好的優(yōu)化效果; 但是實(shí)際上Keskar et al驗(yàn)證了增大batchsize會(huì)導(dǎo)致差的泛化能力);

對(duì)于非凸優(yōu)化問(wèn)題,損失函數(shù)包含多個(gè)局部最優(yōu)點(diǎn),小的batchsize有噪聲的干擾可能容易跳出局部最優(yōu)點(diǎn),而大的batchsize有可能停在局部最優(yōu)點(diǎn)跳不出來(lái)。

解決方法:

增大learning_rate,但是可能出現(xiàn)問(wèn)題,在訓(xùn)練開(kāi)始就用很大的learning_rate 可能導(dǎo)致模型不收斂 (https://arxiv.org/abs/1609.04836)

使用warming up (https://arxiv.org/abs/1706.02677)

warmup

在訓(xùn)練初期就用很大的learning_rate可能會(huì)導(dǎo)致訓(xùn)練不收斂的問(wèn)題,warmup的思想是在訓(xùn)練初期用小的學(xué)習(xí)率,隨著訓(xùn)練慢慢變大學(xué)習(xí)率,直到base learning_rate,再使用其他decay(CosineAnnealingLR)的方式訓(xùn)練.

# copy from https://github.com/ildoonet/pytorch-gradual-warmup-lr/blob/master/warmup_scheduler/scheduler.py
from torch.optim.lr_scheduler import _LRScheduler
from torch.optim.lr_scheduler import ReduceLROnPlateau
class GradualWarmupScheduler(_LRScheduler):
    """ Gradually warm-up(increasing) learning rate in optimizer.
    Proposed in 'Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour'.
    Args:
        optimizer (Optimizer): Wrapped optimizer.
        multiplier: target learning rate = base lr * multiplier if multiplier > 1.0. if multiplier = 1.0, lr starts from 0 and ends up with the base_lr.
        total_epoch: target learning rate is reached at total_epoch, gradually
        after_scheduler: after target_epoch, use this scheduler(eg. ReduceLROnPlateau)
    """
    def __init__(self, optimizer, multiplier, total_epoch, after_scheduler=None):
        self.multiplier = multiplier
        if self.multiplier  1.:
            raise ValueError('multiplier should be greater thant or equal to 1.')
        self.total_epoch = total_epoch
        self.after_scheduler = after_scheduler
        self.finished = False
        super(GradualWarmupScheduler, self).__init__(optimizer)
    def get_lr(self):
        if self.last_epoch > self.total_epoch:
            if self.after_scheduler:
                if not self.finished:
                    self.after_scheduler.base_lrs = [base_lr * self.multiplier for base_lr in self.base_lrs]
                    self.finished = True
                return self.after_scheduler.get_last_lr()
            return [base_lr * self.multiplier for base_lr in self.base_lrs]
        if self.multiplier == 1.0:
            return [base_lr * (float(self.last_epoch) / self.total_epoch) for base_lr in self.base_lrs]
        else:
            return [base_lr * ((self.multiplier - 1.) * self.last_epoch / self.total_epoch + 1.) for base_lr in self.base_lrs]
    def step_ReduceLROnPlateau(self, metrics, epoch=None):
        if epoch is None:
            epoch = self.last_epoch + 1
        self.last_epoch = epoch if epoch != 0 else 1  # ReduceLROnPlateau is called at the end of epoch, whereas others are called at beginning
        if self.last_epoch = self.total_epoch:
            warmup_lr = [base_lr * ((self.multiplier - 1.) * self.last_epoch / self.total_epoch + 1.) for base_lr in self.base_lrs]
            for param_group, lr in zip(self.optimizer.param_groups, warmup_lr):
                param_group['lr'] = lr
        else:
            if epoch is None:
                self.after_scheduler.step(metrics, None)
            else:
                self.after_scheduler.step(metrics, epoch - self.total_epoch)
    def step(self, epoch=None, metrics=None):
        if type(self.after_scheduler) != ReduceLROnPlateau:
            if self.finished and self.after_scheduler:
                if epoch is None:
                    self.after_scheduler.step(None)
                else:
                    self.after_scheduler.step(epoch - self.total_epoch)
                self._last_lr = self.after_scheduler.get_last_lr()
            else:
                return super(GradualWarmupScheduler, self).step(epoch)
        else:
            self.step_ReduceLROnPlateau(metrics, epoch)

分布式多卡訓(xùn)練DistributedDataParallel踩坑

近幾天想研究了多卡訓(xùn)練,就花了點(diǎn)時(shí)間,本以為會(huì)很輕松,可是好多坑,一步一步踏過(guò)來(lái),一般分布式訓(xùn)練分為單機(jī)多卡與多機(jī)多卡兩種類型;

主要有兩種方式實(shí)現(xiàn):

1、DataParallel: Parameter Server模式,一張卡位reducer,實(shí)現(xiàn)也超級(jí)簡(jiǎn)單,一行代碼

DataParallel是基于Parameter server的算法,負(fù)載不均衡的問(wèn)題比較嚴(yán)重,有時(shí)在模型較大的時(shí)候(比如bert-large),reducer的那張卡會(huì)多出3-4g的顯存占用

2、DistributedDataParallel:官方建議用新的DDP,采用all-reduce算法,本來(lái)設(shè)計(jì)主要是為了多機(jī)多卡使用,但是單機(jī)上也能用

為什么要分布式訓(xùn)練?

可以用多張卡,總體跑得更快

可以得到更大的 BatchSize

有些分布式會(huì)取得更好的效果

主要分為以下幾個(gè)部分:

單機(jī)多卡,DataParallel(最常用,最簡(jiǎn)單)

單機(jī)多卡,DistributedDataParallel(較高級(jí))、多機(jī)多卡,DistributedDataParallel(最高級(jí))

如何啟動(dòng)訓(xùn)練

模型保存與讀取

注意事項(xiàng)

一、單機(jī)多卡(DATAPARALLEL)

from torch.nn import DataParallel
 
device = torch.device("cuda")
#或者device = torch.device("cuda:0" if True else "cpu")
 
model = MyModel()
model = model.to(device)
model = DataParallel(model)
#或者model = nn.DataParallel(model,device_ids=[0,1,2,3])

比較簡(jiǎn)單,只需要加一行代碼就行, model = DataParallel(model)

二、多機(jī)多卡、單機(jī)多卡(DISTRIBUTEDDATAPARALLEL)

建議先把注意事項(xiàng)看完在修改代碼,防止出現(xiàn)莫名的bug,修改訓(xùn)練代碼如下:

其中opt.local_rank要在代碼前面解析這個(gè)參數(shù),可以去后面看我寫(xiě)的注意事項(xiàng);

    from torch.utils.data.distributed import DistributedSampler
    import torch.distributed as dist
    import torch
 
    # Initialize Process Group
    dist_backend = 'nccl'
    print('args.local_rank: ', opt.local_rank)
    torch.cuda.set_device(opt.local_rank)
    dist.init_process_group(backend=dist_backend)
 
    model = yourModel()#自己的模型
    if torch.cuda.device_count() > 1:
        print("Let's use", torch.cuda.device_count(), "GPUs!")
        # 5) 封裝
        # model = torch.nn.parallel.DistributedDataParallel(model,
        #                                                   device_ids=[opt.local_rank],
        #                                                   output_device=opt.local_rank)
        model = torch.nn.parallel.DistributedDataParallel(model.cuda(), device_ids=[opt.local_rank])
    device = torch.device(opt.local_rank)
    model.to(device)
    dataset = ListDataset(train_path, augment=True, multiscale=opt.multiscale_training, img_size=opt.img_size, normalized_labels=True)#自己的讀取數(shù)據(jù)的代碼
    world_size = torch.cuda.device_count()
    datasampler = DistributedSampler(dataset, num_replicas=dist.get_world_size(), rank=opt.local_rank)
 
    dataloader = torch.utils.data.DataLoader(
        dataset,
        batch_size=opt.batch_size,
        shuffle=False,
        num_workers=opt.n_cpu,
        pin_memory=True,
        collate_fn=dataset.collate_fn,
        sampler=datasampler
    )#在原始讀取數(shù)據(jù)中加sampler參數(shù)就行
 
 
.....
 
訓(xùn)練過(guò)程中,數(shù)據(jù)轉(zhuǎn)cuda
      imgs = imgs.to(device)
      targets = targets.to(device)

三、如何啟動(dòng)訓(xùn)練

1、DataParallel方式

正常訓(xùn)練即可,即

python3 train.py

2、DistributedDataParallel方式

需要通過(guò)torch.distributed.launch來(lái)啟動(dòng),一般是單節(jié)點(diǎn),

CUDA_VISIBLE_DEVICES=0,1 python3 -m torch.distributed.launch --nproc_per_node=2 train.py

其中CUDA_VISIBLE_DEVICES 設(shè)置用的顯卡編號(hào),--nproc_pre_node 每個(gè)節(jié)點(diǎn)的顯卡數(shù)量,一般有幾個(gè)顯卡就用幾個(gè)顯卡

多節(jié)點(diǎn)

python3 -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE --nnodes=2 --node_rank=0
#兩個(gè)節(jié)點(diǎn),在0號(hào)節(jié)點(diǎn)

要是訓(xùn)練成功,就會(huì)打印出幾個(gè)信息,有幾個(gè)卡就打印幾個(gè)信息,如下圖所示:

四、模型保存與讀取

以下a、b是對(duì)應(yīng)的,用a保存,就用a方法加載

1、保存

a、只保存參數(shù)

torch.save(model.module.state_dict(), path)

b、保存參數(shù)與網(wǎng)絡(luò)

torch.save(model.module,path)

2、加載

a、多卡加載模型預(yù)訓(xùn)練;

model = Yourmodel()
if opt.pretrained_weights:
        if opt.pretrained_weights.endswith(".pth"):
            model.load_state_dict(torch.load(opt.pretrained_weights))
        else:
            model.load_darknet_weights(opt.pretrained_weights)

單卡加載模型,需要加載模型時(shí)指定主卡讀模型,而且這個(gè)'cuda:0',是看你訓(xùn)練的模型是0還是1(否則就會(huì)出錯(cuò)RuntimeError: Attempting to deserialize object on CUDA device 1 but torch.cuda.device_count() is 1. Please use torch.load with map_location to map your storages to an existing device),可以根據(jù)自己的更改:

model = Yourmodel()
if opt.pretrained_weights:
        if opt.pretrained_weights.endswith(".pth"):
            model.load_state_dict(torch.load(opt.pretrained_weights,map_location="cuda:0"))
        else:
            model.load_darknet_weights(opt.pretrained_weights)

b、單卡加載模型;

同樣也要指定讀取模型的卡。  

model = torch.load(opt.weights_path, map_location="cuda:0")

多卡加載預(yù)訓(xùn)練模型,以b這種方式還沒(méi)跑通。

五、注意事項(xiàng)

1、model后面添加module

獲取到網(wǎng)絡(luò)模型后,使用并行方法,并將網(wǎng)絡(luò)模型和參數(shù)移到GPU上。注意,若需要修改網(wǎng)絡(luò)模塊或者獲得模型的某個(gè)參數(shù),一定要在model后面加上.module,否則會(huì)報(bào)錯(cuò),比如:

model.img_size  要改成  model.module.img_size

2、.cuda或者.to(device)等問(wèn)題

device是自己設(shè)置,如果.cuda出錯(cuò),就要化成相應(yīng)的device

model(如:model.to(device))

input(通常需要使用Variable包裝,如:input = Variable(input).to(device))

target(通常需要使用Variable包裝

nn.CrossEntropyLoss()(如:criterion = nn.CrossEntropyLoss().to(device))

3、args.local_rank的參數(shù)

通過(guò)torch.distributed.launch來(lái)啟動(dòng)訓(xùn)練,torch.distributed.launch 會(huì)給模型分配一個(gè)args.local_rank的參數(shù),所以在訓(xùn)練代碼中要解析這個(gè)參數(shù),也可以通過(guò)torch.distributed.get_rank()獲取進(jìn)程id。

parser.add_argument("--local_rank", type=int, default=-1, help="number of cpu threads to use during batch generation")
 

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • 關(guān)于pytorch多GPU訓(xùn)練實(shí)例與性能對(duì)比分析
  • 解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯(cuò)問(wèn)題
  • 解決Pytorch訓(xùn)練過(guò)程中l(wèi)oss不下降的問(wèn)題
  • pytorch 指定gpu訓(xùn)練與多gpu并行訓(xùn)練示例

標(biāo)簽:酒泉 江蘇 寧夏 商丘 金融催收 云南 定西 龍巖

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《pytorch DistributedDataParallel 多卡訓(xùn)練結(jié)果變差的解決方案》,本文關(guān)鍵詞  pytorch,DistributedDataParallel,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《pytorch DistributedDataParallel 多卡訓(xùn)練結(jié)果變差的解決方案》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于pytorch DistributedDataParallel 多卡訓(xùn)練結(jié)果變差的解決方案的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    欧美精品v国产精品v日韩精品 | 亚洲高清在线精品| 欧美日韩中文字幕一区| 日韩电影在线免费| 国产日韩精品一区二区浪潮av| 972aa.com艺术欧美| 午夜精品久久久久久久久久久| 久久中文娱乐网| 国产乱理伦片在线观看夜一区| 欧美国产禁国产网站cc| 欧美性videosxxxxx| 国产精品18久久久久久久网站| 亚洲精品国产精华液| 精品国产污网站| 一本大道久久a久久精二百| 欧美aⅴ一区二区三区视频| 中文字幕在线观看一区| 日韩欧美激情一区| 91日韩在线专区| 国产精品18久久久久久久久| 一区二区三区四区在线| 7777精品伊人久久久大香线蕉完整版 | 成人欧美一区二区三区1314| 日韩欧美综合一区| 日本精品视频一区二区| 国产精品99精品久久免费| 午夜久久久久久久久久一区二区| 国产精品理伦片| 欧美不卡视频一区| 欧美日韩精品专区| 91色porny蝌蚪| 国产精品一卡二卡在线观看| 一区二区三区在线播放| 国产精品无圣光一区二区| 欧美疯狂做受xxxx富婆| 一本久道中文字幕精品亚洲嫩| 国产一区二区三区四区五区美女| 亚洲chinese男男1069| 日韩毛片在线免费观看| 国产女人18水真多18精品一级做| 日韩久久久精品| 99精品在线免费| 国产九色sp调教91| 国产成人综合在线播放| 国产成人精品一区二| 粉嫩aⅴ一区二区三区四区五区| 久久成人羞羞网站| 日韩福利电影在线观看| 午夜精品福利视频网站| 亚洲综合区在线| 久久精品视频在线看| 欧美日韩国产大片| 欧美卡1卡2卡| 欧美日韩国产精选| 欧美日本乱大交xxxxx| 日本乱人伦aⅴ精品| 成人av在线观| 99久久婷婷国产综合精品| 99久久综合精品| 99久久婷婷国产| 色婷婷综合久久久久中文| 91同城在线观看| 懂色av一区二区三区免费看| 丁香另类激情小说| 成人高清视频在线观看| 91一区二区三区在线播放| 99久久精品国产毛片| 91蜜桃视频在线| 欧美手机在线视频| 在线播放视频一区| 日韩一区二区三区观看| 日韩欧美高清一区| 久久久蜜臀国产一区二区| 国产日产欧产精品推荐色| 日本一区二区在线不卡| 亚洲色图第一区| 亚洲国产视频一区| 青青草原综合久久大伊人精品优势 | 日韩视频免费观看高清完整版 | 91精品国产综合久久婷婷香蕉| 欧美精品一二三四| 日韩欧美国产wwwww| 国产午夜亚洲精品不卡| 亚洲欧美韩国综合色| 午夜精品影院在线观看| 亚洲午夜日本在线观看| 日本不卡123| 国产**成人网毛片九色 | 国产精品性做久久久久久| 成人av在线播放网址| 欧美日韩一级视频| 欧美va亚洲va| 91精品欧美一区二区三区综合在| 欧美精品久久一区二区三区| 精品国产免费一区二区三区四区| 中文字幕乱码日本亚洲一区二区 | 2欧美一区二区三区在线观看视频| 国产欧美日韩三级| 亚洲主播在线播放| 精品一区二区三区免费观看| 91在线精品一区二区| 欧美一区二区视频在线观看| 欧美日韩精品一区二区三区四区 | 亚洲高清不卡在线| 麻豆专区一区二区三区四区五区| 国产a久久麻豆| 欧美人动与zoxxxx乱| 国产精品欧美一区二区三区| 日韩和欧美一区二区| 国产99精品视频| 91精品国产综合久久精品图片| 欧美国产精品一区二区三区| 日韩精品免费专区| 99re视频精品| 日韩欧美电影一区| 一区二区三区国产| 久久99精品一区二区三区三区| 91伊人久久大香线蕉| 精品成人一区二区三区| 亚洲精品国产一区二区三区四区在线| 理论电影国产精品| 欧美午夜精品久久久久久孕妇| 欧美精品一区二区三区四区| 亚洲另类春色国产| 极品少妇xxxx精品少妇| 99精品热视频| 国产亚洲成av人在线观看导航| 亚洲成人黄色影院| 一本大道av伊人久久综合| 久久久精品中文字幕麻豆发布| 日本美女一区二区三区视频| 一本一道久久a久久精品综合蜜臀| 91麻豆精品久久久久蜜臀| 亚洲免费观看高清完整| 成人黄色免费短视频| 久久久99精品久久| 精品一区二区三区影院在线午夜| 欧美日韩国产高清一区二区| 亚洲一二三级电影| 国产精品一二三四| 欧美性色黄大片手机版| 亚洲免费观看高清完整| 91视视频在线直接观看在线看网页在线看| 久久久综合视频| 免费成人av资源网| 欧洲色大大久久| 日韩高清中文字幕一区| 56国语精品自产拍在线观看| 亚洲国产成人av网| 欧美色窝79yyyycom| 日韩一区中文字幕| 欧美亚洲动漫精品| 一区二区三区日本| 一本色道久久综合亚洲aⅴ蜜桃 | 久久精品国产亚洲a| 欧美一区二区日韩| 日本特黄久久久高潮| 欧美一区二区三区免费大片| 蜜桃一区二区三区四区| 欧美成人综合网站| 成人av资源在线| 中文字幕日韩一区| 91老师片黄在线观看| 亚洲精品五月天| 欧美日韩在线播| 狠狠色丁香久久婷婷综合_中 | 欧美日韩视频专区在线播放| 美女视频第一区二区三区免费观看网站| 911精品国产一区二区在线| 日韩高清欧美激情| 日韩精品一区二区三区老鸭窝| 奇米精品一区二区三区四区| 久久久久久99精品| 99视频一区二区三区| 亚洲成a人片在线不卡一二三区| 欧美福利电影网| 精品一区二区三区免费播放| 欧美国产亚洲另类动漫| 欧美美女一区二区在线观看| 美女一区二区视频| 国产精品全国免费观看高清 | 亚洲国产成人va在线观看天堂| 欧美人与性动xxxx| 激情五月激情综合网| 国产精品久久久久婷婷| 欧美日韩一卡二卡| 精品亚洲成a人在线观看| 一区二区三区中文在线观看| 日韩欧美一级片| 成人综合婷婷国产精品久久免费| 自拍偷拍欧美精品| 7777精品伊人久久久大香线蕉| 久久国产精品露脸对白| 日韩理论片一区二区| 欧美精品 国产精品| 国产激情91久久精品导航| 国产精品每日更新| 欧美精品一区二区三区蜜桃| 日本精品视频一区二区三区| 日韩福利电影在线观看|