问题:
自己写了个dataloader,为了部署方便,用OpenCV的接口进行数据读取,而没有用PIL,代码大致如下:
def __getitem__(self, idx):
sample = self.samples[idx]
img = cv2.imread(sample[0])
img = cv2.resize(img, tuple(self.input_size))
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# if not self.val and random.randint(1, 10) 3:
# img = self.img_aug(img)
img = Image.fromarray(img)
img = self.transforms(img)
...
结果在训练过程中,在第1个epoch的最后一个batch时,程序卡死。
解决方案:
可能是因为OpenCV与Pytorch互锁的问题,关闭OpenCV的多线程,问题解决。
cv2.setNumThreads(0)
cv2.ocl.setUseOpenCL(False)
补充:pytorch 中一个batch的训练过程
# 一般情况下
optimizer.zero_grad() # 梯度清零
preds = model(inputs) # inference,前向传播求出预测值
loss = criterion(preds, targets) # 计算loss
loss.backward() # 反向传播求解梯度
optimizer.step() # 更新权重,更新网络权重参数
此外,反向传播前,如果不进行梯度清零,则可以实现梯度累加,从而一定程度上解决显存受限的问题。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。
您可能感兴趣的文章:- pytorch锁死在dataloader(训练时卡死)
- pytorch Dataset,DataLoader产生自定义的训练数据案例
- 解决Pytorch dataloader时报错每个tensor维度不一样的问题
- pytorch中DataLoader()过程中遇到的一些问题
- Pytorch 如何加速Dataloader提升数据读取速度
- pytorch DataLoader的num_workers参数与设置大小详解
- pytorch 实现多个Dataloader同时训练