解决pytorch load huge dataset(大数据加载)-巨人网络通讯

主页 > 知识库 > 解决pytorch load huge dataset(大数据加载)

解决pytorch load huge dataset(大数据加载)

问题

最近用pytorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory。

解决方法

首先自定义一个MyDataset继承torch.utils.data.Dataset，然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可。

MyDataset在__init__中声明一个文件对象，然后在__getitem__中缓慢读取数据，这样就不会一次把所有数据加载到内存中了。训练数据存放在train.txt中，每一行是一条数据记录。

import torch.utils.data as Data
from tqdm import tqdm
class MyDataset(Data.Dataset):
	def __init__(self,filepath):
		number = 0
		with open(filepath,"r") as f:
			# 获得训练数据的总行数
			for _ in tqdm(f,desc="load training dataset"):
				number+=1
		self.number = number
		self.fopen = open(filepath,'r')
	def __len__(self):
		return self.number
	def __getitem__(self,index):
		line = self.fopen.__next__()
		# 自定义transform()对训练数据进行预处理
		data = transform(line)
		return data

train_dataset = MyDataset(filepath = "train.txt")
training_data = Data.DataLoader(dataset=train_dataset, batch_size=32,num_workers=1)

注意

1、num_workers只能设置为1。因为MyDataset初始化时只有一个文件对象，在dataloader时num_workers=1只用一个线程去操作文件对象读取数据。如果num_workers>1, 会出错，多个线程同时操作同一个文件对象，得到的数据并不是你想要的。

2、每一个epoch结束以后，需要重新声明train_dataset和training_data。因为一个epoch结束以后，文件对象已经指向文件末尾，下一个epoch取数据时，什么也得不到。

3、因为这里__getitem__()只是顺序的从文件中取出一行，而与index无关，那么在DataLoader时，即使参数shuffle指定为True，得到的数据依然是顺序的，即该方法无法shuffle数据。

补充：Pytorch加载自己的数据集(使用DataLoader读取Dataset)

1. 我们经常可以看到Pytorch加载数据集会用到官方整理好的数据集

很多时候我们需要加载自己的数据集，这时候我们需要使用Dataset和DataLoader

Dataset：是被封装进DataLoader里，实现该方法封装自己的数据和标签。

DataLoader：被封装入DataLoaderIter里，实现该方法达到数据的划分。

2.Dataset

阅读源码后，我们可以指导，继承该方法必须实现两个方法：

_getitem_()

_len_()

因此，在实现过程中我们测试如下：

import torch
import numpy as np

# 定义GetLoader类，继承Dataset方法，并重写__getitem__()和__len__()方法
class GetLoader(torch.utils.data.Dataset):
	# 初始化函数，得到数据
    def __init__(self, data_root, data_label):
        self.data = data_root
        self.label = data_label
    # index是根据batchsize划分数据后得到的索引，最后将data和对应的labels进行一起返回
    def __getitem__(self, index):
        data = self.data[index]
        labels = self.label[index]
        return data, labels
    # 该函数返回数据大小长度，目的是DataLoader方便划分，如果不知道大小，DataLoader会一脸懵逼
    def __len__(self):
        return len(self.data)

# 随机生成数据，大小为10 * 20列
source_data = np.random.rand(10, 20)
# 随机生成标签，大小为10 * 1列
source_label = np.random.randint(0,2,(10, 1))
# 通过GetLoader将数据进行加载，返回Dataset对象，包含data和labels
torch_data = GetLoader(source_data, source_label)

3.DataLoader

提供对Dataset的操作，操作如下：

torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last，num_workers)

参数含义如下：

dataset：加载torch.utils.data.Dataset对象数据

batch_size：每个batch的大小

shuffle：是否对数据进行打乱

drop_last：是否对无法整除的最后一个datasize进行丢弃

num_workers：表示加载的时候子进程数

因此，在实现过程中我们测试如下（紧跟上述用例）：

from torch.utils.data import DataLoader

# 读取数据
datas = DataLoader(torch_data, batch_size=6, shuffle=True, drop_last=False, num_workers=2)

此时，我们的数据已经加载完毕了，只需要在训练过程中使用即可。

4.查看数据

我们可以通过迭代器（enumerate）进行输出数据，测试如下：

for i, data in enumerate(datas):
 # i表示第几个batch， data表示该batch对应的数据，包含data和对应的labels
    print("第 {} 个Batch \n{}".format(i, data))

输出结果如下图：

结果说明：由于数据的是10个，batchsize大小为6，且drop_last=False，因此第一个大小为6，第二个为4。每一个batch中包含data和对应的labels。

当我们想取出data和对应的labels时候，只需要用下表就可以啦，测试如下：

# 表示输出数据
print(data[0])
# 表示输出标签
print(data[1])

结果如图：

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Pytorch数据读取之Dataset和DataLoader知识总结
Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作
pytorch Dataset,DataLoader产生自定义的训练数据案例
PyTorch实现重写/改写Dataset并载入Dataloader
一文弄懂Pytorch的DataLoader, DataSet, Sampler之间的关系
Pytorch 定义MyDatasets实现多通道分别输入不同数据方式
PyTorch 解决Dataset和Dataloader遇到的问题

标签：成都驻马店兰州山东六盘水江苏常州宿迁

巨人网络通讯声明：本文标题《解决pytorch load huge dataset(大数据加载)》，本文关键词解决,pytorch,load,huge,dataset,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《解决pytorch load huge dataset(大数据加载)》相关的同类信息！

解决pytorch load huge dataset(大数据加载)

问题最近用pytorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory。解决方法首先自定义一个MyDataset继承...

10-18

商标注册人的权利和义务

（一）商标注册人的权利商标注册人的权利主要是指对注册商标所享有的专用权。我国《商标法》规定：经商标局核准注册...

10-23

西安5G电话线路详情-专业服务

西安5G电话线路详情因此，对于从事电销业的企业，或对某些从事电话销售的企业来说，智能电销机器人是一个好的选择。目...

01-15

联通116114为广交会客商提供无忧服务

第109届广交会期间，广东联通整合了116114业务的酒店机票预订、交通顾问等服务，为广交会客商提供无忧服务。据悉，1161...

10-19

ai外呼电话机器人（ai外呼机器人费用）

本文目录一览： 1、这个猎星AI智能外呼机器人好用吗？2、ai智能电话机器人有什么作用？3、AI语音机器人有哪些好处4、智...

11-27

电销卡公司封号咋办

对于电话销售人员来说，他们每天都要使用手机卡拨打电销电话，可以说呼出频率是非常高的，如果使用三大运营商发行的手...

12-16

有准确率很高的空号检测软件吗？

怎么解决手机空号这一麻烦事呢，用手机空号检测就能解决，现在手机空号检测的软件在网上一搜出来的太多，一时之间不知...

12-03

重庆电销机器人代劳

汇港通自决研制鉴于大数据、云计划的产物。扶助大中小企业提率，提高管理，优化运维。移动crm经过大数据、云计划调整云...

10-31

突发：刚刚，美国官方宣布“封杀”中国移动！！！移动公司重磅回应...

12-04

电话智能机器人怎么样，到底有没有效果

人工客服收到工作时间、效率以及工作量的限制，已经无法完全适应部分企业的呼叫业务。通过AI智能软件系统的协助，完成...

07-12

电销顾客资源怎么找？

电销顾客资源怎么找？在电话销售过程中，正确的寻找到意向顾客是我们做电话销售人员的关键的一步。电话销售人员在每...

10-24

什么是客服外包，怎么挑选靠谱公司合作？

什么是客服外包？客服外包，是指企业将客服工作交由其他企业负责，客服外包类型主要有：售前咨询、售后服务等。这对...

01-16

客服中心服务量话量预测入门

服务预测与排班是大部分服务行业有效管理的关键环节，尤其是客服中心，对服务预测准确度要求高，对排班的舒适性和效率...

10-22

重庆高院终审判决假冒“简单搜索”网站赔偿百度80万元

来源：中国知识产权资讯网一个域名为“baidu”的搜索网站，却被法院判决赔偿百度公司80万元。这究竟是为何？ “百度推...

10-23

400电话办理一年多少钱？解析金钱背后的谈判技巧、价格构成、影响因素和节省策略-400电话办

在商业社会中，电话交流作为最直接的联系方式，一直被视为商业合作的重要手段。而在以客户为中心的营销模式中，400电话...

07-21

一键呼救911呼叫中心！Uber推出呼叫功能提高救援效率

据境外媒体报道，让报警电话时用户的定位变得更准确，这不仅是在优化应急流程，更可能是在生死关头提高救援效率。FC...

10-19

上半年重庆市服务外包执行额达4.7亿美元增长169%

重庆频道消息 6月30日,记者从"2013重庆市服务贸易工作会"上获悉,今年上半年我市服务外包执行额达4.7亿美元,同比增长169%。此...

10-22

在正规平台办理电销卡的好处

选择电话营销时，重要的及时电话卡了，但是使用普通的电话卡因为电话的数量较多就很容易被封，那么就需要去办理电销卡...

12-04

10-23

精确定位店位置多少钱？精确定位位置？

北京现代4s店装gps定位多少钱？如果需要可以去汽配城和GPS公司安装，记着要软件客户端、账号和密码。你可以货比三家，一...

11-26

大理州电销机器人培训（电销机器人话术剧情）

本文目录一览： 1、学习工业机器人到哪里学啊？2、电销机器人究竟多少钱？价格往来不断怎样这么大3、有谁用过电销机器...

04-22

合肥智能电销网络线路办理服务商-诚信合作

合肥智能电销网络线路办理服务商它不只能提高企业的营销效率，还能帮助企业提高服务效率，除此之外，企业搭建智能电销...

01-16

干洗商标该如何选择合适的类别呢？

所谓三百六十五行行行出状元，现在社会工种也是特别多，只要想的出到，都是有市场的，很多人买的衣服都是品牌，自己又...

10-23

viewport.exe进程是什么意思

进程文件： viewport or viewport.exe 进程名称： ATI/Appian HydraVision Desktop Manager 进程类别：存在安全风险的进程英文描述： viewpo...

10-19

windows2000下C盘权限设置

1.选取整个硬盘： system：完全控制 administrator：完全控制 (允许将来自父系的可继承性权限传播给对象) 2/programfiles/commonfiles：...

10-20

建立品牌美誊度的策略

品牌竞争是市场竞争在经历了价格、质量、服务等各方面的较量之后进入的一个新阶段。品牌与产品不同，它强调系统性和全...

10-23

银川智能外呼系统价格（外呼系统收费）

本文目录一览： 1、外呼体系装置须要哪些用度？ 2、召唤焦点或外呼体系哪种又廉价又好的啊 3、智能外呼体系几何钱？ 4、...

11-26

400电话漏接短信功能意义有多大?

当企业漏接掉一个电话，400电话客服会在一定时间给企业发去漏接短信，这就很大程度上降低了企业漏接电话而造成的损失。...

12-22

易才博普奥为全球最大中文书籍零售商提供整体人力资源外包服务

CTI论坛(ctiforum)6月30日消息（记者杨佳林）：人力资源外包专家、服务外包产业专业人才租赁供应商---北京易才博普奥管理顾...

10-19

400电话的智能网平台是怎么回事

对于400电话这样的一种业务，很多人是不了解的，甚至不知道这样一种业务的存在，毕竟自己从来没有接触过这样一种类型的...

05-16

消费级物联网专用卡14103怎么激活（电信物联卡14104激活）

141号段是电信物联卡号段，作为目前物联网市场上最大的物联卡运营商，电信物联卡其卡片的稳定性和质量得到的一致好评。...

11-07

AI电话机器人是骗局吗（ai电话智能机器人）

本文目录一览：1、ai电话诈骗是怎么回事儿?2、如何预防利用AI电话诈骗的骗局?3、ai电话诈骗,是真的吗?4、江苏镇江一骗子用...

06-20

云外呼系统质量

外呼系统是一种具有完善防封功能以及客户管理后台的系统，目前电销行业现在面临的问题就是现在封号问题严重，不管用哪...

11-27

电销行业大革命，电销机器人到底带来了什么

电销领域革命，电销机器人究竟带给了哪些在2017年电销领域早已进入了一个乏力的环节：大家抵触电销的电話，只需已接...

01-15

win7升级win8.1后360浏览器打不开了怎么办？

原先安装win7系统换为win8.1update（win8应该适用），之前安装在D盘的360极速/安全浏览器无法打开，可使用此方法。软件名称：...

10-20

福州房产电话呼叫软件在哪可以办理,电销系统-[热门]

福州房产电话呼叫软件在哪可以办理,电销系统因为电话营销机器人可以更好的进行智能交流，所以就会让广大客户的好感度...

12-17

浅谈400电话企业客服的有力工具

现在各行各业的发展都离不开互联网，企业更是如此，现在越来越多的企业开始了网络营销的征程，都想让自己的业务在互联...

12-22

win8图片库加入图片的方法介绍

Win8系统中的Metro界面真是灰常漂亮啊，我就喜欢在这界面下用不过可以用的软件真是少。Metro界面中的相片下的图片库，你打...

10-20

嘉兴不封号呼叫中心软件多少钱,呼叫中心软件办理费用-信誉保证

嘉兴不封号呼叫中心软件多少钱,呼叫中心软件办理费用预计电销机器人将会大规模运用，智能电销机器人的市场份额将逐步...

12-17

智能外呼系统对接网关（智能外呼系统对接网关有什么用）

今天给各位分享智能外呼系统对接网关的知识，其中也会对智能外呼系统对接网关有什么用进行解释，如果能碰巧解决你现在...

11-06

办400电话需要多少钱开通一个400电话需要多少钱？

400电话由主电话和被电话分担，即400电话承担市政电话接入费，被电话承担所有400电话接听费。影响400电话价格的因素很多...

01-12

巨人科技如何来管理员工

任何公司对自己员工的管理工作都是非常重要的，只有我们真正的做好各个方面的管理，你就会发现其实所有的事情都能够有...

05-15

Ruby中的block、proc、lambda区别总结

在规则引擎中，Ruby 的闭包使用特别频繁，而且有 block，Proc和 lambda 等后几种形式的用法，很让人困惑。为了深入理解代码，...

10-18

阳江智能外呼系统（ai智能外呼系统销售）

本文目录一览： 1、自动外呼系统是什么，使用自动外呼营销系统违法吗？ 2、什么是智能外呼营销系统？求详细解答 3、自动...

11-24

宁波教育AI电话机器人办理价格-放心省心

宁波教育AI电话机器人办理价格进员工难以跟进。流失率居高不下：销售工作单调乏味，流失率居高不下。现在对于很多的传...

01-16

手机坐席与PC端云呼叫中心有哪些区别

疫情期间坐席受制于网络条件或者没带电脑，手机坐席是坐席居家办公的一种新方式，适合没有电脑或者更愿意使用手机的坐...

12-07

Python基础之hashlib模块详解

目录一、hashlib简介二、hash对象的方法三、hashlib实际操作四、小小案例一、hashlib简介 1.什么叫hash: hash是一种算法（不同...

10-18

现在最火的餐饮加盟项目有哪些？你觉得现在餐饮行业好做吗？

2018年最火的餐饮加盟店之贝克士汉堡现在社会的生活方式都是快节奏的，人们会为了节省更多的时间而去选择快餐。然而汉...

12-14

靓车spavip会所企业彩铃录音

您好，欢迎致电靓车spavip会所。我们以专业的技术，为您的爱车提供汽车美容、精品装具、镀晶、镀膜、防爆膜、封釉等专业...

11-27

电销机器人未来趋势图分析（机器人销售前景）

本文目次一览： 1、AI智能电销呆板人阛阓前景如何样？ 2、德律风发售将来的走向是什么？ 3、中科嘉智电销呆板人将来的发...

11-26

廊坊电销卡好用吗

廊坊电销卡好用吗 "本公司是一家专业做电销卡的通讯公司！十年行业经验为为您保驾护航！卡种多，归属地齐全。满足不同...

12-15

解决pytorch load huge dataset(大数据加载)

10-18

本页收集关于解决pytorch load huge dataset(大数据加载)的相关信息资讯供网民参考！

推荐文章

上一篇：解决pytorch rnn 变长输入序列的问题

下一篇：Python开发加薪利器之Docker的使用实践

一起分享吧