Pytorch DataLoader 变长数据处理方式_Python

Pytorch DataLoader 变长数据处理方式

2020-05-05 10:57HappyCtest Python

今天小编就为大家分享一篇Pytorch DataLoader 变长数据处理方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。

现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。

解决方法是重写DataLoader的collate_fn，具体方法如下：

									# 假如每一个样本为：

									sample = {

									    # 一个句子中各个词的id

									    'token_list' : [5, 2, 4, 1, 9, 8],

									    # 结果y

									    'label' : 5,

									}

									# 重写collate_fn函数，其输入为一个batch的sample数据

									def collate_fn(batch):

									    # 因为token_list是一个变长的数据，所以需要用一个list来装这个batch的token_list

									  token_lists = [item['token_list'] for item in batch]

									  # 每个label是一个int，我们把这个batch中的label也全取出来，重新组装

									  labels = [item['label'] for item in batch]

									  # 把labels转换成Tensor

									  labels = torch.Tensor(labels)

									  return {

									    'token_list': token_lists,

									    'label': labels,

									  }

									# 在使用DataLoader加载数据时，注意collate_fn参数传入的是重写的函数

									DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)