I'm working on large-scale experiments that takes pretty long for training, and wondering if this framework can support DataParallel
and DistributedDataParallel
.
Traceback (most recent call last):
File "examples/train.py", line 369, in <module>
main(sys.argv[1:])
File "examples/train.py", line 348, in main
args.clip_max_norm,
File "examples/train.py", line 159, in train_one_epoch
out_net = model(d)
File "/home/yoshitom/.local/share/virtualenvs/yoshitom-lJAkl1qx/lib/python3.6/site-packages/torch/nn/modules/module.py", line 727, in _call_impl
result = self.forward(*input, **kwargs)
File "/home/yoshitom/.local/share/virtualenvs/yoshitom-lJAkl1qx/lib/python3.6/site-packages/torch/nn/parallel/data_parallel.py", line 160, in forward
replicas = self.replicate(self.module, self.device_ids[:len(inputs)])
File "/home/yoshitom/.local/share/virtualenvs/yoshitom-lJAkl1qx/lib/python3.6/site-packages/torch/nn/parallel/data_parallel.py", line 165, in replicate
return replicate(module, device_ids, not torch.is_grad_enabled())
File "/home/yoshitom/.local/share/virtualenvs/yoshitom-lJAkl1qx/lib/python3.6/site-packages/torch/nn/parallel/replicate.py", line 140, in replicate
param_idx = param_indices[param]
KeyError: Parameter containing:
tensor([[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]],
[[-10., 0., 10.]]], device='cuda:0', requires_grad=True)
It would be much more useful if you can publish this framework as a Python package so that we can install it with pip install compressai