Multi-GPU distribution of single-batch, time-dependent linear products
Modern approaches to distributed deep learning focus on using more GPU nodes to process more data in parallel, updating the model weights using a distributed gradient update rule across all nodes. The main limitation of this paradigm is that it assumes that at least one sample of data can fit in a s...
- Autores:
-
Margffoy Tuay, Edgar Andrés
- Tipo de recurso:
- Fecha de publicación:
- 2020
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- eng
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/48619
- Acceso en línea:
- http://hdl.handle.net/1992/48619
- Palabra clave:
- Unidades de procesamiento gráfico
Aprendizaje automático (Inteligencia artificial)
Ingeniería
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/