Перейти к содержанию

MLOps Engineer's Notebook

A reading list

A reading list

Conferences

2024

✅ Ежегодный митап MLOps и ML-инженеров.

GPU

Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing.
✅ Как разбить GPU на несколько частей и поделиться с коллегами: практическое пособие по работе с MIG.
https://forums.developer.nvidia.com/t/docker-doesnt-detect-mig-gpu-devices/201921
https://habr.com/ru/companies/selectel/articles/699282/
https://habr.com/ru/companies/selectel/articles/724558/
https://habr.com/ru/companies/selectel/articles/703460/
https://developer.nvidia.com/blog/how-to-deploy-an-ai-model-in-python-with-pytriton/
https://github.com/triton-inference-server/server
https://kubernetes.web.cern.ch/blog/2023/01/09/efficient-access-to-shared-gpu-resources-part-1/ https://developer.nvidia.com/blog/improving-gpu-utilization-in-kubernetes/
https://docs.nvidia.com/deploy/mps/index.html
https://docs.nvidia.com/datacenter/tesla/mig-user-guide/
https://leimao.github.io/blog/CUDA-Stream/
Непреодолимая легкость повышения утилизации GPU.
Делим неделимое в Kubernetes: шеринг GPU с помощью MIG и TimeSlicing.
Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU.
ClearML Fractional GPU.