Перейти к содержанию

A reading list

Conferences

2024

  1. Ежегодный митап MLOps и ML-инженеров.

GPU

  1. Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing.
  2. Как разбить GPU на несколько частей и поделиться с коллегами: практическое пособие по работе с MIG.
  3. https://forums.developer.nvidia.com/t/docker-doesnt-detect-mig-gpu-devices/201921
  4. https://habr.com/ru/companies/selectel/articles/699282/
  5. https://habr.com/ru/companies/selectel/articles/724558/
  6. https://habr.com/ru/companies/selectel/articles/703460/
  7. https://developer.nvidia.com/blog/how-to-deploy-an-ai-model-in-python-with-pytriton/
  8. https://github.com/triton-inference-server/server
  9. https://kubernetes.web.cern.ch/blog/2023/01/09/efficient-access-to-shared-gpu-resources-part-1/ https://developer.nvidia.com/blog/improving-gpu-utilization-in-kubernetes/
  10. https://docs.nvidia.com/deploy/mps/index.html
  11. https://docs.nvidia.com/datacenter/tesla/mig-user-guide/
  12. https://leimao.github.io/blog/CUDA-Stream/
  13. Непреодолимая легкость повышения утилизации GPU.
  14. Делим неделимое в Kubernetes: шеринг GPU с помощью MIG и TimeSlicing.
  15. Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU.
  16. ClearML Fractional GPU.