Поиск

www.samag.ru

Web

0 товаров , сумма 0 руб.

	Журнал "Системный администратор"
	Журнал «БИТ»
	Подписка
	Архив номеров
	Где купить
	Авторам
	Рекламодателям
	Контакты

Опросы

Статьи

Автоматизация

Автоматизируем рутину: что реально работает?

Многие сисадмины автоматизировали что-то за последний год. Но далеко не все остались

Защита ИТ-системы

Практическая защита: что вы внедрили и что мешает?

Какие меры безопасности реально внедрить в реальных условиях – и что не

Вопрос-ответ

Обеспечиваем безопасную эксплуатацию базы данных

Что для вас чаще всего является причиной инцидентов с БД? Как вы

Книжная полка

От «безопасного» Linux до Контролируемого взлома

Издательство «БХВ» продолжает радовать читателей интересными новинками и в наступившем году. Вы можете

1001 и 1 книга

19.03.2018г.

Комментарии: 0

Машинное обучение с использованием библиотеки Н2О

12.03.2018г.

Комментарии: 0

Особенности киберпреступлений в России: инструменты нападения и защита информации

12.03.2018г.

Комментарии: 0

Глубокое обучение с точки зрения практика

12.03.2018г.

Комментарии: 0

Изучаем pandas

12.03.2018г.

Комментарии: 0

Программирование на языке Rust (Цветное издание)

19.12.2017г.

Комментарии: 0

Глубокое обучение

19.12.2017г.

Комментарии: 0

Анализ социальных медиа на Python

19.12.2017г.

Комментарии: 0

Основы блокчейна

19.12.2017г.

Комментарии: 0

Java 9. Полный обзор нововведений

16.02.2017г.

Комментарии: 0

Опоздавших не бывает, или книга о стеке

17.05.2016г.

Комментарии: 0

Теория вычислений для программистов

30.03.2015г.

Комментарии: 0

От математики к обобщенному программированию

18.02.2014г.

Комментарии: 0

Рецензия на книгу «Читаем Тьюринга»

13.02.2014г.

Комментарии: 0

Читайте, размышляйте, действуйте

12.02.2014г.

Комментарии: 0

Рисуем наши мысли

10.02.2014г.

Комментарии: 4

Страна в цифрах

18.12.2013г.

Комментарии: 0

Большие данные меняют нашу жизнь

18.12.2013г.

Комментарии: 0

Компьютерные технологии – корень зла для точки роста

04.12.2013г.

Комментарии: 0

Паутина в облаках

03.12.2013г.

Комментарии: 1

Рецензия на книгу «MongoDB в действии»

Друзья сайта

Повышение эффективности использования GPU в кластерах Kubernetes для рабочих нагрузок AI/ML

Архив номеров / 2026 / Выпуск №1-2 (278-279) / Повышение эффективности использования GPU в кластерах Kubernetes для рабочих нагрузок AI/ML

Рубрика: Наука и технологии / Раздел для научных публикаций

Матушкин Д.Р.,
студент, НИУ ВШЭ, matushkin2003@list.ru

Повышение эффективности
использования GPU в кластерах Kubernetes для рабочих нагрузок AI/ML

В работе исследуются подходы к повышению использования GPU в Kubernetes для рабочих нагрузок AI/ML за счет совместного использования и дробления видеокарт. Даны обзор подходов, сравнение изоляции нагрузок и эксперимент с совместным инференсом embedding модели и LLM в RAG сценарии на одном GPU.

Введение

AI/ML практик увеличило спрос на GPU и сделало их одними из самых дорогих и дефицитных элементов вычислительной инфраструктуры. Поскольку стоимость владения GPU во многом определяется тем, насколько полно устройства загружены, для организаций становится критичным уметь повышать утилизацию этих ресурсов при сохранении предсказуемости работы нагрузок.

Во многих командах GPU нагрузки запускаются в Kubernetes, который обеспечивает единый способ доставки, масштабирования и изоляции контейнеров. При этом стандартная модель выделения GPU в Kubernetes по умолчанию опирается на целочисленный ресурс: GPU запрашивается через «resources.limits», планировщик исходит из этого значения, а «долю GPU» в виде стандартного ресурса указать нельзя. На практике это означает, что даже небольшой инференс сервис может занять целый GPU, хотя фактически использует лишь часть вычислительных возможностей устройства.

Следствием становится систематическое недоиспользование дорогостоящего оборудования [1, 2] и рост совокупной стоимости AI/ML платформы [3]: вместо повышения плотности размещения и управляемости ресурсов организации нередко вынуждены наращивать общий объем GPU для реализации всех этапов жизненного цикла моделей машинного обучения.

Один из рабочих путей улучшения ситуации — внедрение механизмов совместного использования и дробления GPU, которые делают возможным запуск нескольких независимых нагрузок на одном физическом ускорителе. В Kubernetes такие подходы обычно реализуются через экосистему NVIDIA (device plugin и связанные компоненты) и поддерживаемые режимы дробления, при которых один GPU может быть разделён на несколько независимых GPU экземпляров.

Цель данной работы — исследовать методы повышения эффективности использования GPU в Kubernetes кластерах за счёт внедрения механизмов шаринга и дробления GPU для AI/ML нагрузок, а также проверить эффективность изоляции нагрузок и рассмотреть вариант применения данных технологий.

Рассмотрим три подхода дробления видеокарты, которые частично взаимозаменяемы по цели (повышение плотности размещения и утилизации), но различаются по механизму разделения и уровню изоляции:

Nvidia Time-Slicing;
Nvidia MIG;
Nvidia MPS.

<...>

Ключевые слова: GPU, Nvidia, MIG, Time-Slicing, MPS, RAG, AI, ML, LLM

Полную версию статьи читайте в журнале
Подпишитесь на журнал

Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

Tel.: (499) 277-12-45
E-mail: sa@samag.ru

Повышение эффективности использования GPU в кластерах Kubernetes для рабочих нагрузок AI/ML

Повышение эффективностииспользования GPU в кластерах Kubernetes для рабочих нагрузок AI/ML

Введение

Повышение эффективности
использования GPU в кластерах Kubernetes для рабочих нагрузок AI/ML