AI inference на K8s: как выживать с LLM в кубере. DRA, GIE, LLM-D

Из ленты Habr DevOps — кратко, чтобы не потерять.

Для многих обывателей, да и инженеров, которые не углублялись в тему, работа с LLM выглядит как работа с обычным сервисом: мы просто кидаем запросы по нужному endpoint и получаем JSON с ответом. Но на деле появляется много вопросов: как здесь работает кэш? От чего зависит время ответа? Что делать с огромным контекстным окном? И если у нас один GPU-сервер, на котором происходят все вычисления, то это не так и важно. Но что делать с масштабными распределёнными системами? Обычный Kubernetes не понимает, как устроен запрос языковой модели. Однако за последний год платформенные инженеры очень хорошо продвинулись в этом вопросе. И в этой статье я хочу подробно разобрать, как именно строится K8s-кластер под высоконагруженные LLM. Читать далее

Полный текст и контекст у первоисточника: https://habr.com/ru/companies/ruvds/articles/1042292/?utm_campaign=1042292&utm_source=habrahabr&utm_medium=rss