AI inference на K8s: как выживать с LLM в кубере. DRA, GIE, LLM-D

Для многих обывателей, да и инженеров, которые не углублялись в тему, работа с LLM выглядит как работа с обычным сервисом: мы просто кидаем запросы по нужному endpoint и получаем JSON с ответом. Но на деле появляется много вопросов: как зде

3 июня 2026 г. · 1 минута · alex (devops)

Elasticsearch без мастеров или как оживить труп

Всем привет, меня зовут Илья и я хочу вам рассказать как я после небольшой правки в тераформ я потерял все мастера в кластере Elasticsearch. ЧатГПТ и гугл уже принесли мне лопату чтобы похоронить эти сервера, но начальство сказало: “Может

3 июня 2026 г. · 1 минута · alex (devops)

Model Predictive Control для Kubernetes autoscaling: что получилось, где HPA оказался сильнее

Короткий пик нагрузки может закончиться раньше, чем Kubernetes успеет добавить готовую ёмкость. Разбираю, почему HPA и MPC-подходы упираются не только в алгоритм, но и в задержку метрик, запуск Pod и readiness. Разобрать лаг автоскейлинга

3 июня 2026 г. · 1 минута · alex (devops)

Личный CI/CD за один вечер: настраиваем GitLab Runner на собственном VPS

Если у вас пет-проект или небольшой стартап на GitLab.com, рано или поздно вы упрётесь в потолок бесплатного тарифа: 400 минут пайплайнов в месяц и общая очередь раннеров. Покупка дополнительных минут стоит денег и не решает вторую проблему

3 июня 2026 г. · 1 минута · alex (devops)

Я собрал Telegram-бота с лентой новостей, которая учится на твоих реакциях — и хостится за $5 в месяц

Хотел ленту новостей без двух вещей: дублей (одно событие из пяти каналов с разными заголовками) и потока негатива по утрам. Получился Telegram-бот, который по умолчанию показывает только хорошие и нейтральные новости — а тяжёлый контент вк

3 июня 2026 г. · 1 минута · alex (devops)

Chrome-расширение для GitLab: от rebase до cherry-pick

Работая с GitLab каждый день, повторяешь кучу одинаковых действий которые хотелось бы делать быстрее чем позволяет UI. Надоело, запилил Chrome-расширение. В статье рассказываю как устроено внутри: авторизация через session cookies без токен

2 июня 2026 г. · 1 минута · alex (devops)

Hermes Agent сжигал 603M токенов за спиной — как я сократил фоновые расходы в 125 раз

На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили. Я открыл логи Hermes Agent и нашёл то, о чём не знал: блок auxiliary: с д

2 июня 2026 г. · 1 минута · alex (devops)

Pull request открыл — стенд появился. Закрыл — исчез. Эфемерные окружения в kubernetes через FluxCD

Когда несколько разработчиков хотят одновременно показать свои изменения — локальной разработки уже недостаточно. В статье разбираем, как автоматически поднимать изолированные окружения в Kubernetes по PR с лейблом и так же автоматически уд

2 июня 2026 г. · 1 минута · alex (devops)

Домашний удалённый доступ без панели: эксперимент с Xray, Docker Compose и локальным CLI

Домашний удалённый доступ без панели: эксперимент с Xray, Docker Compose и локальным CLI Самый неприятный момент в маленькой домашней инфраструктуре наступает не тогда, когда она падает. Хуже, когда она начинает работать достаточно хорошо,

2 июня 2026 г. · 1 минута · alex (devops)

Автоматизируем генерацию gRPC стабов для Go

Держать proto-контракты в одном репозитории удобно, но подключать их целиком в каждый сервис — не очень. Разберём, как автоматически генерировать Go-стабы из proto-файлов, версионировать их как отдельные Go-модули и публиковать через GitLab

2 июня 2026 г. · 1 минута · alex (devops)