Из ленты Habr DevOps — кратко, чтобы не потерять.
На днях я заметил, что квота Ollama Cloud Pro тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили. Я открыл логи Hermes Agent и нашёл то, о чём не знал: блок auxiliary: с двенадцатью фоновыми задачами. Сжатие контекста, извлечение из веба, vision, поиск по сессиям, подбор навыков — всё это молча запускалось при каждом моём сообщении. Каждая задача стояла на provider: auto . И поскольку у меня не было ключей для цепочки fallback, каждая молча откатывалась на kimi-k2.6 , мою основную модель на триллион параметров. Я понятия не имел, что это происходит. Пока я печатал одно сообщение, агент отправлял одиннадцать других в фоне — через ту же модель, из того же квоты, не показывая мне промпты. Только сжатие контекста срабатывало
Полный текст и контекст у первоисточника: https://habr.com/ru/articles/1042860/?utm_campaign=1042860&utm_source=habrahabr&utm_medium=rss