[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок

Из ленты Habr DevOps — кратко, чтобы не потерять.

Я создал собственный бенчмарк для оценки языковых моделей, потому что стандартные публичные тесты не отвечают на мой главный вопрос: какая модель лучше справляется с триажем security-находок. Эта задача отличается от оценки общей сообразительности модели. Читать далее

Полный текст и контекст у первоисточника: https://habr.com/ru/articles/1041742/?utm_campaign=1041742&utm_source=habrahabr&utm_medium=rss