Промпт-инжиниринг в информационной безопасности. Как искусственный интеллект станет вашим союзником. Константин Михайлович Саматов

Читать онлайн книгу.

Промпт-инжиниринг в информационной безопасности. Как искусственный интеллект станет вашим союзником - Константин Михайлович Саматов


Скачать книгу
ChatGPT, Claude.

      Как выбрать модель на основе тестов (бэнчмарков)?

      Бэнчмарки – это стандартизированные тесты, которые оценивают производительность моделей по разным параметрам: точность, скорость, поддержка языков, безопасность данных.

      Как использовать бэнчмарки?

      Определите ключевые параметры: точность (например, для анализа кода или текста), скорость (для задач в реальном времени), поддержка языков (русский, китайский) и т. д.

      Сравните модели по бэнчмаркам:

      – MMLU (Massive Multitask Language Understanding) – оценивает общую эрудицию модели.

      – HumanEval – тестирует способность модели писать код.

      – SQuAD (Stanford Question Answering Dataset) – проверяет точность ответов на вопросы.

      Пример. Если вам нужна модель для анализа кода, сравните результаты Qwen Coder и CodeStral по HumanEval (рисунок 4).

      Рисунок 4. Пример сравнения моделей для работы с кодом

      Если важна поддержка русского языка, проверьте модели по тестам на русскоязычных датасетах (рисунок 5).

      Рисунок 5. Пример сравнения моделей работающих с русским языком

      Где найти бэнчмарки?

      1. Официальные сайты моделей. Например, OpenAI и Mistral публикуют результаты тестов своих моделей.

      2. Сайты, где можно скачать локальные модели. Например, HuggingFace и Ollama

      3. Различные исследовательские платформы. Например, сайт Альянся в сфере искусственного интеллекта (https://a-ai.ru/).

      Как практикам в сфере ИБ, нам не нужно особо углублятся в анализ бэнчмарков. Для выбора модели я бы рекомендовал бэнчмарки представленные на сайте Альянса в сфере искусственного интеллекта (https://mera.a-ai.ru/ru/leaderboard).

      Данного лидерборда, в целом, достаточно, чтобы выбрать подходящую модель и начать тестировать ее под свои задачи. На рисунке 6 видно, какие модели показывают себя достаточно хорошо в работе с русскоязычними текстами (задачами). На этом же сайте можно посмотреть, какие модели лидируют по определенным доменам, например безопасность, компьютерная безопасность, юриспруденция (если модель нужна для задач комплаенса).

      Рисунок 6. Лидерборд больших языковых моделей

      1.6. Практикум: Ваш первый профессиональный промпт

      Задача: Научить AI классифицировать инциденты по критичности.

      Шаг 1: Определите роль

      Пример: «Ты – аналитик SOC в банке».

      Шаг 2: Опишите инцидент

      Пример: «Вот описание инцидента: Обнаружено подозрительное подключение к серверу с базой данных клиентов. IP-адрес источника: 192.168.1.100. Время: 03:45 ночи. Действие: Попытка скачивания файла с клиентскими данными».

      Шаг 3: Поставьте задачу

      Пример: «Твоя задача – классифицировать инциденты по уровню угрозы Классифицируй этот инцидент по модели CVSS 4.0. Учитывай: Угроза: (опиши своими словами). Уровень риска: низкий/средний/высокий. Рекомендация: 1—2 предложения».

      Шаг 4: Задайте формат ответа

      Пример: «Ответ предоставь в виде таблицы: – Угроза: (название). – Уровень риска: низкий/средний/высокий. – Рекомендация: (текст)».

      Итоговый промпт: «Ты – аналитик SOC в банке. Классифицируй


Скачать книгу