Выбор модели для AI-систем
Жёсткие атрибуты
- Инфраструктура - Для стартового проекта построение своей инфраструктуры для развертывания модели извлишне затратно как по времени, так и средствам
- Доступность - есть доступ к моделям без ограничений и трудностей оплаты в России
Кандидаты
Исходя из ограничений выбор удалось сузить до нескольких вариантов:
- gpt-oss-120b
- qwen-3-235b-a22b-instruct-2507
- gigachat-2-lite
- yandexgpt-5.1
- deepseek-v3.2
Сравнение кандидатов
Используя ранее реализованные методы по оценке, а также общие сведения о моделях, составлена таблица сравнения
| Критерий | gpt-oss-120b | gigachat-2-lite | yandexgpt-5.1 | qwen-3-235b-a22b | deepseek-v3.2 |
|---|---|---|---|---|---|
| Кулинарная компетентность | Отличная | Хорошая | Хорошая | Отличная | Отличная |
| Завершенность ответов | Завершенные | Иногда диалог выглядит сломанным | Заверешенные в большинстве случаев | Завершенные | Завершенные |
| Структура | Четкая иерархия, акценты, таблицы | Есть иерархия, акценты | Есть иерархия, акценты | Есть иерархия, акценты | Четкая иерархия, акценты |
| Нежелательное следование инструкциям | Не обнаружено | Не обнаружено | Не обнаружено | Не обнаружено | Не обнаружено |
| Размышляющая модель | Да | Нет | Нет | Нет | Дa |
| Стоимость тестирования* | 14 руб. | 0 руб.** | 5 руб. | 10 руб. | 26 руб. |
*- Тестирование выполнено через Yandex Ai Studio, за исключением GigaChat, на одном и том же наборе запросов
**- Первые 1М бесплатно, далее - пакетами. Мин. цена пакета - 1300 руб. за 20M
Выбор модели
Исходя из таблицы, в качестве итоговой модели была выбрана размышляющая модель gpt-oss-120b за умеение четко и наглядно представлять информацию, не устапая по компетентности в кулинарии qwen-3-235b-a22b-instruct-2507 и deepseek-v3.2.