Как начать понимать "птичий язык" ИИ инженера?

Как начать понимать "птичий язык" ИИ инженера?
Книга переводчик с языка инженеров по ИИ на язык обывателя

Как понять о чем говорит специалист по ИИ?

Вот реальный пример, ниже мы его переведем на доступный всем язык

одна 80Gb H100 работает в 10 сессий на LLaMA-70B-AWQ моделях. Qwen3-32B-AWQ, это сотни сессий на 8 GPU h100. deepseek r1 685B - это 5-10 сессий на 8 H200.
зависит от того какая модификация и длина контекста
если awq обычную 7B - можно на одной карте запустить сотню. 33b - в два, три раза меньше. но все ровно больше чем 150 на предложенной конфигурации
по нормальному от типа данных смотреть. если это не длинный диалог с пользователем. то 33b-awq от deepseek или qwen - идеальный вариант на сегодняшний день. по 30-50 сессий на карточку будут работать.

И так. О чем же речь?


Ключевые понятия простыми словами:

1.  LLM (например, LLaMA, Qwen, DeepSeek) — это и есть "двигатель", большая языковая модель. Цифры (7B, 32B, 70B, 685B) — это количество параметров (миллиарды). Чем больше цифра, тем модель "умнее" и сложнее, но и тем больше ей нужно памяти и мощности.

    *   7B = 7 миллиардов параметров.

    *  685В = 685 миллиардов параметров — это настоящий монстр.

2.  H100, H200 — это самые мощные и современные "машины" (видеокарты) от NVIDIA, специально созданные для ИИ. H200 еще новее и мощнее, чем H100.

3.  AWQ — это техника "сжатия" модели. Представьте, что вы ужимаете большой файл в ZIP-архив, чтобы он меньше весил, но при распаковке вся информация остается. AWQ делает модель в 2-4 раза меньше почти без потери качества, что позволяет запускать её на менее мощном "железе" или запускать больше копий.

4.  Сессия — это один разговор с моделью, один пользователь. Если у вас 10 сессий, значит 10 человек одновременно могут общаться с ИИ.

5.  Контекст — это объем памяти модели, её "кратковременная память". Чем он длиннее, тем больше текста (или истории диалога) модель может "помнить" в рамках одного разговора. Длинная память требует больше ресурсов.

О чем весь этот разговор? 

1. Инженер рассказывает, сколько одновременных пользователей (сессий) можно "впихнуть" на одну видеокарту или кластер из нескольких карт.

одна 80Gb H100 работает в 10 сессий на LLaMA-70B-AWQ моделях. deepseek r1 685B - это 5-10 сессий на 8 H200."

Что происходит: Огромные модели (70B и особенно 685B) требуют так много памяти, что даже на сверхмощных картах (H100) или целых 8 картах (H200) можно запустить очень мало одновременных сессий.

2. Эффективный случай (много сессий):

Qwen3-32B-AWQ, это сотни сессий на 8 GPU h100. ... 33b-awq от deepseek или qwen - идеальный вариант... по 30-50 сессий на карточку будут работать.

Что происходит: Модели среднего размера (32B-33B), сжатые с помощью AWQ, — это "золотая середина". Они достаточно умны для большинства задач, но при этом достаточно компактны.

Простая аналогия: Это как заменить 10 огромных грузовиков (моделей 70B) на 100 компактных и быстрых хэтчбеков (моделей 33B). На той же самой парковке (8 карт H100) вы сможете разместить гораздо больше машин и обслужить гораздо больше клиентов (сотни сессий).


Итог доступным языком:

Речь идет о балансе между "умностью" модели и количеством пользователей, которых она может обслуживать одновременно.

Вывод спикера: Для большинства практических задач модель размером 32B-33B — это идеальный выбор, который позволяет и хорошо отвечать, и обслуживать много людей без астрономических затрат.

Надеюсь, теперь стало понятнее! Это как раз та инженерная "кухня", которая стоит за любым популярным чат-ботом.

Записаться на консультацию