mock_sobes
← GPU-вычисления (CUDA basics, батчинг, память, инференс)
senior theory #1494
Расскажите, как вы подходите к оптимизации **memory bandwidth** при выполнении **batch inference** на GPU. Какие метрики вы используете для диагностики узких мест и как вы проверяете, что ваша реализация действительно эффективно использует память?
Чтобы решить вопрос и сохранить попытку — войди.