GPU-вычисления (CUDA basics, батчинг, память, инференс)

Расскажите, как вы подходите к оптимизации **memory bandwidth** при выполнении **batch inference** на GPU. Какие метрики вы используете для диагностики узких мест и как вы проверяете, что ваша реализация действительно эффективно использует память?