Расскажите, как вы подходите к оптимизации **memory bandwidth** при выполнении **batch inference** на GPU. Какие метрики вы используете для диагностики узких мест и как вы проверяете, что ваша реализация действительно эффективно использует память?
senior
theory
#1494
Чтобы решить вопрос и сохранить попытку — войди.