GPU-вычисления (CUDA basics, батчинг, память, инференс)

mock_sobes

middle quiz #3116

Какой из следующих подходов наиболее эффективен для минимизации **latency** при выполнении **batch inference** на GPU с ограниченной памятью?

Чтобы решить вопрос и сохранить попытку — войди.