Какой из следующих подходов наиболее эффективен для минимизации **latency** при выполнении **batch inference** на GPU с ограниченной памятью?