GPU-вычисления (CUDA basics, батчинг, память, инференс)

Какие стратегии вы используете для оптимизации **memory allocation** и **pinned memory usage** при выполнении **batch inference** на GPU? Какие проблемы могут возникнуть при неправильном управлении памятью, и как вы проверяете, что ваша реализация избегает утечек и фрагментации?