Apache Spark (RDD/DataFrame, partitions, shuffle, PySpark)

Объясните, как работает **shuffle** в Spark и какие **параметры конфигурации** влияют на его производительность. Какие проблемы могут возникнуть при **large shuffle** операциях и как вы будете оптимизировать такие сценарии?