Apache Spark (RDD/DataFrame, partitions, shuffle, PySpark)

Какие проблемы могут возникнуть при использовании **RDD** в сравнении с **DataFrame** в PySpark, особенно в контексте **fault tolerance** и **memory management**? Когда вы бы выбрали RDD вместо DataFrame?