Hadoop / HDFS / MapReduce — вопрос #1487

Какие стратегии оптимизации используются в Hadoop для уменьшения времени выполнения MapReduce задач при работе с большими объемами данных? Расскажите о роли **block size**, **compression**, и **data locality** в этом процессе. Какие инструменты и метрики вы бы использовали для диагностики узких мест в производительности?