Статьи и практические заметки

Практические материалы для платформенных и DevOps-команд: Hadoop, Kafka, Kerberos, Apache Ranger, Spark, YARN, Hive и автоматизация. Пишем так, чтобы до первого разговора было понятно, как мы смотрим на проблему и результат

FAQ / Гуру-статья

Топ-5 причин падения Spark-джобов в Kerberos-среде

В Kerberos-среде Spark часто обвиняют в проблемах безопасности, хотя реальная причина может быть в YARN, classpath, delegation tokens, Ranger, Hive Metastore или сетевой доступности KDC. Важно быстро отделить Kerberos-ошибку от похожих симптомов.

Читать статью →
Практика

Несколько версий Spark в Hadoop: где чаще всего появляются проблемы

Несколько версий Spark в одном кластере нужны, когда разные команды не могут одновременно переехать на один стек. Но без строгой изоляции это быстро превращается в конфликт зависимостей.

Читать статью →
Практика

YARN, память и LinuxContainerExecutor: зачем нужен контроль на уровне контейнеров

Когда YARN-контейнеры потребляют больше памяти, чем должны, OOM на уровне узла убивает процессы слишком грубо. Для рабочего кластера лучше иметь контролируемое поведение на уровне контейнера.

Читать статью →