Эффективное использование Apache Spark в production

реклама
Эффективное использование Apache Spark в production —
тонкости и секреты
Александр Сербул
Руководитель направления
Карл…
Карл, Spark работает
очень быстро!
Да, это крутой
инструмент, пап!
Карл…
Карл, я специалист по
BigData….
Это очень
круто,
Но он постоянно падает,
пап! ПАДАЕТ, ПАДАЕТ И
ЗАВИСАЕТ!!!
О чем поговорим
• Использование Spark в production
• Запуск из коробки
• Запуск в Amazon EMR
• Тюнинг, подводные камни
• Как достичь равновесия
Битрикс24 - упрощенно
Битрикс24 - цифры
• Сотни тысяч баз данных клиентов
• Десятки тысяч активных компаний: от единиц до
тысяч сотрудников в каждой
• Несколько датацентров в AWS. Один - в России.
Сервис персональных рекомендаций
~1000 запросов/сек
Batch
процессинг
bitrix.info
analytics.bitrix.info
Регистрация
Выдача ключевой
информации
Хранение
On-line
процессинг
Обработка,
анализ
Сервис персональных рекомендаций
• Кука Пользователя
• Хэш лицензии
Просмотр
товара
Добавление
в корзину
• Домен
• ID товара
Событие
• Название Товара
• Категории Товара
• ID рекомендации
• ряд других
Заказ
Оплата
Заказа
Сервис персональных рекомендаций
~100 запросов/сек
фильтрация
worker (PHP)
~1000 запросов/сек
worker (PHP)
Домены
worker (PHP)
Буфер
bitrix.info
worker (PHP)
worker (PHP)
Лог событий
worker (PHP)
nginx+Lua
Amazon Kinesis
worker (PHP)
worker (PHP)
Пользователи
worker’s
cluster
Amazon
DynamoDB
Сервис персональных рекомендаций
Файл данных
Лог событий
Сервер (spot)
Apache
Tomcat
Сервер (spot)
Apache
Mahout
Сервер (spot)
«Мозги»
Сервер (spot)
Пользователи
Amazon
DynamoDB
Файл данных
Выдача
…
Apache Spark
Amazon S3
analytics.bitrix.info
Домены
Кластер
рекомендаций
Сервис персональных рекомендаций
• Десятки тысяч магазинов
• ~1000 событий в секунду
• Коллаборативная фильтрация
• Кластеризованный товарный каталог (миллионы
товаров)
• Java, Apache Spark, Apache Mahout, DymanoDB,
Kinesis
Технологический roadmap
• Мульти-модальность
• Content-based – рекомендации
• Кластеризация
• Machine learning, deep learning
• Увеличение конверсии
• Эффективность работы с клиентами
• Таргеттинг
Apache Hadoop
• Платформа:
• - вычисления (MapReduce)
• - файловая система (HDFS)
• - “SQL-запросы” по данным (Hive)
Парадигма MapReduce
«Mining of Massive Datasets»: Leskovec, Rajaraman, Ullman (Stanford University)
Apache Spark – что реально удобно
• DAG (directed acyclic graph) vs Hadoop MapReduce vs
Hadoop Streaming
• Spark Programming Guide + API
• Можно на java
• Удобная абстракция: Resilient Distributed Dataset
(RDD)
• Прикольные коллекции, разумно: filter, map,
flatMap
• Sampling по данным (с возвращением и без)
• Scala – как “научный” C++
Как мы используем Spark
• Данные – в s3 (сотни гигабайт-терабайты, сотни миллионов-миллиарды строк)
• RDD – из s3, HDFS – скорость не лучше
• Фильтрация (по регулярным выражениям)
• Аналитика – агрегация, средние, дисперсия, гистограммы, топы
• Выгрузка «больших» файлов моделей (гигабайты)
• Кластеризация товарного каталога (18 млн.) – самописный LSH
• Машинное обучение: Spark MLlib
Apache Spark – что удобно. Быстрый кластер.
• Standalone cluster (или внутри Yarn)
• Просто добавлять машины в кластер
• Подробная-удобная веб-админочка
• Интеграция с HDFS и s3…
Apache Spark – первые грабли. Java7
• Функциональные объекты (куча) из Scala…
• Новые «странные» типы данных: Tuple2, TupleN
• Жуткий нечитаемый код
JavaRDD<String> combinedRowsOrdered = combinedRows.mapToPair(new
PairFunction<String,String,String>() {…
public Tuple2<String,String> call( String row ) {
…return new Tuple2<String, String>…
}
…}
Apache Spark – первые грабли. Scala
• Scala – гораздо сложнее Java, С++/STL «с научным подходом»
• Наука и/или технология
• Модель акторов, Akka
• Java8?
• «Быть или не быть»
Apache Spark – кластер
spark-ec2 скрипт
- standalone cluster
- ruby?, половина репозитория Беркли…
- все ломается при изменении конфигурации
машин, spots
- кривое логирование
- обновление?
Spark + Elastic MapReduce – гораздо лучше!
Amazon EMR - что нам обещают
• Типа готовый Hadoop/Yarn с потрохами 5 размера
• Типа мониторинг всего
• Типа можно изменять размер
• Типа можно использовать копеечные spot-машины
• Типа лучше интегрирован с s3
• Удобные админки через туннелинг и FoxyProxy в
браузере
Amazon EMR - стоимость
• Чуть дороже обычных машин
• Типы машин: Master, Core, Task
• Core-машины – для HDFS, только добавляем
• Можно запускать spot-сервера для Task!
Amazon EMR – софт «из коробки»
• Hadoop/Yarn/HDFS
• Ganglia
• Hive
• Pig
• Hbase
• Impala
• Hue
• Spark!!!
Amazon EMR – Yarn/HDFS
• Удобно менять размер кластера
• HDFS
• Логи работы задач
• У Spark – открывается родной GUI
Минусы:
- Логов море, доработка напильником конфигурации
- Не все можно менять в конфигах, STEPS
Amazon EMR – Ganglia
• Да, типа munin
• Удобно, куча графиков
Минусы:
В GUI остаются убитые spot-машины
Amazon EMR – Hue
• Сначала было удобно
• Много багов
• Убита небольшим объемом данных
Amazon EMR – Hive
• Делаем аналитику - удобно
• Не нужно программировать для Spark
• Простой SQL, мощные возможности (гистограммы,
массивы, maps)
• Не падает «по памяти» - пока
• Отлично интегрирован с DynamoDB, s3
Amazon EMR – Spark!
• Наконец-то
• Родная админка
• Распределение ресурсов
(spark.dynamicAllocation.enabled), только с AMI 4
• Опять море логов и засорение HDFS (100ГБ за неделю)
• Spark History Server - 18080
Amazon EMR – итоги
• Удобно, не нужно 100 сисадминов
• Пока не все идеально, глючит часть софта, но терпимо
• Проклятье логов продолжается 
• Развивается активно, что радует
Apache Spark – падения «по памяти»
• Executor memory (--executor-memory
20G, --conf spark.kryoserializer.buffer.mb=256, --conf
spark.default.parallelism=128, --conf spark.storage.memoryFraction=0.1)
• Map/Reduce
• Partition, repartition…
• KryoSerializer (spark.serializer
org.apache.spark.serializer.KryoSerializer
• Новая Impala (MPP: Presto, RedShift…)? ;-)
)
Apache Spark – выгрузка результатов
• Driver memory (--driver-memory
10G)
• collect()?!
• toLocalIterator()
• rdd.partitions(), rdd.collectPartitions(…)
• Зависания
Apache Spark – ад логирования
export SPARK_LOCAL_DIRS="/mnt/spark,/mnt2/spark"
export SPARK_WORKER_DIR="/mnt/spark_worker"
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -
Dspark.worker.cleanup.interval=1800 Dspark.worker.cleanup.appDataTtl=259200"
#Worker executor stdout/stderr logs
spark.executor.logs.rolling.maxRetainedFiles 2
spark.executor.logs.rolling.strategy time
spark.executor.logs.rolling.time.interval daily
Apache Spark – машинное обучение
• Spark MLlib (spark.mllib)
• spark.ml, pipelines
• python “scikit-learn.org”
• Наш опыт – k-means
• Самописный кластеризатор LSH/Spark
Apache Spark – чем придется заниматься
• Детально изучать в логах работы workers, executors – причины
зависаний/ошибок
• Детально освоить web-админку Spark
• Привыкнуть к кластерным особенностям (переменные окружения, библиотеки
…)
• HDFS/s3
• EMR или штат сисадминов
Apache Spark – выводы
• Действительно полезный инструмент
• Распределенная реляционная алгебра – на ура
• Сыроват еще, несовместимость в версиях
• Не очень стабильный в работе
• Битва за машинное обучение – MLlib пока позади scikit-learn
Спасибо за внимание!
Вопросы?
Александр Сербул
@AlexSerbul
[email protected]
Скачать