jokerconf Joker 2018 (19.10.2018)

Как ускорить Spark-приложение в задаче машинного обучения

img

В докладе описывается набор техник, примененных на «живом» проекте, которые позволили улучшить время выполнения конкретных джоб в 5-20 раз. Доклад ориентирован на инженеров, работающих с Big Data и в частности со Spark.

Apache Spark — популярное решение, когда речь идет о машинном обучении на больших объемах данных. При этом программировать на Spark несложно, а вот для того, чтобы добиться от приложения высокой производительности, необходимо понимать не только, как Spark устроен изнутри, но и с какими данными и в каком объеме вы имеете дело. В докладе описывается набор техник, примененных на «живом» проекте, которые позволили улучшить время выполнения конкретных джоб в 5-20 раз.