jugmsk JUG.MSK Meetup #30 (12.07.2018 — 12.07.2018)

BigData + ML for Java Developer - A to Z

img

Однажды вы проснулись и оказались на проекте, где есть куча данных в кластере Spark или в кластере Ignite, а если еще нет, то рано или поздно это точно случится.

Проект требует машобуча. Что делать, как быть, какой R package качать?

Ничего не надо качать, разбираемся в том, что нужно уметь и понимать джависту на типичном BigData + ML проекте:

  • как выбирать фичи;

  • как перекодировать фичи;

  • как скалировать;

  • как очищать и заполнять пропуски;

  • как оценивать качество классификации;

  • что делать, если одного дерева мало;

  • уметь делать кросс-валидацию.

И всё это на Spark + Scala в первой части и Ignite + Java во второй!

В качестве примера будет использован один из самых популярных датасетов с Kaggle про пассажиров одного непотопляемого лайнера.

Желательно знать что такое Spark или Ignite, а также знать ML в объеме парочки курсов с Coursera.