С распространением больших данных растет спрос на вычислительную и алгоритмическую эффективность. Главная задача настоящей книги состоит в том, чтобы предоставить способы применения мощных методов машинного обучения с открытым исходным кодом в крупномасштабных проектах без привлечения дорогостоящих корпоративных решений или больших вычислительных кластеров. Описаны масштабируемое обучение в Scikit-learn, нейронные сети и глубокое обучение с использованием Theano, H2O и TensorFlow. Рассмотрены классификационные и регрессионные деревья, а также обучение без учителя. Охвачены эффективные методы машинного обучения в вычислительной среде MapReduce на платформах Hadoop и Spark на языке Python.
С этой книгой вы научитесь:
• применять большинство масштабируемых алгоритмов машинного обучения;
• работать с новейшими крупномасштабными методами машинного обучения;
• увеличивать прогнозную точность при помощи методов глубокого обучения и масштабируемых методов обработки данных;
• работать с вычислительной парадигмой Map-Reduce в платформе Spark;
• применять эффективные алгоритмы машинного обучения на основе платформ Spark и Hadoop;
• создавать мощные ансамбли в крупном масштабе;
• использовать потоки данных для обучения линейных и нелинейных прогнозных моделей на чрезвычайно больших наборах данных, используя всего одну машину.