Основы Data Science и Big Data. Python и наука о данных. — Силен Дэви, Мейсман Арно, Али Мохамед

Эта книга знакомит читателя с областью data science. Опытные специалисты data science поймут, что по некоторым темам материал изложен и лучшем случае поверхностно. Другим читателям сообщим, что для извлечения максимальной пользы из книги потребуются некоторые предварительные условия: чтобы браться за практические примеры, желательно обладать хотя бы минимальными познаниями в SQL, Python, HTML5 и статистике или машинном обучении.

В главах 1 и 2 приводятся общие теоретические основы, необходимые для понимания других глав книги:

□             Глава 1 знакомит читателя с data science и большими данными. Она завершается практическим примером Hadoop.

□             Глава 2 посвящена процессу data science. В ней описаны шаги, присутствующие почти в каждом проекте data science.

В главах 3-5 описано применение принципов машинного обучения к наборам данных постепенно увеличивающихся размеров:

□             В главе 3 рассматриваются относительно небольшие данные, легко помещающиеся в памяти среднего компьютера.

□             В главе 4 задача усложняется: в ней рассматриваются «большие данные», которые могут храниться на вашем компьютере, но не помещаются в памяти, вследствие чего обработка таких данных без вычислительного кластера создает проблемы.

□             В главе 5 мы наконец-то добираемся до настоящих больших данных, с которыми невозможно работать без многих компьютеров.

В главах 6-9 рассматриваются некоторые интересные вопросы data science, более или менее независимые друг от друга:

□             В главе 6 рассматривается архитектура NoSQL и ее отличие от реляционных баз данных.

□             В главе 7 data science применяется к потоковым данным. Здесь основная проблема связана не с размером, а со скоростью генерирования данных и потерей актуальности старых данных.

□             Глава 8 посвящена глубокому анализу текста. Не все данные существуют в числовой форме. Глубокий анализ и аналитика текста начинают играть важную роль в текстовых форматах: электронной почте, блогах, контенте веб-сайтов и т. д.

□             В главе 9 основное внимание уделяется последней части процесса data science (визуализации данных и построению прототипа приложения), для чего мы рассмотрим ряд полезных инструментов HTML5.

В приложениях А-Г рассматриваются процедуры установки и настройки систем Elasticsearch, Neo4j и MySQL, упоминаемых в главах книги, а также Anaconda — программного пакета Python, чрезвычайно полезного в data science.

Attachments:
FileОписание
Access this URL (http://www.statosphere.ru/downloads/books/python/04silenmeysman.rar)Основы Data Science и Big Data. Python и наука о данныхСилен Дэви, Мейсман Арно, Али Мохамед

Добавить комментарий


Защитный код
Обновить

 

Яндекс.Метрика

 

 

Краткое содержание

Вход для слушателей