Data Science. Наука о данных с нуля. - Грас Дж.

Для работы в области науки о данных разработана масса программных библиотек, платформ, модулей и инструментариев, которые эффективно реализуют наиболее (нередко, и наименее) общие алгоритмы и приемы, применяемые в науке о данных. Тот, кто станет аналитиком данных, несомненно, будет досконально знать библиотеку для научных вычислений NumPy, библиотеку для машинного обучения scikit-learn, библиотеку для анализа данных pandas и множество других. Они прекрасно подходят для решения задач, связанных с наукой о данных. Но они также способствуют тому, чтобы начать решать задачи в области науки о данных, фактически не понимая ее.

В этой книге мы начнем двигаться в сторону науки о данных, стартовав с нулевой отметки, а именно займемся разработкой инструментов и реализацией алгоритмов вручную с тем, чтобы лучше понять их. Я вложил немало своего умственного труда в создание ясных, хорошо задокументированных и читаемых реализаций алгоритмов и примеров. В большинстве случаев инструменты, которые мы станем конструировать, будут иметь не практический, а разъясняющий характер. Они хорошо работают с малыми, почти игрушечными, наборами данных, но не справляются с данными "веб-масштаба”.

По ходу изложения я буду отсылать читателя к библиотекам, которые подойдут для применения этих методов на более крупных наборах данных. Но мы их не будем тут использовать.

По поводу того, какой язык программирования лучше всего подходит для обучения науке о данных, развернулась здоровая полемика. Многие настаивают на языке статистического программирования R (мы называем таких людей неправильными). Некоторые предлагают Java или Scala. Однако, по моему мнению, Python — идеальный вариант.

Он обладает несколькими особенностями, которые делают его особенно пригодным для изучения и решения задач в области науки о данных:

♦            он бесплатный;

♦            он относительно прост в написании кода (и в особенности в понимании);

♦            он располагает сотнями прикладных библиотек, предназначенных для работы в области науки о данных.

Не решусь назвать Python моим предпочтительным языком программирования. Есть другие языки, которые я нахожу более удобными, продуманными либо просто интересными для программирования. И все же практически всякий раз, когда я начинаю новый проект в области науки о данных, либо, когда мне нужно быстро набросать рабочий прототип, либо продемонстрировать концепции этой практической дисциплины ясным и легким для понимания способом, я всякий раз в итоге использую Python. И поэтому в этой книге используется Python.

Эта книга не предназначена для того, чтобы научить программировать на Python (хотя, я почти уверен, что, прочтя ее, этому можно немного научиться). Тем не менее, я проведу интенсивный курс программирования на Python (ему будет посвящена целая глава), где будут высвечены характерные черты, которые в данном случае приобретают особую важность. Однако если знания, как программировать на Python (или о программировании вообще), отсутствуют, то читателю остается самому дополнить эту книгу чем-то вроде руководства по Python для начинающих.

В последующих частях нашего введения в науку о данных будет принят такой же подход — углубляться в детали там, где они оказываются решающими или показательными. В других ситуациях на читателя возлагается задача домысливать детали самому или заглядывать в Википедию.

За годы работы в отрасли я подготовил некоторое количество специалистов в области науки о данных. Хотя не все из них стали меняющими мир супер-мега-рок-звездами в области анализа данных, тем не менее, я их всех выпустил более подготовленными специалистами, чем они были до этого. И я все больше убеждаюсь в том, что любой, у кого есть некоторые математические способности вкупе с определенным набором навыков в программировании, располагает всем необходимым для решения задач в области науки о данных. Все, чего она требует, это лишь пытливый ум, готовность усердно трудиться и наличие данной книги. Отсюда и эта книга.

Attachments:
FileОписание
Access this URL (http://www.statosphere.ru/downloads/books/python/07grasdzhoel.rar)Data Science. Наука о данных с нуля. - Грас Дж.Data Science. Наука о данных с нуля. - Грас Дж.

Добавить комментарий


Защитный код
Обновить

 

Яндекс.Метрика

 

 

Краткое содержание

Вход для слушателей