Статистический анализ данных в системе R - Буховец A., Москалев П.

 

Предлагаемое вниманию читателей учебное пособие рассчитано для студентов инженерных или экономических специальностей, которые как самостоятельно, так и под руководством преподавателя занимаются изучением методов проведения статистического анализа данных с помощью современных программных средств. В главах 1-4 настоящего пособия в краткой форме излагаются основные сведения из линейной алгебры, теории вероятностей, математической статистики и её приложений.

Сведения, приводимые в первой главе, имеют справочный характер и сопровождаются относительно простыми примерами, иллюстрирующими базовые свойства векторов, матриц и операций над ними, а сведения во второй главе—примерами, иллюстрирующими функции распределения и числовые характеристики случайных величин с некоторыми, наиболее распространёнными законами распределения. Основной теоретический материал излагается в третьей и четвёртой главах и иллюстрируется более развёрнутыми примерами, ориентированными на практические задачи математической статистики и регрессионного анализа. Завершается учебное пособие приложениями с описанием базовых принципов работы системы статистической обработки данных R, а также с листингами примеров на языке R, оформленными с учётом их самостоятельного применения.

Система статистической обработки данных и программирования R возникла в 1993 году как свободная альтернатива системы S-PLUS, которая в свою очередь являлась развитием языка S, разработанного в конце 1970-х годов в компании Bell Labs специально для решения задач прикладной статистики. Первая реализация S была написана на языке FORTRAN и работала под управлением операционной системы GCOS. Однако широкое распространение языка S в университетской среде началось только в первой половине 1980-х годов, после его переноса на операционную систему UNIX. В настоящее время язык S продолжает своё развитие в составе коммерческого продукта S-PLUS, разработанного в 1988 году американской компанией Statistical Sciences, Inc. и на протяжении последних полутора десятилетий прочно входящего в число наиболее развитых систем статистической обработки данных.

Во второй половине 1993 года двое молодых учёных Росс Иейка (Ross Ihaka) и Роберт Джентльмен (Robert Gentleman), специализировавшихся в области вычислительной статистики, анонсировали свою новую разработку, которую назвали R. По замыслу создателей, R должен был стать свободной реализацией языка S, отличающейся от своего прародителя легко расширяемой модульной архитектурой, при сохранении быстродействия, присущего программам на FORTRAN.

В первые годы проект R развивался достаточно медленно, но по мере накопления «критической численности» сообщества пользователей и поддерживаемых ими расширений R процесс развития ускорялся и в скором времени возникла распределенная система хранения и распространения пакетов к R, известная под аббревиатурой «CRAN». Основная идея организации такой системы состояла в том, что оперативное внедрение все новых и новых функций в монолитную программу требует непрерывных и хорошо скоординированных усилий многих десятков (а быть может и сотен) специалистов из самых разных областей. В то же время, достаточно качественный прикладной пакет, реализующий всего несколько функций, квалифицированный специалист вполне способен написать в одиночку за обозримый промежуток времени, а наличие обратной связи с другими специалистами, заинтересованными в данной разработке, позволяет осуществлять как оперативное тестирование уже написанного кода, так и внедрение новых функций.

В настоящее время реализации R существуют для трёх наиболее распространённых семейств операционных систем: GNU/Linux, Apple Mac OS X и Microsoft Windows, а в распределённых хранилищах системы CRAN по состоянию на конец сентября 2010 года были доступны для свободной загрузки 2548 пакетов расширения, ориентированных на специфические задачи обработки данных, возникающие в эконометрике и финансовом анализе, генетике и молекулярной биологии, экологии и геологии, медицине и фармацевтике и многих других прикладных областях. Значительная часть европейских и американских университетов в последние годы активно переходят к использованию R в учебной и научно-исследовательской деятельности вместо дорогостоящих коммерческих разработок.



Скачать "Статистический анализ данных в системе R - Буховец A., Москалев П."

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей