В этом посте расскажу про несколько книг, которые (естественно, на мой субъективный взгляд) могут стать надежной основой для решения задач из мира анализа данных. Отличительной особенностью этих книг является тот язык, которым они написаны. Язык, хорошо понятный инженерам, решающим прикладные задачи.
К этому и другим достоинствам добавляется еще тот факт, что список покрывает почти все основные области анализа данных - основы прикладной статистики, тестирование гипотез, разведочный анализ данных, классические методы машинного обучения и глубокое обучение.
Собственно:
- Стентон Гланц. Медико-биологическая статистика, 1999
- Статистический анализ и визуализация данных. Мастицкий С.Э., Шитиков В.К., 2015
- Введение в статистическое обучение с примерами на языке R. Джеймс Г., Уиттон Д., Хасти Т, Тибширани Р., 2018
- Глубокое обучение на R. Шолле Ф., Аллер Дж., 2018
- Doing Bayesian Data Analysis. Kruschke J., 2010
Теперь коротко расскажу о каждой книге из списка.
Если всё, что вы помните о статистике из университетского курса, это что-то про коэффициенты Стьюдента, то "Медико-биологическая статистика" Стентона Гланца станет для вас просто открытием. Может даже оказаться, что многое из того, что вы раньше делали в своей инженерной жизни, было не очень-то профессиональным. Например, по результатам своих исследований вы утверждали, что инженерное решение А лучше, чем решение Б, потому что в среднем значение некого показателя качества лучше для А. Но при этом вы не исследовали вопрос, а не могла ли эта разница в средних значениях быть просто результатом случайности.
Ну или вполне вероятно, что вы аппроксимировали данные с помощью линейной регрессии, но не знали о существовании условий применимости линейной модели.
Звучит знакомо? Тогда ищите "Медико-биологическую статистику", она есть в открытом доступе.
Кстати, название не должно вас пугать. Эта книга подойдет для инженеров любых специальностей. Да, все примеры из области медицины, но это скорее плюс, чем недостаток. Во-первых, у вас не начинает дергаться глаз, как при виде очередной книги, где авторы во всех примерах подбрасывают монеты или игральные кости. Во-вторых, медицинские примеры полезны в повседневной жизни, например, чтобы понимать, как интерпретировать результаты клинических исследований лекарства, которое вам прописал врач (так как рассчитывать, что их уже изучил сам врач, не приходится). Можно, например, открыть для себя, что статистическая значимость результатов исследований - это важно, но еще есть и величина эффекта. Например, производитель нового противовирусного препарата ценой в сотни нефти и с огромным списком побочных эффектов предлагает вам лечить орви и гордо заявляет, что p-value в исследованиях было 10-16 . Здорово, но стоит проверить и величину эффекта. Если, например, контролировалось время от начала приема препарата до стабилизации температуры тела на 36.6С, то не оказалось ли так, что в группе препарата это было в среднем 48 часов, а в группе плацебо - 50? Готовы ли вы платить и проверять побочные эффекты за разницу в 2 часа?
Из книги Гланца можно узнать про описательные статистики, дисперсионный анализ, про многие параметрические и непараметрические критерии проверки гипотез, анализ выживаемости и другое. На мой взгляд, это самая крутая (в плане доступности для понимания инженером) книга по базовым основам прикладной статистики.
Следующая книга - "Статистический анализ и визуализация данных". С этой книгой, помимо классических критериев проверки гипотез, вы сможете изучить во всех деталях дисперсионный и регрессионный анализ. Если вы скажете типичному представителю Data Science сообщества (как минимум, русскоязычного), что решаете свою задачу с помощью линейной модели, то вряд ли прослывете хорошим исследователем /sarcasm/ . Потому как, очевидно же, что использовать нужно нейросеть со сложной архитектурой, аттеншеном, пакетной нормализацией и остаточными связями. В то же самое время очень вероятно, что такой типичный представитель не знает, как выбрать между несколькими линейными моделями, что такое контрасты, как продиагностировать линейную модель и т.п. Чтобы не быть таким специалистом, читайте книгу "Статистический анализ и визуализация данных" и выбирайте средства исходя из целей своей задачи, а не хайпа вокруг AI.
"Введение в статистическое обучение с примерами на языке R". Эту книгу можно рассматривать, как продолжение/дополнение предыдущей. Здесь можно продолжить изучать детали применения линейных моделей а также обобщенных аддитивных моделей (Generalized Additive Models GAM). Но кроме этого описаны и базовые нелинейные методы - деревья решений, случайны лес (Random Forest), машины опорных векторов (Support Vectot Machine SVM), затронуты темы задач классификации и кластеризации. Среди авторов этой книги не только просто умные люди, но и непосредственно создатели некоторых методов анализа данных (Лассо-регрессии). А перевод с английского сделан Сергеем Мастицким - автором предыдущей книги.
Книга "Глубокое обучение на R" - это, конечно, довольно поверхностный и общий обзор глубокого обучения. Так что, если у вас большой опыт в Deep Learning, то эта книга будет неинтересна. Однако, если вы даже и использовали DL для решения своих задач, но не очень интересовались, что происходит после вызова fit() для вашей модели, то "Глубокое обучение на R" - это очень полезная вещь. Книга доступно описывает вопросы выбора архитектуры сети, настройку процесса обучения, дает много практических советов по применению DL. Франсуа Шолле - автор книги - это основной создатель фреймворка для глубокого обучения Keras.
Вторая, третья и четвертая книга предполагают, что вы используете язык R для задач анализа данных. Но если вторая и третья книги будут полезны даже и при использовании других средств анализа, то если из книги "Глубокое обучение на R" выкинуть всё, что относится к R, то останется довольно тонкая брошюра (но полезная).
Doing Bayesian Data Analysis. У меня были сомнения, добавлять ли эту книгу в список. Не могу сказать, что она написана настолько же понятно для инженера, как остальные упомянутые издания. Но на данный момент, это самое лучшее, что я читал по Байесовским методам статистики (правда, и читал я крайне немного). В итоге я решил все же добавить её, хотя бы просто для того, чтобы список книг затрагивал Байесовский подход в статистике. Перевода на русский этой книги, кажется, не существует.
Следующая книга - "Статистический анализ и визуализация данных". С этой книгой, помимо классических критериев проверки гипотез, вы сможете изучить во всех деталях дисперсионный и регрессионный анализ. Если вы скажете типичному представителю Data Science сообщества (как минимум, русскоязычного), что решаете свою задачу с помощью линейной модели,
"Введение в статистическое обучение с примерами на языке R". Эту книгу можно рассматривать, как продолжение/дополнение предыдущей. Здесь можно продолжить изучать детали применения линейных моделей а также обобщенных аддитивных моделей (Generalized Additive Models GAM). Но кроме этого описаны и базовые нелинейные методы - деревья решений, случайны лес (Random Forest), машины опорных векторов (Support Vectot Machine SVM), затронуты темы задач классификации и кластеризации. Среди авторов этой книги не только просто умные люди, но и непосредственно создатели некоторых методов анализа данных (Лассо-регрессии). А перевод с английского сделан Сергеем Мастицким - автором предыдущей книги.
Книга "Глубокое обучение на R" - это, конечно, довольно поверхностный и общий обзор глубокого обучения. Так что, если у вас большой опыт в Deep Learning, то эта книга будет неинтересна. Однако, если вы даже и использовали DL для решения своих задач, но не очень интересовались, что происходит после вызова fit() для вашей модели, то "Глубокое обучение на R" - это очень полезная вещь. Книга доступно описывает вопросы выбора архитектуры сети, настройку процесса обучения, дает много практических советов по применению DL. Франсуа Шолле - автор книги - это основной создатель фреймворка для глубокого обучения Keras.
Вторая, третья и четвертая книга предполагают, что вы используете язык R для задач анализа данных. Но если вторая и третья книги будут полезны даже и при использовании других средств анализа, то если из книги "Глубокое обучение на R" выкинуть всё, что относится к R, то останется довольно тонкая брошюра (но полезная).
Doing Bayesian Data Analysis. У меня были сомнения, добавлять ли эту книгу в список. Не могу сказать, что она написана настолько же понятно для инженера, как остальные упомянутые издания. Но на данный момент, это самое лучшее, что я читал по Байесовским методам статистики (правда, и читал я крайне немного). В итоге я решил все же добавить её, хотя бы просто для того, чтобы список книг затрагивал Байесовский подход в статистике. Перевода на русский этой книги, кажется, не существует.
Комментарии
Отправить комментарий