Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт. Джордан Голдмейер

Читать онлайн книгу.

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Джордан Голдмейер


Скачать книгу
можете понять общую картину

      Для лучшего понимания данных и работы с ними вам необходимо быть готовым к изучению сложных концепций. И даже если вы уже знакомы с ними, мы научим вас тому, как донести их до вашей аудитории.

      Вам также предстоит принять такой редко обсуждаемый факт, что во многих компаниях работа с данными оказывается неэффективной. Вы разовьете интуицию, понимание и здоровый скептицизм в отношении чисел и терминов, с которыми сталкиваетесь. Эта задача может показаться сложной, но эта книга поможет вам ее решить. И для этого вам не понадобятся ни навыки программирования, ни докторская степень.

      С помощью четких объяснений, мысленных упражнений и аналогий вы сможете выстроить ментальную модель для понимания науки о данных, статистики и машинного обучения.

      В следующем примере мы сделаем именно это.

      Классификация ресторанов

      Представьте, что вы идете по улице и видите пустую витрину с вывеской «Новый ресторан: скоро открытие». Вы устали питаться в сетевых ресторанах и постоянно ищете новые местные заведения, поэтому задаетесь вопросом: «Появится ли здесь новый независимый ресторан?»

      Давайте поставим этот вопрос более формально: как вы думаете, будет ли новый ресторан сетевым или независимым?

      Угадайте. (Серьезно, подумайте об этом, прежде чем двигаться дальше.)

      В реальной жизни вы сделали бы довольно хорошее предположение за доли секунды. Находясь в модном районе с множеством местных пабов и закусочных, вы бы предположили, что ресторан будет независимым. А если бы речь шла о межштатной автомагистрали с расположенным рядом торговым центром, вы бы предположили, что ресторан будет сетевым.

      Но когда мы задали вопрос, вы заколебались. Вы подумали, что мы предоставили недостаточно информации. И вы были правы. Мы не предоставили вам никаких данных для принятия решения.

      Мораль: для принятия обоснованных решений требуются данные.

      Теперь посмотрите на первое изображение на следующей странице. Новый ресторан отмечен крестиком (X), буквой C обозначены сетевые рестораны (chain), а буквой I – независимые (independent) местные закусочные. Какое предположение вы сделали бы на этот раз?

      Большинство людей предполагает, что ресторан будет независимым (I), потому что такова большая часть близлежащих ресторанов. Однако обратите внимание на то, что независимыми являются далеко не все из них. Если бы мы попросили вас оценить уровень достоверности[5] вашего прогноза в диапазоне от 0 до 100, то она, скорее всего, была бы высокой, но не равной 100, поскольку по соседству вполне может появиться еще один сетевой ресторан.

      Мораль заключается в следующем: предсказания никогда не могут быть на 100 % достоверными.

      Район Овер-Райн, Цинциннати, штат Огайо

      Теперь взгляните на следующее изображение. В этом районе есть большой торговый центр, и большинство ресторанов здесь – сетевые. Когда людям предлагается предсказать, каким будет новый ресторан в этом


Скачать книгу

<p>5</p>

Примечание для коллег-статистиков: мы имеем в виду обычную, а не статистическую достоверность.