О чем говорят цифры. Как понимать и использовать данные. Томас Дэвенпорт
Читать онлайн книгу.или иной переменной в определенный момент в будущем на основе данных о ее динамике в прошлом;
интеллектуальный анализ данных (Data mining) – автоматизированное или полуавтоматизированное выявление ранее неизвестных зависимостей в больших массивах данных с помощью специальных вычислительных алгоритмов или статистических методов;
интеллектуальный анализ текстов – выявление неизвестных зависимостей или тенденций в тексте методами, подобными интеллектуальному анализу данных;
оптимизация – использование математических методов для того, чтобы найти оптимальные решения на основе заданных критериев и установленных ограничений.
эксперимент – формирование тестовой и контрольной групп методом случайного отбора и выявление причин и степени влияния независимых переменных на зависимую переменную.
В этом списке приведены широко известные аналитические методы, причем многие из них используют одни и те же аналитические приемы и процедуры. Например, регрессионный анализ – наиболее распространенный аналитический прием в предсказательной аналитике – не менее популярен и в статистике, прогнозировании и интеллектуальном анализе данных. Точно так же анализ временных рядов, специальная аналитическая процедура из арсенала статистики, предназначенная для анализа меняющихся во времени значений переменных, используется не только в статистике, но и в прогнозировании.
Учетные данные, помогающие принимать решения по персоналу (мы уже говорили о них), являются структурированными (легко представляются в виде таблицы), количественными и относительно небольшими по объему (не более терабайта или двух даже в очень крупных компаниях). Такие данные традиционно использовались в аналитике, поэтому назовем их малыми данными. Долгое время аналитики ни с чем другим дела не имели.
Но сегодня крупные компании, некоммерческие организации и даже стартапы сталкиваются с так называемыми большими данными – неструктурированными массивами информации колоссальных объемов. Их источниками могут быть онлайновые дискуссии в интернете, видеоматериалы или данные анализа ДНК пациентов больницы. У данных такого рода объем намного больше – иногда тысячи петабайт[3]. Например, Google обрабатывает порядка 24 петабайт интернет-данных ежедневно, а AT&T[4] передает по телекоммуникационным сетям около 30 петабайт музыки и прочих данных в день. Благодаря новым прикладным компьютерным программам и техническим новшествам мы можем анализировать огромные массивы данных и извлекать из них полезную информацию.
Термин большие данные применяется для обозначения данных уникально большого объема или неструктурированных данных. Приведем несколько примеров:
• За месяц 600 миллионов пользователей Facebook добавили в сеть 30 миллиардов единиц контента.
• Компания Zynga, занимающаяся сетевыми виртуальными играми, ежедневно
3
Один петабайт равен 1 073 741 824 мегабайтам.
4
AT&T Inc – одна из крупнейших телекоммуникационных компаний в США, провайдер телефонной и беспроводной связи.