BIG DATA. Вся технология в одной книге. Андреас Вайгенд
Читать онлайн книгу.понял важность входящих ссылок для места странички в выдаче поисковика, появилась сфера деятельности под названием «поисковая оптимизация» с одиозными «фермами ссылок», или линкопомойками. Алгоритмы Google пришлось усовершенствовать, чтобы они могли отличать входящие ссылки реальных заинтересованных пользователей от созданных по заказу владельца сайта. Сегодня у Google помимо структуры ссылок сети есть накопленные за два десятилетия данные о том, на какие сайты, предложенные по поисковому запросу, заходили люди и сколько времени проводили на них, прежде чем вернуться к странице результатов поиска. Если на сайт заходят многие, но, лишь бегло взглянув на него, уходят искать что-то более интересное, релевантность страницы в поиске Google падает, и она опускается ниже в результатах поиска. Тем не менее высокое место странички в результатах поиска в Google не гарантирует достоверность представленной на ней информации, а является лишь свидетельством проявляемого к ней внимания.
Сколько поисковых запросов проходит через Google ежедневно? Сколько фотографий размещается в Facebook? Умение различать достоверные, недостоверные и невероятные данные – один из базовых навыков информационной грамотности. Точные цифры не столь важны: информационная грамотность означает умение видеть разницу между чем-то вполне приемлемым и явной ошибкой на порядок. В подобных оценках физики часто рассуждают с позиций порядковых величин, то есть десятикратных различий. Они скажут, что количество пользователей Google или Facebook составляет порядка миллиарда человек, поскольку оно точно больше 100 миллионов и меньше 10 миллиардов[37]. Далее они сделают допущение о том, что типичный пользователь делает в среднем 10 поисковых запросов в день, поскольку их точно больше одного, но меньше 100. При оценке количества фотографий в Facebook они будут исходить из показателя одно фото на пользователя в день, поскольку их точно больше, чем одно в месяц и меньше 10 в день. Таким образом, мы получаем порядковые оценки ежедневного количества поисковых запросов и размещаемых фотографий – 10 миллиардов и 1 миллиард соответственно. И это только два вида операций в области социальных данных[38].
Осознав, что социальные данные ежедневно создаются во многих миллиардах других случаев, вы начинаете понимать, что ваши собственные первичные данные не имеют какой-то особой ценности в материальном смысле. Умилительное фото вашей собачки, которое вы запостили в Facebook, заинтересует от силы сотню человек, или 0,00001 процента пользователей сайта. Практически полезные закономерности и взаимосвязи можно выявить, только собрав и проанализировав данные нескольких миллионов человек. Отсутствие в их числе данных какого-то одного человека не повлияет на выводы, сделанные в результате переработки остального массива информации. Картина инфопереработчиков не исказится из-за пропуска данных одного человека из миллиарда.
Более того, входящая информация не всегда бывает столь же дискретной, как
37
В 2015 году Facebook сообщала о 1,59 миллиарде посещений в месяц при среднем количестве ежедневных посетителей в 1.04 миллиарда. См. Mike, “Facebook Reports Soaring Revenue, Buoyed by Mobile Ads”, New York Times, January 27, 2016, http://www.nytimes. com/2016/01/28/technology/facebook-earnings-zuckerberg.html.
38
У Google нет регулярной отчетности о количестве поисков в ее сервисах. Тем не менее в ее отчете “Zeitgeist” за 2012 год говорилось о 3,3 миллиардах поисковых запросов ежедневно. См. https://www.google.com/zeitgeist/2012/#the-world.