BIG DATA. Вся технология в одной книге. Андреас Вайгенд
Читать онлайн книгу.на мужчин и женщин[93]. Если предположить, что количество новорожденных равномерно распределяется по количеству дней в году, то получается, что «привязанными» к одному почтовому индексу будут по десять мужчин или женщин с одинаковым днем рождения.
Теперь посмотрим на социальные данные, которыми обычно располагает инфопереработчик. Представление о том, что человека нельзя идентифицировать по его цифровому следу, рассыпалось в пух и прах после того, как два крупнейших инфопереработчика поделились «обезличенными» социальными данными с учеными. Сначала интернет-провайдер AOL предоставил для исследовательских целей историю поиска 658 000 пользователей за трехмесячный период. Однако по чьей-то оплошности эти данные оказались в сети, и двум журналистам из газеты «Нью-Йорк таймс» удалось установить личности нескольких человек по их поисковым запросам[94]. Это оказалось довольно просто, поскольку люди любят искать информацию о самих себе или своих родственниках или прокладывать маршруты от своего домашнего адреса. Затем интернет-видеосервис Netflix устроил конкурс на самый точный прогноз оценки, которую зритель поставит фильму, на основе анализа предыдущих оценок других пользователей. Для построения алгоритмов участникам нужны были данные, и компания предоставила «100 миллионов оценок, поставленных 480 000 клиентами, с датой каждой оценки»[95]. Имена клиентов не раскрывались, но двум ученым из Университета штата Техас в Остине, Арвинду Нараяну и Виталию Шматикову, удалось деанонимизировать людей из базы данных путем сопоставления обезличенной информации с рецензиями, опубликованными на сайте IMDB.com[96]. В чем, собственно, проблема, если эти рецензии уже были достоянием гласности? А в том, что клиенты Netflix не выкладывают отзывы о всех фильмах, которые смотрят, и некоторые из репертуара «тайно любимых» ими фильмов были весьма показательными. По крайней мере, так утверждала истица, чье имя не разглашается, подавшая на Netflix в суд. У нее возникли опасения, что теперь каждый из 50 000 ученых, получивших доступ к базе данных конкурса, знает, что она лесбиянка.
Даже если вы спокойно отнесетесь к тому, что список просмотренных вами фильмов выложат на всеобщее обозрение, вам вряд ли понравится, если будет обнародована вся история ваших поисковых запросов в интернете. Если вы не отличаетесь от подавляющего большинства людей, то чаще всего вводите в Google Maps свой домашний адрес. Ваше место жительства, посещаемые места, покупки, люди, которыми вы интересуетесь, и проблемы, которые вас беспокоят, относятся к наиболее интимным подробностям жизни. Поисковые запросы отражают и то, что в данный момент волнует общество, и Google предлагает получить представление об этом с помощью обработанной информации на Google Trends. Многие считают, что в Trends преобладают новости, но там можно узнать и о том, что в последние пару лет возрос интерес людей к таким проблемам, как интернет-травля и трансгендер. В то же время поисков по словам «приватность» и «транссексуал» стало меньше[97].
Теперь
93
US Post Office FAQ, http://faq.usps.com. Если бы были присвоены все 90 000 возможных номеров (10000–99999), процент возможности точной идентификации людей был бы еще выше. Другая причина невозможности более высокого процента возможности точной идентификации состоит в неравномерном распределении населения США по почтовым индексам.
94
Barbaro, Michael, and Tom Zeller, Jr., “A Face Is Exposed for AOL Searcher No. 4417749”, New York Times, August 9, 2006, http://www.nytimes.com/2006/08/09/technology /09aol.html.
95
Singel, Ryan, “Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims”, Wired, December 17, 2009, http://www.wired.com/2009/12/netflix-privacy-lawsuit.
96
Narayan, Arvind, and Vitaly Shmatikov, “Robust De-Anonymization of Large Sparse Datasets”, paper presented at the 2008 IEEE Symposium on Security and Privacy, Oakland, CA, May 18–21, 2008, pp. 111–125, http://dl.acm.org/citation.cfm?id=1398064.
97
Судя по Google Trends, “большие данные” не были на слуху у общественности до 2011 года.