Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец Эйден

Читать онлайн книгу.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эрец Эйден


Скачать книгу
– это могильный камень для тысячи исключений.

      Словарь и конкорданс

      Книга Word Index to James Joyce’s Ulysses была подлинным триумфом, отражавшим годы настойчивости и внимания к деталям. Во время публикации в 1937 году подобные индексы были доступны лишь для самых важных книг, несмотря на тот факт, что само по себе написание конкордансов имеет долгую и славную историю. Старейшие конкордансы еврейской Библии, известные под названием Масора, возникли более тысячи лет назад.

      Все изменилось в 1946 году. В тот год иезуитскому монаху по имени отец Роберто Буса пришла в голову отличная идея. Буса, изучавший творчество плодотворного теолога Фомы Аквинского, захотел создать конкорданс работ Аквината, который бы помогал ему в исследованиях. Компьютерная технология только начинала свое резкое восхождение, и Буса посчитал, что сможет создать конкорданс новым способом, «скормив» текст книги в одну из новых машин. Он отправился с этой идеей прямиком в IBM. Представители компании выслушали его и решили поддержать. Потребовались 30 лет и серьезная помощь со стороны IBM, однако со временем план Бусы сработал – в 1980 году был завершен монументальный Index Thomisticus[70]. Мир исследователей был впечатлен. Как и Index Хенли, Index Бусы позволил развиться новой области деятельности. Работа в этой области (известной в наши дни под названием цифровых гуманитарных наук) направлена на выявление того, каким образом компьютеры могут пригодиться для таких традиционных гуманитарных занятий, как история и литература[71].

      Несмотря на всю важность этих индексов, их можно считать своего рода лебединой песнью. Колоссальная мощность современных компьютеров позволяет использовать для создания конкордансов одну-единственную строчку простого программного кода, который обеспечивает получение нужного результата за считаные секунды. К тому времени как Реймер опубликовала свой алфавитный эксперимент под названием Legendary, Lexical, Loquacious Love – представляющий собой, по сути, конкорданс, но без отсылок на номера страниц, – сам по себе процесс создания конкордансов перестал считаться серьезным занятием, заслуживающим признания. В наши дни ученые редко заботятся о том, чтобы создавать новые конкордансы. В этом нет нужды, поскольку даже дешевый ноутбук почти мгновенно найдет все случаи употребления определенного слова даже в длинном тексте. На первый взгляд, эпоха конкордансов ушла в прошлое.

      Однако если вы поднимете крышку современных технологий, вас удивит увиденное внутри. Сегодняшний мир не может прожить без поисковых машин в Интернете, самых мощных инструментов поиска информации из когда-либо созданных. Что такое поисковая машина? По сути, она представляет собой список слов и страниц в сети Интернет, где эти слова появляются. За каждым крошечным белым поисковым окошком кроется огромный цифровой конкорданс.

      Конкордансы не умерли со времен Бусы. Напротив, они завоевали этот мир.

      Разделить розу на части и посчитать лепестки

      Ципф был удивительным человеком, чья работа


Скачать книгу

<p>70</p>

В 1980 году Буса опубликовал описание своего сотрудничества с IBM, продолжавшегося несколько десятилетий. Это поистине пророческий документ, содержащий множество глубоких замечаний для дальнейшего осмысления. К примеру, предвидя необходимость реформы гуманитарных наук (см. также наше обсуждение этого вопроса в главе 7), Буса пишет: «Представляется, что нынешняя научная жизнь нацелена на проведение краткосрочных исследовательских проектов и быструю публикацию результатов, а не на проекты, требующие совместной командной работы, предполагающей скорее продвижение на один сантиметр в глубину и километр в ширину, чем на километр исследований при сантиметровом их основании». Более тридцати лет спустя Энтони Графтон, занимавший в то время пост президента Американской ассоциации историков, высказал похожую мысль: «По мере того как новые формы научного исследования предлагают историкам исследовательские методы, дополняющие работу с текстами, поскольку цифровые архивы становятся все более масштабными, а цифровые исследовательские методы становятся все более доступными, историкам придется учиться тому, как формировать команды и работать в них… Сотрудничество предлагает – потенциально очень мощный – способ работы для ученых традиционного склада. Они могут создавать глобальные истории экономических, культурных и политических отношений, построенные на мощной архивной и текстовой основе». Работа Бусы, которую можно считать манифестом движения за цифровые методы в гуманитарных науках, не теряет своей актуальности и по сей день. См. Busa R. The Annals of Humanities Computing: Index Thomisticus // Computers and the Humanities 14 (1980). P. 83–90. Доступно в сети Интернет: http:// goo.gl/FgVWQ. Grafton A. Loneliness and Freedom // Perspectives on History (март 2011 г.), доступно в сети Интернет: http://goo.gl/dOx3J.

<p>71</p>

Некоторые конкордансы оказываются мощнее других. Следует отметить, что, даже если оставить в стороне вопрос более сложного исходного источника, конкорданс Бусы значительно масштабнее конкорданса Реймер. К примеру, Index Thomisticus включает в себя полную лемматизацию (приведение всех словоформ к единой словарной форме) исходного текста, группирующую все слова в лексически связанные классы (в английском языке лемматизация предполагает группировку различных родственных слов типа run, running, runs, ran, outrun и also-ran под одним заголовком). Эта лемматизация сама по себе выглядит значительным достижением. Наборы списков данных, с которыми мы работали, не содержат лемматизации (ее очень сложно провести правильно).