Путешествия во время пандемии. Владимир Дараган
Читать онлайн книгу.там страницы романов Хемингуэя и Лондона. Запускаю программу по анализу текстов. Это так, развлечение – по работе надо написать программу, которая ищет важные крупицы информации в словесном потоке. Сейчас же компьютер анализирует качество текста, его оригинальность.
Как это можно сделать? Способов миллион. У меня самый простейший. Можно взять достаточно длинный текст и посчитать, сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов и выкинуть их из текста – останутся более редкие. Оставшиеся слова уже не такие расхожие, и их количество характеризует стиль автора, его воображение, словарный запас. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.
Прогоняю через программу разные книги. Оказывается, что после выкидывания остается около 40% текста! Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!
Вспоминаю книги Хемингуэя и Лондона. А ну ка, господа писатели, как у вас с языком? Компьютер на секунду задумывается и выдает ответ:
У Лондона остается 46% текста после выкидывания 100 популярных слов.
У Хемингуэя в этом случае остается 40%.
Так, Джек Лондон немного впереди. Что дальше:
Лондон использует в романах слова в среднем по 3,5 раза.
Хемингуэй использует в романах слова в среднем по 6,3 раза.
Ага, вот и ответ, почему тогда в Москве так портилось настроение после романов Лондона. Слишком у него много новых слов в текстах. Но может быть это только для выбранных романов? Прогоняю через программу другие романы. Вижу у Хемингуэя:
«Прощай, оружие!» – 40,1% и 6,6;
«По ком звонит колокол» – 39,6% и 6,0.
Так… числа практически стабильные. Это стиль писателя, он мало меняется от романа к роману.
А как насчет Шолохова? Прогоняю «Тихий Дон» и «Поднятую целину». Числа похожие. Так что, Шолохов все-таки сам написал «Тихий Дон»? Пусть даже используя чужие дневники и наброски. Вопрос можно закрыть? Не знаю… Пусть филологи решают, пишут статьи и диссертации. Я залез в чужой огород, мне надо писать другую программу.
– Означает ли это, что писатели с богатым языком более интересны и пишут лучше?
– Не факт, тут еще много чего надо учитывать. Это совсем другой уровень анализа. Для профессионалов. Но зато так можно понять, с каких писателей лучше начинать изучение языка, а каких оставить на потом.
Потом
Филадельфия, центр города, каменные джунгли. Окна комнаты выходят на бетонный пустырь, за ним громада Института глазных болезней, дальше череда старых кирпичных домов, какие-то башни, трубы. Окно пыльное – как его мыть снаружи? Но больше смотреть некуда. В комнате только стол, стул, кровать и шкаф. Есть еще кухня, но туда идти не хочется. Готовой еды нет, заказать из ресторана не получится – телефон еще не купил. Садишься за стол, открываешь огромный