Google Books выявляет мировые тенденции за последние 500 лет

Исследователи из Гарвардского университета и компания Google реализуют необычный научный проект, задача которого заключается в изучении культуры в количественном выражении. Используя библиотеку из миллионов отсканированных компанией Google книг, авторы проекта пытаются отследить особенности использования языка и различных общественно-важных тенденций на протяжении сотен лет.

В библиотеке отсканированных книг Google присутствуют книги с 1500 года издательства и до 2008 года. Всего здесь значится около 5 млн книг или 4% от общего количества изданных книг в мире. Основная масса отсканированных книг написана на английском, китайском, немецком, французском, испанском и русском языках. Согласно данным компании, в сумме во всех отсканированных книгах содержится более 500 млрд слов.

В Google отмечают, что новый сервис, получивший название Books Ngram Viewer позволяет представить в новой форме количественные показатели по различным областям академических знаний, отследить исторические тренды, новые идеи и др. за счет отслеживания популярности тех или иных ключевых слов или фраз в текстах книг. В Google называют подобную метрику уникальной.

Интернет-гигант отмечает, что сейчас компания находится в процессе оцифровки еще примерно 10 млн книг, но эта работа еще не завершена и мета-данные по книгам не обновлены. Исследователи говорят, что разные книги в библиотеке Google оцифрованы с разным качеством, поэтому для наиболее полноценного анализа работа идет только с качественными материалами. В Гарварде говорят, что ими уже была обработана коллекция книг, которая, если бы читалась одним человеком, заняла бы у него 80 лет (при том, что человек бы не отвлекался на еду, сон и другие потребности).

Авторы проекта провели несколько простых анализов, определяющих частоту конкретных слов в общем объеме книжных слов, напечатанных в книгах за тот или иной год. Данные исследований показывают, что в 1900 году напечатаны были около 1,4 млрд слов, вот столетие спустя этот показатель составил уже 8 млрд слов. Из этого объема слов исследователи составили так называемые н-граммы или короткие фразы из пяти слов.

Исследователи говорят, что это довольно простая задача, но она достаточна, чтобы обнаружить некоторые основные литературные тенденции. Например в США во время гражданской войны (1861-1865гг) отмечен всплеск слова рабство и словоформ, связанных с ним. В книгах чуть более позднего периода довольно часто упоминается словосочетание движение за гражданские права.

Еще одним интересным моментом исследования стало выявление новых слов и выражений, называемых неологизмами. Всего с 1950 по 2000 годы в восьми исследуемых языках исследователи насчитали около миллиарда разных слов, причем каждый год появлялось примерно по 8500 новых слов. При этом отмечается, что в словарях неологизмов содержится в лучшем случае треть новых слов. Есть в книгах и отмирающие слова, которые уже непривычны слуху современных жителей, но были нормой еще для предыдущего поколения.

Исследователи использовали данные сетевых энциклопедий Википедия и Британика для отслеживания траекторий знаменитостей. На основании проведенного анализа авторы проекта говорят, что в сравнении с 1800-м годом наши знаменитости помолодели, в то же время период их звездности сократился примерно вдвое. Актеры становятся довольно известными уже к 30 годам, против 50 лет ранее. В то же время, политики и авторы книг становятся сейчас известными старше, чем ранее. Снизился интерес и к таким людям, как ученые из области физики, химии, биологии и математики. К сожалению, приходится утверждать, что наука это плохой путь к славе, — говорят авторы исследования.

Подразделение Google Labs создало веб-интерфейс, чтобы все желающие могли проследить интересующие их тенденции.

В компании говорят, что некоторые запросы дают логичные, но неожиданные результаты. Например, из-за множественного значения слова панк оно стало более популярным, чем рок-н-ролл, хотя первое является поджанром последнего.

cybersecurity.ru

Редакция
Оцените автора
BYBANNER.COM

Добавить комментарий