Словарь от Google

Специалисты поискового гиганта выявили тринадцать с половиной миллионов слов, которые используют авторы сайтов.Несколько дней назад Google в очередной раз удивил своей новой затеей. Сотрудники корпорации решили проанализировать контекст , содержащийся на проиндексированных страницах.

В результате работы анализу были подвергнуто более триллиона слова (1 011 582 453 213). В результате был составлен список цепочек из пяти слов, которые встречались не реже 40 раз. Всего их оказалось более миллиарда, или, если уточнять 1 146 580 664.

Полученные словосочетания содержат в общей сложности 13 653 070 различных слов. стоит отметить, что в их число не входят те, что встретились менее 200 раз. Данная информация должна поместиться на 6 DVD дисках, и в ближайшее время появятся в продаже.

Полученную в ходе трудового подвига гугловцев информацию можно будет использовать при создании систем машинного перевода, проверки правописания и грамотности, сообщается в блоге сотрудников проекта Алекс Франц и Торстен Брентс

Редакция
Оцените автора
BYBANNER.COM

Добавить комментарий