И ещё немного про Google, который есть наше всё. В недрах Google Labs на свет родился мощный сервис NGram, который перебирает исполинскую базу оцифрованных книг Google и позволяет выявить частоту употребления слов и фраз в книгах в разные исторические периоды. Отличный инструмент для литературоведов, надо заметить.
Как там было у Пушкина в «Онегине»?
«Но панталоны, фрак, жилет,
Всех этих слов на русском нет…»
Вот и давайте посмотрим, когда слово «жилет» употреблялось в русском языке (по версии Google) активнее всего:
И что мы видим? Слово вообще входит в употребление только где-то в середине 1820-х годов. Сокращённый график прямо указывает на 1825-й, а именно в том году вышла в свет первая глава «Евгения Онегина». Очевидно, неслучайное совпадение.
Ну, а теперь о курьёзе, случившемся с этим сервисом. Англоязычные (да и не только) весельчаки начали проверять, когда и насколько часто употреблялись разные нецензурные словеса. Особенно, естественно, известное четырёхбуквенное ругательство, начинающееся на букву f.
И вот тут случилось «исследователям» озадачиться: обнаружилось, что на XVII век приходится какой-то чудовищный всплеск матершиныупотребления этого слова в англоязычной литературе. Извольте видеть сами.
Казалось бы, впору историкам и лингвистам приняться за вдумчивые исследования… Однако довольно быстро выяснилось, что это проблема не лингвистов и не историков, а программистов, разрабатывавших для Google инструментарий для распознавания текстов. Ибо они не учли ещё одного, старинного написания латинской буквы s в английском языке:
Таким образом s писалась только в начале или в середине слова. Если слово заканчивалось на эту букву, то она писалась привычным для современных людей образом. В Wikipedia есть статья об этом.
Вот сборник статей, откуда взят фрагмент о кормлении грудных детей (на скриншоте), изобилующий словом suck («сосать»), ошибочно принятый за совсем другое.
Так возникают нездоровые сенсации (c) Стругацкие.