Жаргонизмы в Twitter помогают узнать, где живёт пользователь

«Твиты» — короткие сообщения, состоящие из 140 знаков, которые пишут пользователи сервиса микроблогов Twitter, на первый взгляд не располагают к появлению каких-то новых веяний в языке. С другой стороны, именно в эти самые 140 знаков приходится впихивать то, что обычно может уместиться в 300, а то и больше, так что появление особых местных «твиттерных» диалектов — вещь вполне закономерная. И на эту тему учёные из Университета Карнеги-Меллон провели специальное исследование.

Все сообщения, которые были использованы в этой работе, имели привязку к местности по GPS. Что удалось узнать? Прежде всего, конечно же, люди используют сокращения, но вовсе не везде пишут сокращения одних и тех же слов одинаково. Так, например, в случае со словом cool («круто») в южной Калифорнии пишут coo, а в Сан-Франциско — koo. Самое интересное заключается в том, что даже если пользователь не разрешаете своему смартфону передавать в Twitter свои координаты, то по характерным словечкам его всё равно вычислят.

Зачем и кому это нужно? По-настоящему, найдётся куча исследовательских компаний, которым дополнительные данные о пользователях, которые не делятся локацией, совсем не помешают. Известно, что лишь 4 процента пользователей охотно позволяют мобильным клиентам указывать своё местоположение. Какие возможности открываются для таких фирм! Единственное, о чём, наверно, они могут сожалеть, — так это о том, что в общей сложности не более 8 процентов американцев, у которых есть выход в интернет, сидят в Twitter.

Что касается исследования, то учёные изучали аккаунты людей, которые уже написали как минимум 20 сообщений за месяц, у которых меньше 1000 фолловеров и которые сами фолловят не больше 1000 человек. Всё это было сделано для того, чтобы исключить из результатов спамботы. Всего было изучено 9500 пользователей, 380000 сообщений, в которых содержалось 4,7 миллиона слов. В результате оказалось, что по жаргонизмам в Twitter можно выяснить местоположение человека с точностью до 300 миль.

Что будем искать? Например,ChatGPT

Мы в социальных сетях