Скрытое богатство Twitter

Big Data / Практика
автор: Кирилл Тихонов  19 сентября 2013

Несколько дней назад социальная сеть Twitter объявила о намерении разместить акции на бирже. В отличие от стартапов, которым дозволено жить на средства инвесторов, от публичных компаний ожидают если не прибыли, то хотя бы стремления её получить. На чём будет зарабатывать Twitter? Этот вопрос давно вызывает споры аналитиков. Одним из потенциальных источников дохода, вероятно, будет реклама. О другом источнике говорят реже, хотя он тоже немаловажен.

Screen-Shot-2013-02-07-at-3.52

Кто покупает ваши 140 знаков

Создатели сервиса микроблогов давно осознали, что сидят на золотой жиле. Они видят, что волнует сотни миллионов пользователей в разных частях света прямо сейчас. Они видят, как сообщения волнами расходятся по социальному графу. Они видят, как колеблется амплитуда этих волн, реагируя на внешние события.

Twitter представляет собой уникальный источник информации о том, что происходит в мире, обновляющийся в реальном времени. То же самое можно было бы сказать и о других социальных сетях, но у Twitter есть особенность, которая даёт огромное преимущество именно в этой области: подавляющее большинство постов в микроблогах публичны, общедоступны и анонимны. Их можно анализировать, не вторгаясь в частную жизнь пользователей и не вызывая недовольства.

Социальная сеть уже несколько лет предоставляет платный доступ к полному потоку публикуемых в ней сообщений. Многие из них имеют легкомысленное содержание, но это не играет роли: тех, кто просеивает данные из Twitter, как правило, интересует не смысл постов, а настроения, которые они отражают.

Ценность данных, получаемых таким образом, давно не нуждается в доказательствах. С их помощью не без успеха прогнозируют колебания биржевых показателей, следят за распространением эпидемий и стихийными бедствиями, оценивают перспективы политиков и эффективность телевизионной рекламы. Они позволяют с неплохой точностью определить, что происходит сейчас и что будет дальше.

stockexchange
Twitter предсказывает, что будет дальше

Вряд ли стоит удивляться тому, что изрядная доля попыток извлечь смысл из потока сообщений в Twitter непосредственно связана с биржевой торговлей. Трейдеры изобретали модели, позволяющие прогнозировать колебания курсов, задолго до появления первых социальных сетей. Они экспериментировали с самыми различными источниками данных и, разумеется, не могли проигнорировать Twitter.

Пару лет назад специалисты из Мюнхенского технического университета опубликовали работу под названием «Твиты и сделки: информационное содержание биржевых микроблогов». Она описывала результаты шестимесячного эксперимента, во время которого анализу подвергались 250 тысяч постов в день, публикуемых в блогах биржевой тематики. С помощью средств анализа тональности текста исследователи делили твиты на пессимистичные и оптимистичные, а затем вычисляли «среднее настроение». Оказалось, что колебания индекса Standard & Poor’s 500, отражающего капитализацию пятисот крупнейших американских компаний, повторяют изменения настроений в Twitter, которые были зафиксированы днём раньше.

Похожее исследование опубликовали в 2010 году учёные из университетов Манчестера и Индианы, но они не отбирали сообщения биржевой тематики, а просеивали все твиты подряд. Кроме того, при семантическом анализе их интересовал не столько позитивный или негативный настрой твита, сколько чувства, которые он передаёт. Такой подход оказался не менее эффективным. Исследователи сумели выделить в анализируемых сообщениях факторы, которые верно предсказывали, куда направится индекс Dow Jones через несколько дней, в 87,6% случаев.

В 2011 году хедж-фонд Derwent Capital воспользовался методом, предложенным в этой работе. Компьютерная система, используемая компанией, искала в потоке сообщений из Twitter слова, соответствующие спокойному настрою. В Derwent Capital рассматривали изменение количества таких слов как признак изменений, которые произойдут с Dow Jones в ближайшие шесть дней, и реагировали соответственно. В течение первого же месяца работы по такой схеме фирма обошла показатели других хедж-фондов.

3dmovie
Twitter угадывает, кто победит

Другая известная публикация в этой области принадлежит исследователям из HP Labs. В 2010 году им удалось выработать математические модели, позволяющие с поразительной точностью предсказывать кассовый успех фильмов на основании упоминаний в Twitter. Исходными данными для анализа послужили 2,9 млн сообщений, оставленных 1,2 млн пользователей Twitter в течение трёх месяцев.

Первая модель, разработанная в HP Labs, учитывала количество кинотеатров, где прокатывается фильм, и частоту, с которой название фильма встречалось в Twitter перед премьерой. Этих данных оказалось достаточно для того, чтобы оценить потенциальные кассовые сборы каждого фильма за первую неделю проката. Точность прогноза составила 97,3%.

Другая модель предсказывала результаты второй недели проката. Если успех премьеры в значительной степени объясняется рекламой, то затем начинает работать «сарафанное радио». Это значит, что на вторую неделю важно знать не только количество упоминаний, но и контекст, в котором они появляются. Чтобы предсказать кассу второй недели с точностью в 94%, модель принимала во внимание количество положительных и отрицательных твитов.

Этот метод годится и для других целей. В начале 2012 года компания Globalpoint Research подсчитала количество упоминаний американских политиков в Twitter и обнаружила, что эта информация позволяет с высокой точностью предсказывать результаты праймериз, на которых Республиканская партия США выбирала кандидата в президенты.

Работа, опубликованная специалистами из Университета Индианы несколько месяцев назад, подтверждает эту оценку. Они рассмотрели зависимость между шансами кандидата в президенты США на успех и частотой, с которой его имя появляется в Twitter. Связь оказалась прямой: результаты на выборах коррелировали с количеством упоминаний. Есть, правда, одно «но»: выяснилось, что твиты о кандидате, который уже занимает государственный пост, несколько менее значимы, чем о его конкурентах. То же самое можно сказать о политиках, которые по какой-то причине попали в центр внимания СМИ. Если учитывать частоту упоминаний таких кандидатов с понижающим коэффициентом, то прогноз оказывается точнее.

sicmity
Twitter сообщает, что происходит сейчас

Пользователи Twitter вечно на что-нибудь жалуются, но из этого, как ни странно, можно извлечь пользу. Почти все корпоративные средства для работы с социальными сетями содержат встроенные инструменты, позволяющие вылавливать негативные отзывы о компании и её продуктах. Это помогает куда быстрее и точнее определять реакцию людей на действия компании.

Для жалоб есть и другие применения. Исследователи из Университета Рочестера проанализировали 3,8 млн твитов, оставленных 94 тысячами пользователей из Нью-Йорка, а затем отметили на карте города рестораны, фастфуды и забегаловки, от которых, судя по жалобам в Twitter, лучше держаться подальше. Любопытный момент: их результаты оказались близки к данным, которые городские власти получают более традиционными методами.

В Японии сходный проект был начат корпорацией Fujitsu. Правда, объектом интереса послужили не угрожающие пищеварению предприятия питания, а преступность. В Fujitsu разработали систему, которая перебирает сообщения из Twitter и отыскивает среди них те, в которых говорится о происшествиях. Затем она классифицирует информацию и в реальном времени делает отметки на карте. Согласно исходному замыслу, прохожие будут использовать постоянно обновляющуюся карту преступности для того, чтобы обходить опасные кварталы стороной.

Другой японский проект — под названием XRAIN — использует алгоритмы машинного обучения для того, чтобы скомбиниовать информацию из социальных сетей и данные об атмосферных явлениях, полученные с помощью радара. Компьютерная система постоянно ищет в интернете свежие посты с упоминанием стихийных бедствий, а затем изучает учётные записи их авторов для того, чтобы определить возможные координаты бедствия и оценить достоверность сообщения. Испытания показали правильность такого подхода: система сигнализировала о бедствиях на три часа раньше, чем аналоги, не учитывающие активности в социальных сетях.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Информационный взрыв: как данные меняют технику, бизнес, науку и всё остальное
Информационный взрыв: как данные меняют технику, бизнес, науку и всё остальное
Золотая жила, которую нашёл Twitter: кто покупает ваши 140 знаков
Золотая жила, которую нашёл Twitter: кто покупает ваши 140 знаков
Как хеджфондовый миллиардер организовал Brexit и победу Трампа
Как хеджфондовый миллиардер организовал Brexit и победу Трампа
  • Dmitriy_Sergeevich

    Когда-нибудь Твиттер превратится в большой живой единый мозг человечества…Вот будут дела.

    • kue

      С общим уровнем сознания 10-ти летнего ребенка. Об этом и заботится сфера гос.образования уже везде, похоже.

      • I.F.

        а какой общий уровень сознания вне твиттера?

        • kue

          Во какой ! Я тут развожу руками в стороны, но Вы же не увидите (

          • I.F.

            а вы какую часть созания показываете?

          • kue

            Рыболовную.. и немного собачника, но с когда-то высшим образованием. Не упрекайте меня ((

          • I.F.

            да ну какие упреки — я в смысле, в ширину или в высоту?

          • kue

            Если в стороны, то в ширину.. Но нас, собачников, никакой твиттер не охватит !

          • I.F.

            есть мониторы для собак — координаты в твиттер отсылают. если теряется, то, типа найти можно. «далеко простирает химия руки свои в дела человеческие!»

          • kue

            Не, мне такие «руки» к собаке не по карману (( Пусть тогда у прохожих телефон берет и отсылает, если очень хочет

    • Sergiy Skynin

      э-э-э…. публичный туалет никак не может превратиться в единый мозг. в единую ж*пу да, может.

  • Una di tante

    Началась кампания подготовки IPO. Главная задача — сформировать у публики чрезмерную привлекательность владения акциями. Для этого подводятся самые «логичные» обоснования полезности того, чем компания, выходящая на IPO, занимается.
    То, что покупается, то и продается. Цель — продать выгодно. Для этой цели все средства хороши! Ложь — самое безобидное средство:) Поэтому исследований, которые показывают необычайную полезность твиттов вплоть до предсказания пола младенца-первенца у еще не родившихся родителей, будет предостаточно.

    • I.F.

      >обоснования полезности
      дело не в полезности, а в продаваемости. а твиты продаются — и рекламные, и массивы под обработку

      • Una di tante

        «Полезное» продается легче, чем бесполезное)

        • I.F.

          вот я прям слышу как всхлипнули сейлсы блэкберри :)

          • Una di tante

            Они в BBRY и правда «зарыдали» вчера на минус 17%). Жаль мне их, ей богу!

  • kue

    Про БигДату еще не упомянули и эту.. предиктивность. Особо хороша предиктивность на словах и фразах написанных с уровнем грамотности ребенка средних классов публичной школы. По моим недолгим ощущениям от твиттера он на таком уровне сознания и построен, имхо.

    • Олег Парамонов

      Как же не упомянул. В урле есть бигдата.

      • kue

        Это прекрасно !

    • Тимо

      Лол Вам, дружище:-) без Бигдаты низачот

  • Sergiy Skynin

    Интересно.

    Получается, базой для анализа является истерически-идиотическая часть твитерян? Преимущественно подростки — «Меня сегодня понюхала собака!» и ему хор в ответ: «А меня вчера — кошка!»

    О фильмах тоже самое — обсуждал ли я где-либо в интернете аватар или риддик 3? или — «трансформеры стопицот»?

    — Пользователи Twitter вечно на что-нибудь жалуются,

    тоже отличный показатель. Я и в жизни то не очень жалуюсь, но чтоб в интернете, жаловаться, не понимаю, какой смысл (но догадываюсь — если ты подросток — то конечно). Какой уровень развития этих «пользователей Twitter», что их жалобы — так показательны?

    Телевизионная реклама — это для США то, где статистика показывает что народ еще до планшетов основательно подсел на интернет?

    Про биржевые микроблоги — не скажу, не знаю. Думается что их вообще-то боты ведут :) Тогда забавно — одни боты анализируют что генерят другие боты, и на основании этого делают вывод о чем за деловым обедом поговорили «сорес» с «баффетом». Ню-ню.

    • Тимо

      «Сорес» и «бафет» тоже боты, не забывайте

  • unk32

    Вообще тупиковое направление «реагирование на реагирование». Что никогда не приведет к устранению причин. Хотя похоже это в нынешнем мире никого и не интересует.

  • shveicar980

    Кроме биржевых спекулянтов, — торгующих той же крипто-валютой и домохозяек, этот твиттер никому не нужен. Главная его беда, — это жесткое ограничение на размер публикуемой информации, пока это не уберут — успеха у него не будет.

    • I.F.

      даже если так — разве мало успешных бизнесов, востребованных исключительно домохозяйками

  • N0xFF

    Можете написать статью про источники откуда вы черпаете информацию? Интересно было бы почитать какие сайты мониторите, каких людей читаете…

    • Mikhail Karpov

      В тексте, между прочим, есть ссылки.

      • N0xFF

        Это понятно, но если текст не перевод, то интересно вообще откуда черпается информация, какие еще есть интересные и полезные источники и т.п.

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"