Небольшие выводы о больших данных

В предыдущих колонках мы много говорили о Больших Данных и значимости технологий In-Memory для компаний. Мы пытались разобраться в объективных процессах в мире, связанных с Big Data, и понять субъективное восприятие вопроса Больших Данных игроками рынка. Давайте подведём итог нашей серии материалов. В 2010 г. мировое годовое количество выработанной информации перешагнуло порог в один зеттабайт – число с 21 нулем. Ученые прогнозируют, что с 2013 по 2020 гг. количество данных увеличится с 4,4 до 44 зеттабайт. Ежедневно с интервалом в двадцать минут на Facebook загружается 2,7 миллиона изображений, каждую минуту на YouTube добавляется 100 часов видео, т.е. даже в потребительском сегменте наблюдается взрывной рост количества данных, которые являются бесценными для некоторых сегментов бизнеса. Объем информации растёт колоссальными темпами с каждым годом. Согласно исследованию IDC «Цифровая вселенная» (IDC Digital Universe 2014), Россия на сегодняшний день накопила 155 эксабайт, или 2,4% мировых данных.

На сегодняшний день только 22% информации может быть полезным, остальные массивы авторы исследования называют «космическим мусором». И только 5% фактически анализируется. Благодаря развитию интернета вещей к 2020 г. более 35% данных будут считаться полезными. При этом важную роль на многих рынках играет скорость обработки информации, необходимость в быстром анализе подогревается сильной конкуренцией.

Все эти тенденции ставят вопрос о необходимости технологий, которые смогли бы оперативно обрабатывать гигантский массив неоднородной информации, составляющий Big Data. Но насколько остро воспринимают вопрос больших данных игроки рынка?

T-Systems удалось с помощью проведённого исследования выяснить отношение к проблеме Big Data, а также определить самые популярные решения в данной сфере. В опросе приняло участие 1010 человек из Германии, Австрии и Швейцарии, а также из Франции, Испании, ЮАР, Бразилии, США и России. Среди скептиков по отношению к Big Data неожиданно оказались Германия, Австрия, Швейцария и Франция. В ЮАР и Бразилии значимость темы признается, однако инвестиционные планы пока отстают. В то же время предприятия США, Испании и России уже видят реальную необходимость в инвестициях и в анализе Big Data и готовы тратить на это деньги.

Рис. 1: Необходимость действий и тренд Big Data по странам.

В отраслевом разрезе больше всего Big Data интересует государственный сектор и поставщиков энергии и материальных ресурсов, тогда как компании с огромными базами данных из банковского и страхового секторов не спешат проводить глобальные перемены в обработке данных (одна из возможных причин заключается в том, что они уже предприняли некоторые меры в этом направлении и пока считают их достаточными).

Дальнейшие опросы показали: большинство компаний в разных странах считают, что у них уже готова стратегия управления данными – более половины респондентов, заявили, что стратегия у них уже разработана. Среди них есть и Россия, где 64% опрошенных оценивают стратегию как «хорошо разработанную». Качество этих стратегий мы оставляем за рамками беседы. Чуть более свежий опрос, который проводился нашей компанией в конце прошлого года по базе респондентов в 200 человек (средние и крупные компании), подтвердил, что слова респондентов не расходятся с делом – большая часть компаний уже имеют вполне осязаемые планы по решению вопроса Big Data. Более того, четверть опрошенных заявила, что проблему больших данных для себя закрыла. Россия в последний опрос не вошла, но мне известен очень небольшой пул проектов в России, связанных с Big Data.

Рис. 2: На какой стадии в настоящее время находится ваша организация в вопросах планировании и внедрения проектов по большим данным?

Среди всего многообразия решений для обработки Big Data безоговорочным лидером являются In-Memory технологии. Это утверждение подкреплено свежим онлайн опросом, проведённым T-Systems в сентябре 2013 года среди 147 респондентов. Лидируют технологии In-Memory, причем в регионе EMEA им доверяют больше всего – 60% опрошенных, тогда как в США — всего 22%, а в Бразилии – 14%.

Рис. 3. Какие технологии лучше всего решают проблему больших данных?

Именно этими технологиями пользуется или планирует в будущем внедрить большинство опрошенных, а само восприятие технологий In-Memory прочно связано с улучшением скорости доступа и скоростью обработки данных. Среди них с большим отрывом по узнаваемости лидируют Microsoft SQL и SAP HANA (67% и 63% соответственно).

Тем не менее, проблемой является оценка стоимости внедрения. Компании зачастую не могут спрогнозировать, в какие реальные траты выльется ее покупка и эксплуатация.

Внедрение приложений для работы с большими данными влечёт за собой и ещё один серьёзный вопрос: какую модель эксплуатации выбрать для данной технологии? Функционирование SAP HANA преимущественно рассматривается лицами, принимающими решения по IT, в собственном центре данных компании. Следовательно, пользователи оставляют за собой контроль над приложением, оплачивают более высокие расходы, которые часто амортизируются только в среднесрочной перспективе, и теряют гибкость. Так зачем тогда компании тратят лишние деньги на хранение всей информации у себя? Такое отношение можно объяснить недостаточным представлением о расходах на технологии In-Memory, а также опасениями за безопасность данных. Аналитики уверены, что защищать огромные объемы разнообразных данных станет все сложнее. Согласно IDC, 40% данных в мире и 49% в России нуждаются в различных мерах защиты — от обеспечения повышенной конфиденциальности до полного шифрования. При этом на сегодняшний день только половина, или 20%, общего объема этих данных реально защищена. Наши опросы это подтверждают: более половины опрошенных компаний предпочитают хранить важные данные на своём собственном аппаратном обеспечении внутри компании и перемещают к IТ-провайдеру только ресурсы, и лишь 5% готовы отдать обработку данных полностью в виртуальное пространство с помощью SAP HANA.

Остро встает сегодня и вопрос кадров. На рынке стали появляться новые профессии, связанные с Big Data. Мы обнаружили, что уже некоторое время в списках директоров C-уровня американских компаний значится CDO — Chief Data Officer, который отвечает за управление данными как собственностью. В феврале 2014 г. СNews Analytics совместно со службой исследований компании HeadHunter провели исследование рабочей силы на рынке Big Data. Как показало исследование количество вакансий, в названии или описании которых есть словосочетания «Big Data» или «большие данные», из года в год заметно увеличивается. Так, если в 2013 г. в России таких вакансий было 234, то в 2011 г. их число не превышало 30. Работодатели в России для проектов Big Data ищут кандидатов, уже обладающих опытом работы в этой сфере. Мы специалистов по Большим данным растили внутри компании, обучая их на соответствующих курсах. Первичное требование к таким сотрудникам – навыки администрирования СУБД. Второе – знание продуктов SAP, поскольку мы работаем c SAP HANA. На сегодняшний день компании всего мира едва ли могут закрыть потребность в специалистах этого направления. ИТ-специалистам стоит присмотреться к новой специализации, которая будет крайне востребована в самое ближайшее время.