Решение BigQuery было создано Google четыре года назад для упрощения интерактивного анализа больших наборов данных. Оно распространяется по модели IaaS, помогая предприятиям справиться с обработкой как текущей, так и накопленной ранее информации без необходимости приобретать дополнительное серверное оборудование и программные лицензии.

За прошедшее время BigQuery избавилось от некоторых ограничений и стало доступнее для применения в самых разных областях – от бизнес-аналитики до здравоохранения. Сегодня BiqQuery представляет собой развитую интерактивную систему запросов для анализа вложенных данных в режиме «только чтение». Она работает совместно с Google Storage и может дополняться фреймворком MapReduce.

Безопасности при работе с сервисом уделяется большое внимание. Сам алгоритм BigQuery требует, чтобы все запросы проходили проверку подлинности. Он может использоваться с Google Apps Script, Google Spreadsheets или совместно с любым языком, позволяющим применять программный интерфейс REST.

Модель использования BigQuery довольно проста: передача данных реализована с помощью обычного API-вызова. Это избавляет от необходимости предварительного кеширования и позволяет выполнять потоковую обработку данных в режиме реального времени.

Для отображения наиболее актуальных данных за последние часы предусмотрен выборочный анализ фрагментов (подмножеств) таблиц.

Google делает сервис BigQuery доступнее (изображение: google.com)
Google делает сервис BigQuery доступнее (изображение: google.com).

Недавно Google объявила о скидках на сервис до 85% и расширении его возможностей. Теперь BigQuery способен обрабатывать до ста тысяч строк в секунду (раньше действовало ограничение в тысячу). Ожидается, что снижение цен и добавление новых функций поможет ему стать популярнее.

Среди подобных конкурентных решений в обзорах упоминается Amazon Kinesis, хотя сервисы имеют заметные различия. BigQuery ориентирован в первую очередь на быстрый и выборочный анализ текущих данных.

На общем фоне облачные сервисы Google сегодня можно назвать относительно доступными. Отложенная обработка данных по запросу обойдётся всего в $5 за терабайт. Выделенные мощности для потокового анализа со скоростью 5 ГБ/с стоят уже $20 тыс. в месяц, но подписку на сервис можно менять, подбирая по мере развития предприятия оптимальный вариант.