Как NASA справляется с растущим потоком «больших данных»

Каждый час миссии NASA поставляют в центры обработки сотни терабайт данных. В семидесятые годы объёмы были куда скромнее, и многие результаты тут же выводились на принтер. Сегодня распечатка всех принимаемых NASA сведений потребовала бы вырубить все деревья на планете и пустить их на производство бумаги. Привычные программы и компьютерная техника тоже малопригодны для работы в таких масштабах. Поэтому в последние годы решения из области Big Data считаются приоритетными для космического агентства.

Обычные и радиотелескопы, камеры высокого разрешения и целые орбитальные обсерватории — все они генерируют огромный поток данных и ставят перед NASA сложные задачи по их обработке. Калифорнийская команда Лаборатории реактивного движения (JPL) в Пасадене активно развивает новые стратегии хранения информации, оперативной обработки и совместного доступа к данным. Без них любые исследования затянутся на неопределённый срок, поскольку обработать собранный материал вручную совершенно невозможно.

Визуализация "больших данных" в NASA JPL (фото: NASA/Ames/JPL-Caltech)
Визуализация «больших данных» в NASA JPL (фото: NASA/Ames/JPL-Caltech).

Одной из наиболее востребованных задач сегодня считается визуализация данных. Научный руководитель одной из таких программ NASA Эрик Де Йонг (Eric De Jong) так комментирует влияние «больших данных» на развитие астрономии и смежных наук: «Исследователи применяют “большие данные” для всего — от предсказания погоды на Земле до контроля ледниковых покровов на Марсе и поиска удаленных галактик. Мы — хранители данных. Наши пользователи — астрономы и другие специалисты, которым требуются изображения, карты и видеозаписи, чтобы найти в них искомые образцы и проверить свои теории».

Де Йонг возглавляет проект визуализации Солнечной системы. В настоящее время его команда делает покадровые фильмы из отдельных фотографий с разрешением в 120 мегапикселей, снятых аппаратом NASA Mars Reconnaissance Orbiter. Вместо изначально запланированных двух лет он уже проработал более восьми. Его камера HiRISE сделала тысячи снимков и передала их на Землю. Исходный объём каждой фотографии составляет около 16,5 Гб. Он сжимается втрое и записывается в формате JPEG2000.

Массив радиотелескопов SKA, строящийся на территории Южной Африке и Австралии, планируется ввести в эксплуатацию через два года. По расчётам, каждый день он будет собирать объём данных, вдвое превышающий суммарный суточный трафик интернета.

Чтобы сделать использование SKA технически возможным, специалисты JPL разрабатывают соответствующие алгоритмы Big Data и ИТ-инфраструктуру уже сегодня. Научный руководитель инициативы «больших данных» JPL Крис Мэттман (Chris Mattmann) считает, что ключ к успеху лежит в адаптации существующих наработок: «Мы не должны повторно изобретать колесо. Мы можем изменить программы с открытым исходным кодом, чтобы создать более быстрые и дешёвые решения».

Многочисленная команда NASA разрабатывает новые способы сделать архивную информацию более доступной и универсальной для общего использования.

Специалист Центра обработки и анализа данных NASA в Калифорнийском технологическом институте Стив Грум (Steve Groom) полагает, что хранение и передача данных – лишь малая часть будущих задач: «Если у вас есть гигантский книжный шкаф книг, то вы все ещё должны знать, как найти нужную книгу. Астрономы также смогут просмотреть многие “книги” одновременно, и часть необходимой работы будет выполняться на их собственных компьютерах».

Что будем искать? Например,ChatGPT

Мы в социальных сетях