BlueDBM превращает «большие данные» в быстрые

Группа исследователей из Массачусетского технологического института готовится представить BlueDBM. Эта вычислительная система способна обрабатывать запросы приложений к «большим данным» почти в режиме реального времени.

Аспирант лаборатории искусственного интеллекта (CSAIL) Сан Ву Чун так комментирует потребности в её создании на сайте университета: «Если мы сможем добавлять нужное количество узлов для поддержания скорости вычислений и достаточной пропускной способности, то большие объёмы научных данных и запросы пользователей будут обрабатываться с очень низкими задержками — почти как в системах реального времени. Таким образом мы получим интерактивную базу данных».

В большинстве организаций данные хранятся на сетевых хранилищах — массивах жёстких дисков. Такая архитектура обеспечивает приемлемую стоимость, но характеризуется довольно высокими задержками доступа к требуемой информации. «Если анализируемые данные не помещаются в ОЗУ целиком, — поясняет сан Ву Чун, — вы должны использовать внешнюю память. Как правило, это локальные жёсткие диски или сетевые. Все они очень медленные».

Blue Database Machine будет представлена в феврале на Международном симпозиуме по программируемым вентильным матрицам в Монтерее (Калифорния). Основу её быстродействия составляет массив флеш-памяти, объединённой через сеть. Однако это не классический NAS и не совокупность SSD.

Прототип BlueDMB из шести вычислительных узлов (фото: Sang Woo Jun)
Прототип BlueDMB из шести вычислительных узлов (фото: Sang Woo Jun).

В BlueDBM каждая группа чипов флеш-памяти подключена к своей микросхеме FPGA и образует логический узел. Как поясняет Сан Ву Чун, программируемые вентильные матрицы не только выступают в роли контроллера флеш-памяти, но и сами выполняют необходимые операции обработки данных: «Это означает, что мы можем выполнять обработку данных непосредственно близко к устройствам их хранения. Таким образом, реже потребуется перемещать их и терять время».

Микросхемы FPGA соединены посредством скоростного последовательного сетевого интерфейса. Задержка при обращении к любому узлу составляет лишь несколько наносекунд. При более высокой производительности такое решение оказалось гораздо дешевле подобных систем без программируемых вентильных матриц.

В настоящее время команда разработчиков моделирует на BlueDBM развитие Вселенной по алгоритмам, разработанным в Университете штата Вашингтон: «Это огромный набор данных, содержащий наблюдения за взаимодействием частиц. Его обработка требует выполнения множества запросов и обычно происходит очень долго. Мы надеемся обеспечить интерфейс реального времени, который поможет исследователям анализировать информацию быстрее и легче».

Что будем искать? Например,ChatGPT

Мы в социальных сетях