Группа исследователей из Массачусетского технологического института готовится представить BlueDBM. Эта вычислительная система способна обрабатывать запросы приложений к “большим данным” почти в режиме реального времени.

Аспирант лаборатории искусственного интеллекта (CSAIL) Сан Ву Чун так комментирует потребности в её создании на сайте университета: “Если мы сможем добавлять нужное количество узлов для поддержания скорости вычислений и достаточной пропускной способности, то большие объёмы научных данных и запросы пользователей будут обрабатываться с очень низкими задержками – почти как в системах реального времени. Таким образом мы получим интерактивную базу данных”.

В большинстве организаций данные хранятся на сетевых хранилищах – массивах жёстких дисков. Такая архитектура обеспечивает приемлемую стоимость, но характеризуется довольно высокими задержками доступа к требуемой информации. “Если анализируемые данные не помещаются в ОЗУ целиком, – поясняет сан Ву Чун, – вы должны использовать внешнюю память. Как правило, это локальные жёсткие диски или сетевые. Все они очень медленные”.

Blue Database Machine будет представлена в феврале на Международном симпозиуме по программируемым вентильным матрицам в Монтерее (Калифорния). Основу её быстродействия составляет массив флеш-памяти, объединённой через сеть. Однако это не классический NAS и не совокупность SSD.

Прототип BlueDMB из шести вычислительных узлов (фото: Sang Woo Jun)
Прототип BlueDMB из шести вычислительных узлов (фото: Sang Woo Jun).

В BlueDBM каждая группа чипов флеш-памяти подключена к своей микросхеме FPGA и образует логический узел. Как поясняет Сан Ву Чун, программируемые вентильные матрицы не только выступают в роли контроллера флеш-памяти, но и сами выполняют необходимые операции обработки данных: “Это означает, что мы можем выполнять обработку данных непосредственно близко к устройствам их хранения. Таким образом, реже потребуется перемещать их и терять время”.

Микросхемы FPGA соединены посредством скоростного последовательного сетевого интерфейса. Задержка при обращении к любому узлу составляет лишь несколько наносекунд. При более высокой производительности такое решение оказалось гораздо дешевле подобных систем без программируемых вентильных матриц.

В настоящее время команда разработчиков моделирует на BlueDBM развитие Вселенной по алгоритмам, разработанным в Университете штата Вашингтон: “Это огромный набор данных, содержащий наблюдения за взаимодействием частиц. Его обработка требует выполнения множества запросов и обычно происходит очень долго. Мы надеемся обеспечить интерфейс реального времени, который поможет исследователям анализировать информацию быстрее и легче”.