Графические процессоры выводят обработку больших объёмов данных на новый уровень

С тех пор как шесть лет назад графические чипы получили унифицированную шейдерную архитектуру, обычные видеокарты стали широко использовать за пределами игр и 3D-графики. Сегодня им нет равных в скорости решения любых вычислительных задач, хорошо поддающихся параллельной обработке. В первую очередь это касается выполнения научных расчётов, криптографических приложений и бизнес-аналитики.

Ускорители Nvidia Tesla, лежащие в основе многих современных суперкомпьютеров, имеют практически такую же архитектуру, что и видеокарты серии GeForce соответствующего поколения.

Насколько же графические чипы способны ускорить выполнение отдельных вычислительных задач? Появившийся в 2009 году чип AMD Cypress Pro (Radeon HD5850) содержал без малого полторы тысячи универсальных потоковых процессоров. В вычислениях с плавающей запятой (FP32) на штатной частоте 725 МГц он обладал производительностью около 2 Тфлопс.

Новые процессоры серверного уровня Intel Xeon E3 демонстрируют на порядок меньшую скорость, значительно превосходя его в цене. В среднем одна топовая видеокарта может ускорить обработку данных на современном компьютере в 50–70 раз. Такой способ кардинального увеличения производительности ценой минимальных затрат меняет и подходы к решению актуальных задач из области Big Data.

Большие объёмы информации всё чаще хранят в массивно-параллельных базах данных (MapD). Для их работы требуется дорогое оборудование, а частые запросы к ним воспитывают у пользователей терпеливость — или, наоборот, развивают нервозность.

Текущие средства визуализации, оперирующие большими объёмами данных, работают преимущественно на серверах архитектуры x86. Для отображения нужной информации по каждому запросу им требуется относительно небольшое, но ощутимое время. В среднем пройдёт с полминуты, прежде чем прорисуются все слои карты и построятся наглядные диаграммы.

В Массачусетском технологическом институте разработан прототип недорогой системы на базе видеокарт, легко справляющейся с одновременной обработкой тысяч запросов практически в режиме реального времени.

Профессор MIT Сэмюэль Мэдден (Samuel Madden) так прокомментировал важность её создания:

«Известные сегодня системы визуализации нельзя считать истинно интерактивными. Они используют ряд предварительных вычислений для ускорения отображения выводимых данных. Мы создали совершенно новую систему. Она анализирует весь набор данных из БД в ответ на каждый запрос в течение нескольких миллисекунд. Система останется быстрой, даже если база будет содержать сотни миллионов записей».

На примере анализа сообщений в Twitter она демонстрирует, как отдельные мемы распространяются по миру. Доступ к ресурсу открыт для всех желающих. Вы сами можете увидеть, где географически зародились 50 млн коротких сообщений, отправленных в период с 28 сентября 6 октября 2013 года, и какие слова в них встречаются чаще других.

Автор идеи — выпускник Гарвардского университета Тодд Мостак (Todd Mostak). Он пришёл к ней во время тщетной попытки обработать имеющимися средствами обширные данные социологических исследований на Ближнем Востоке.

Чтобы тысячи удалённых пользователей могли одновременно увидеть анимацию со скоростью 30 кадров в секунду, MapD хранит базу данных в оперативной памяти видеокарт и обрабатывает запросы силами графических чипов.

С MapD пользователь может менять условия поиска (включая анализируемый период или выбранный регион) и получать новый результат практически мгновенно.