Новый проект создателя Apache Spark - технологии параллелизации с открытыми исходниками - привлёк многомиллионные инвестиции

Американский венчурный фонд Andreessen Horowitz вложил $14 млн в компанию Databricks, за которой стоят ключевые разработчики нескольких важных проектов с открытыми исходниками, имеющих отношение к «большим данным». Чем они занимаются теперь, не афишируется. Такая секретность интригует западных журналистов и даёт им повод называть Databricks «таинственным стартапом«.

Сайт Databricks лаконичен. Он открывается коротким сообщением, из которого следует, что компания разрабатывает новое поколение программных средств для анализа данных и полагается при этом на результаты многолетних исследований.

Затем следует список основателей. В их число входит профессор Массачусетского технологического института, создавший платформу Apache Spark, два профессора Университета Беркли, один из которых основал компанию Conviva, разрабатывающую технологию адаптации потокового видео к пропускной способности сети, а другой — Nicira, специализировавшуюся на технологиях виртуализации и год назад купленную VMWare.

Четвёртое имя в списке членов совета директоров — Бен Горовиц из Andreessen Horowitz. Венчурный фонд, в котором он сотрудничает с одним из основателей Netscape Марком Андриссеном, известен успешными инвестициями в Skype, Instagram, Groupon и Zynga.

Apache Spark представляет собой систему организации параллельной обработки данных, написанную на функциональном языке программирования Scala. В отличие от технологии MapReduce, как правило, используемой для обработки информации, которая записана на жёстких дисках, Spark обрабатывает данные, хранящиеся в оперативной памяти. Создатели технологии полагают, что такой подход многократно увеличивает быстродействие во многих задачах, связанных с машинным обучением или data mining.

Apache Spark уже используют многие компании, в том числе Yahoo!, AirBNB, Conviva и Quantifind (стартап, разрабатывающий технологии предиктивной аналитики). Кроме того, Spark служит основой для ещё одного проекта с открытыми исходниками — Apache Shark. Shark, как и проект Apache Hive, из которого он вырос, предназначен для суммирования, извлечения и анализа информации, содержащейся в массивных хранилищах данных. Отличие от Hive заключается в замене Hadoop (свободной реализации MapReduce) на Spark.

Бену Лорике (Ben Lorica) из O’Reilly Media удалось узнать некоторые подробности о планах Databricks. В блоге O’Reilly Strata он сообщает, что компания разрабатывает универсальные аналитические инструменты, использующие HDFS (свободную реализацию Google File System), YARN (новое поколение Hadoop) и компоненты Berkeley Data Analytics Stack, в число которых входят Spark и Shark.

Кроме того, известно, что в Databricks намерены сохранить верность идеологии свободного софта.

Новый проект создателя Apache Spark — технологии параллелизации с открытыми исходниками — привлёк многомиллионные инвестиции