Новый проект создателя Apache Spark — технологии параллелизации с открытыми исходниками — привлёк многомиллионные инвестиции

Big Data / Новости События
автор: Олег Парамонов  26 сентября 2013

Американский венчурный фонд Andreessen Horowitz вложил $14 млн в компанию Databricks, за которой стоят ключевые разработчики нескольких важных проектов с открытыми исходниками, имеющих отношение к «большим данным». Чем они занимаются теперь, не афишируется. Такая секретность интригует западных журналистов и даёт им повод называть Databricks «таинственным стартапом«.

Сайт Databricks лаконичен. Он открывается коротким сообщением, из которого следует, что компания разрабатывает новое поколение программных средств для анализа данных и полагается при этом на результаты многолетних исследований.

Затем следует список основателей. В их число входит профессор Массачусетского технологического института, создавший платформу Apache Spark, два профессора Университета Беркли, один из которых основал компанию Conviva, разрабатывающую технологию адаптации потокового видео к пропускной способности сети, а другой — Nicira, специализировавшуюся на технологиях виртуализации и год назад купленную VMWare.

Четвёртое имя в списке членов совета директоров — Бен Горовиц из Andreessen Horowitz. Венчурный фонд, в котором он сотрудничает с одним из основателей Netscape Марком Андриссеном, известен успешными инвестициями в Skype, Instagram, Groupon и Zynga.

Apache Spark представляет собой систему организации параллельной обработки данных, написанную на функциональном языке программирования Scala. В отличие от технологии MapReduce, как правило, используемой для обработки информации, которая записана на жёстких дисках, Spark обрабатывает данные, хранящиеся в оперативной памяти. Создатели технологии полагают, что такой подход многократно увеличивает быстродействие во многих задачах, связанных с машинным обучением или data mining.

Apache Spark уже используют многие компании, в том числе Yahoo!, AirBNB, Conviva и Quantifind (стартап, разрабатывающий технологии предиктивной аналитики). Кроме того, Spark служит основой для ещё одного проекта с открытыми исходниками — Apache Shark. Shark, как и проект Apache Hive, из которого он вырос, предназначен для суммирования, извлечения и анализа информации, содержащейся в массивных хранилищах данных. Отличие от Hive заключается в замене Hadoop (свободной реализации MapReduce) на Spark.

Бену Лорике (Ben Lorica) из O’Reilly Media удалось узнать некоторые подробности о планах Databricks. В блоге O’Reilly Strata он сообщает, что компания разрабатывает универсальные аналитические инструменты, использующие HDFS (свободную реализацию Google File System), YARN (новое поколение Hadoop) и компоненты Berkeley Data Analytics Stack, в число которых входят Spark и Shark.

Кроме того, известно, что в Databricks намерены сохранить верность идеологии свободного софта.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Цукерберг пожертвует $45 млрд по случаю рождения дочери
Цукерберг пожертвует $45 млрд по случаю рождения дочери
CWA vs FBI — явки, пароли, адреса
CWA vs FBI — явки, пароли, адреса
Презумпция виновности – когда форма важнее сути
Презумпция виновности – когда форма важнее сути
  • Саша

    Спасибо. Существенно.

  • Сергей Зыкин

    Судя по тому как Линукс завоевал десктопы, скоро «Большие данные» будут использоваться и в быту…

    Вообще в этом есть невероятный потенциал, но вот сбор данных…

    • Андрей Иванов

      Телекамера быстро собирает данные, и надо мгновенно найти максимум

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"