Большие данные в свете геометрических идей столетней давности

Наш мозг состоит из миллиардов нейронов, соединенных триллионами синапсов. Способ их организации влияет на функционал мозга и наше поведение. Швейцарские ученые разработали недавно первый в истории цифровой 3D атлас клеток мозга,  представляющий собой полную карту мозга мыши.

Как представить такое огромное количество информации в удобном и компактном виде? С этой проблемой постоянно сталкиваются ученые, на протяжении множества лет полагающиеся в отношении изучения данных на математику и статистику. Стремительный рост больших пакетов данных, вызванный цифровым хранением, интернетом и использованием огромного количества сенсорных датчиков вызвал необходимость разработки новых технологических приемов, созданных специально для работы с большими данными.

Теперь у  ученых появился революционно новый подход, основанный на многовековых идеях и создающий превосходные инструменты для понимания определенных видов больших данных. Если использовать в качестве примера мозг мыши – его физическая форма определяет его функционал. Однако существующее теперь точное описание этой формы не обеспечивает автоматического представления картины работы мозга.

В основе физической формы лежит более абстрактная форма, которая создается взаимодействиями внутри мозга. Улавливание аспектов этой формы при помощи приемов, используемых в науке под названием «топология», может помочь получить более глубокое понимание процесса функционирования мозга. Аналогичный принцип использования топологических приемов в работе с большими данными также нашел применение в разработке лекарственных препаратов и некоторых других высокотехнологичных отраслях.

Топология

Топология представляет собой раздел современной геометрии, корни которого уходят к фундаментальным наблюдениям математика Леонарда Эйлера (Leonhard Euler, 1707-1783), связанным с многогранниками,  пространственными фигурами с плоскими поверхностями, прямыми и острыми углами или «вершинами». В 1750 году Эйлер установил, что для любого выпуклого многогранника справедлива следующая формула: количество вершин минус количество ребер плюс количество граней всегда равно двум.

Применив эту формулу к другим фигурам, можно получить величину под названием характеристика Эйлера – значение, остающееся неизменным, вне зависимости от наклона или деформации фигуры. Топология изучает именно такие постоянные и непрерывные свойства фигур.

В 20 веке топология быстро развивалась, став основным предметом абстрактной математики. Создавшие науку ученые не думали о ее реальных приложениях, им просто было интересно узнать математическую истину о фигурах в различных условиях.

Тем не менее, некоторые из этих существующих уже более 100 лет идей сейчас находят широкое применение в науке о данных. Поскольку технология фокусируется на постоянных свойствах, она не воспринимает различные неточности данных или «шумы». Это делает ее идеальной для расшифровывания истинного смысла собранной информации.

Большие данные в свете геометрических идей столетней давности

Возьмем знакомое всем топологическое явление. Провода, аккуратно сложенные в сумку утром (будто то наушники или адаптер), к середине дня имеют свойство превращаться в бесформенный запутанный комок. Провод имеет очень простую форму. Связан он в узел или нет  – вопрос топологии, а тенденция образования топологического кошмара в наших сумках теперь вполне понятна.

Миллионы лет назад эволюция столкнулась с аналогичной проблемой. Молекула ДНК состоит из двух спирально соединенных цепочек. Каждую цепочку можно изобразить в виде очень длинного провода, состоящего из последовательностей маленьких молекул, называемых нуклеотидами. Когда клетка делится, провод разматывается, складывается и вновь скручивается в кольцо. Но, подобно наушникам в сумке, нити ДНК могут спутаться, что не дает клетке делиться и приводит к ее смерти.

Специальные энзимы в клетке (топоизомеразы) выполняют задачу предотвращения такого варианта развития событий. Намеренное разрушение топоизомеразов бактерий не дает им распространяться и останавливает инфекцию. Это означает, что понимание процесса, при помощи которого топоизомеразы предотвращают запутывание ДНК, может помочь в разработке новых антибиотиков.  А поскольку запутывание является чисто топологической функцией, сделать это помогут топологические приемы.

Разработка лекарственных препаратов

Таким образом, топологию можно использовать для создания новых лекарств. Фармацевтические препараты представляют собой химические вещества, разработанные, чтобы определенным образом взаимодействовать с определенными клетками в нашем теле. Клетки имеют рецепторы, позволяющие молекулам определенной формы за них зацепляться, изменяя поведение клеток. Созданные с такими измененными молекулами лекарства могут нацеливаться и влиять на правильные клетки.

Таким образом, заставить молекулу принять определенную форму – процесс совсем не сложный. Но, чтобы заставить лекарство воздействовать на нужные клетки, необходимо отправить его по кровотоку, а для этого препарат должен быть растворимым в воде.  После производства лекарства с нужной формой возникает главный вопрос – растворяется ли оно в воде? К сожалению, на этот вопрос сложно ответить, располагая лишь знаниями о структуре молекул, и многие фармацевтические проекты потерпели неудачу именно из-за проблем с растворимостью.

И здесь вновь может оказаться полезной топология. «Молекулярное пространство» обращается к представлению всего скопления молекул в качестве математического объекта, который можно изучить геометрически. Составление карты этого пространства станет удивительным инструментом для создания новых лекарственных препаратов, особенно если эта карта  будет содержать объекты, обозначающие высокую вероятность растворимости.

Недавно ученые уже использовали  данные топологического анализа в качестве первого шага для создания такой карты. Изучающий и анализирующий огромное количество данных, связывающих свойства молекул с растворимостью в воде, этот подход привел к открытию новых, ранее не известных индикаторов растворимости. Эта улучшенная возможность производить растворимые в воде лекарства способна значительно сократить время, необходимое для разработки нового лечения, и сделать весь процесс значительно дешевле.

Углубляясь в самые отдаленные сферы науки, ученые находят информацию, которую можно эффективно применять в различных отраслях. Ответ современных математиков на решение проблемы больших данных все еще не найден, и топология – теория, привязанная к воображению ее участников, может оказаться чрезвычайно полезной в  формировании нашего будущего.

Источник