Борьба с энтропией в больших данных

К концу прошлого года Россия накопила 155 эксабайт, или 2,4% доступных человечеству данных. Общее же количество оцифрованной информации в мире сегодня превышает 6,5 зеттабайт и постоянно растёт. Если раньше темпы прироста составляли до трети суммарного объёма в год, то на ближайшие пять лет прогнозируется резкий скачок – до двух третей ежегодно. При этом лишь пятая часть всей информации уникальна и представляет практическую ценность.

Происходит это не столько из-за технических сложностей, сколько из-за низкой культуры работы с данными. Всё начинается с привычек домашних пользователей, которые они приносят в корпоративную среду. Если человек разумное существо, то ему стоит бороться с увеличением энтропии хотя бы на уровне своих повседневных задач. Не преумножать мусор сверх меры, не накапливать и не производить хлам. Словом – бережно относиться к любым ресурсам независимо от их формы и рыночной стоимости.

Рост интернет-трафика (изображение: cisco.com).
Рост интернет-трафика (изображение: cisco.com).

Мы совершенно бездумно обращаемся с информацией, считая её нематериальной. При этом каждый байт записывается на вполне осязаемые физические носители, занимает место в оперативной памяти при обработке и канал связи при передаче данных. Только вдумайтесь: уже в этом году в мире накопится около восьми зеттабайт. Эту прорву данных надо хранить, резервировать, пересылать на высоких скоростях и делать доступной в один клик или тап.

Виртуальный мир развивается за счёт реального. Чтобы справится с задачей обработки возрастающего количества данных, мы все тратим некоторое количество своих сил и средств, а главное – времени. Мы живём так, будто жизнь бесконечна и не представляет ценности даже для нас самих.

Люди покупают терабайтные винчестеры и мастерят дома NAS не потому, что производят много ценного контента. Большинство плодит бесчисленные дубликаты фильмов и картинок из интернета, снимает фото и видео с высоким разрешением, но без ценного сюжета, записывает имеющиеся файлы ещё раз, когда не может их найти. Свободное место воспринимается как неосвоенный ресурс. Поэтому его забивают чем попало, стараясь скачать что-то интересное на всякий случай. Запрос «скачать бесплатно» неизменно остаётся в топе любого поисковика.

Структура интернет-трафика (изображение: cisco.com).
Структура интернет-трафика (изображение: cisco.com).

Создавать клонов в сети ещё проще. Очередная фотка капучино должна появиться в памяти смартфона, Instagram и облаке ещё до того, как напиток остынет. Мы делаем ретвиты и репосты любой записи, которая вызвала эмоциональный отклик, постим одно и то же в разные соцсети, плодим «баяны» и ругаемся на их засилие. Даже культура письма изменилась в последние годы. Сейчас принято цитировать в новом деловом сообщении всю предыдущую переписку по данной теме. Считается, что это удобно. Открываешь новое письмо, а в нём «спасибо!» и ниже вся история общения – долгий процесс согласования, взаимные обещания, ссылки и десятки однотипных подписей.

Обычное текстовое письмо без вложений и витиеватого оформления легко может занимать мегабайт или два. Казалось бы, ну и что? Подумаешь, пара мегабайт для дела! Какой-нибудь дурацкий ролик про кота с YouTube занимает в десять раз больше – никто не жалуется. Никто, кроме тех, кто заставляет работать дата-центры под лавиной мусора и придумывает новые алгоритмы выуживания из него ценных данных. Каждому ИТ-профессионалу приходится обслуживать в разы возрастающие объёмы данных, разрабатывать и внедрять принципиально новые подходы для их обработки. Потому, что рост количества с какого-то момента требует качественных изменений. Как пелось в известном ремиксе: «А сервер год от года держать им тяжелей».

Через пять лет каждый ИТ-специалист будет обрабатывать в пять раз больше данных (изображение: IDC).
Через пять лет каждый ИТ-специалист будет обрабатывать в пять раз больше данных (изображение: IDC).

Конечно, текст всегда занимает считанные проценты от общего сетевого трафика, но вы только представьте, какова избыточность сложившегося подхода в переписке! В прошлом году почтовые серверы ежедневно принимали 28 млрд писем из категории «спам». Это лишь малая часть из того, что просочилось через старые фильтры на основе байесовских классификаторов и новые, использующие репутационные характеристики письма и отправителя.

Период с середины нулевых и до 2013 года был ещё хуже в плане бесполезных данных. Доля спама стабильно росла и долгое время превышала две трети трафика. Только сейчас она стала понемногу снижаться, но почтовым серверам не стало легче. Теперь они вынуждены гонять по кругу одни и те же тексты просто потому, что пользователи не умеют работать с почтовыми клиентами, настраивать отображение сообщений в виде цепочек и просто организовывать свою работу.

Спам убывает, но трафик растёт (изображение: Symantec.
Спам убывает, но трафик растёт (изображение: Symantec.

Современные пользователи уже ленятся лишний раз тыкнуть пальцем в сенсорный экран. Они хотят полной автоматизации, поэтому умный софт потихоньку начинает принимать решения за них. Gmail сменил Inbox – клиент, который пытается угадать важность каждого письма, его групповую принадлежность и удобный способ отображения всей почты. Работает это потому, что Google Now отслеживает не только всю переписку, но и личную жизнь. Он всегда помнит историю поиска, список дел и контактов, где вы оставили машину и как обычно добираетесь из дома на работу. Системы слабого ИИ нянчатся с нами, как с убогими, а мы продолжаем радостно деградировать. «ОК, Google! Где моя тачка?». «Siri, какая сейчас погода?». «Cortana, как пройти прямо?».

Разум. Его принято искать на других планетах.
Разум. Его принято искать на других планетах.

В IBM постепенно делают мощнейшую систему ИИ Watson пригодной для решения всё большего круга задач – от угадывания слов и придумывания рецептов блюд до обобщения медицинских данных с целью подбора оптимального метода лечения. Разработчики стараются сделать платформу универсальнее, доступнее и рассматривают возможность со временем вывести её за пределы научных коллективов.

Адаптировать интерфейс для широкой аудитории несложно, но вот найдутся ли у обывателей достойные задачи? У Дугласа Адамса была на этот счёт идеальная фраза, произнесённая от имени литературного персонажа – андроида Марвина: «Вот он я – мозг размером с планету, а они приказывают мне проводить вас в рубку».

Футуролог Рэй Курцвейл в своих прогнозах отводит ИИ одну из ключевых ролей и рисует в своём воображении наступление технологической сигнулярности до конца века. Как возразил бы Марвин: «Я могу рассчитать ваши шансы на выживание, но вам они не понравятся».

Что будем искать? Например,ChatGPT

Мы в социальных сетях