Не пишите законы – стройте дата-центры!

21 июля 2014 г. федеральным законом №242-ФЗ Закон РФ «О персональных данных» был дополнен пунктом 5 статьи 18, обязавшим оператора хранить и обрабатывать персональные данные граждан РФ на территории России. Говорилось об этом много и разное – но разговоры эти в большинстве своем упускали главное – темпы прогресса в ИТ-отрасли, прежде всего в таких сферах как ИИ и большие данные. Каковые темпы прогресса делают устаревшими и излишними такие законы в таких формулировках – их заменяет универсальная физическая постоянная: скорость света!

Итак, что такое персональные данные? По закону «Персональные данные — любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу». Определение это пришло из далекого 1981 г., когда в Страсбурге была заключена евросоюзовская  “Конвенция о защите физических лиц при автоматизированной обработке персональных данных“. Данные тогда были хоть и автоматизированными, но «маленькими».  Хранившимися на пачках перфокарт или катушках магнитных лент. (В цикле фантаста Р.Желязны «Имя мне легион», 1969-75, главный герой исключал себя из глобальной базы данных, изъяв пачечку перфокарт…)

На картинке современный сенсорный экран, но определение персональных данных пришло из эры перфокарт…
На картинке современный сенсорный экран, но определение персональных данных пришло из эры перфокарт…

Но за прошедшие десятилетия изменилось многое и многое. И косвенность стало понятием хоть и юридически неопределенным (отечественные правоведы на эту тему давать определения избегают, вроде бы…) но очень и очень занятным с технической точки зрения. Дело в так называемых метаданных, которые формально к определенному или определяемому физическому лицу не относятся, но позволяют его идентифицировать с весьма высокой точностью. О том, кто и как собирает и обрабатывает метаданные, мы рассказывали много лет назад – «TÉMPORA, ЧЕЙ ДЕД COLOSSUS:…»

Причем за шесть лет, прошедших с выхода статьи по ссылке, к обрабатываемым и хранимым данным добавился гигантский объем визуальной информации – подходишь к терминалу заплатить налог за землю, а он ласково предлагает тебе попозировать для видеоидентификации… Платежной видеоидентификации – финансисты считают ее достаточно надежной, чтобы доверить самое ликвидное, то бишь, текучее – деньги! В том, что против технологий больших данных не помогают традиционные методы оперативного прикрытия, в ушедшем году убедились пресловутые «солсберецкие» – а «Компьютерра» ведь и их своевременно предупреждала, еще в 2011: «Крыша поехала».

Особая атмосфера, создаваемая кафедральным собором в Солсбери, упоминалась еще в дебютном детективе Дороти Сейерс Whose Body?, 1923…
Особая атмосфера, создаваемая кафедральным собором в Солсбери, упоминалась еще в дебютном детективе Дороти Сейерс Whose Body?, 1923…

Так что в ЕС с 25 мая 2018 г. действует другой, более отвечающий требованиям современности «Регламент Европейского Парламента и Совета Европейского Союза 2016/679 от 27 апреля 2016 г. о защите физических лиц при обработке персональных данных и о свободном обращении таких данных…». В соответствии с ним

«Идентифицируемое лицо — это лицо, которое может быть идентифицировано, прямо или косвенно, в частности, посредством таких идентификаторов как имя, идентификационный номер, сведения о местоположении, идентификатор в режиме онлайн или через один или несколько признаков, характерных для физической, психологической, генетической, умственной, экономической, культурной или социальной идентичности указанного физического лица».

Как видим, определение, куда лучше соответствующее духу времени и возможностям современных технологий, каковые присутствуют повсеместно – игры спецслужб лишь ничтожная и далеко не самая интересная часть ИТ-вселенной. Но, тем не менее, при обсуждении в Госдуме  внесения в закон  требований о хранении персональных данных на территории страны, член думского комитета по информполитике единоросс Роман Чуйченко назвал документ вынужденной мерой, которая призвана усилить информационную безопасность страны и граждан. “Вызвана она усложнением международной ситуации”, – писало ТАСС.

То есть – мы видим парадоксальную ситуацию. Дума, из-за усложнения международной ситуации, принимает закон, налагающий целый ряд ограничений на ИТ-отрасль. Но выясняется, что и при полном соблюдении этих ограничений, информация течет из самых скрытных ведомств мутным потоком, порождая шумные международные скандалы… Ну ладно – игры спецслужб это их, спецслужб, личное дело. Но ведь по тем же каналам ходит и деловая, персональная, финансовая информация. У фермера в ларьке – карточный терминал… Так что же делать, что бы уберечься от возможных проблем?

Отказываться от ИТ вообще, возвращаясь к счётам и гроссбухам? Обносить страну файрволом, почище китайского? Обрабатывать всю информацию только у себя в организации, в «клетках Фарадея», тщательно оберегая периметр? Не поможет! Еще в раннеиндустриальную эпоху бытовал анекдот об установлении Менделеевым формулы бездымного пороха Вьеля путем подсчета вагонов. Анализ входов и выходов системы – этому учили в курсах кибернетики задолго до появления теории и технологии больших данных, которая бы по подсчету вагонов (и миллиардам других признаков) не только вывела б формулу, но и самостоятельно установила паттерн «пироксилиновый порох».

Всё? Получается мы живем в мире со стеклянными стенами? И любая попытка сохранить приватность тщетна?.. Да ничего подобного! И прежде всего надо последовать доброму совету из «Путеводителя по Галактике» Д.Адамса –  Don’t panic! Не паниковать! Дело в том, что страже приватности стоит одна из самых фундаментальных постоянных физической Вселенной – скорость света. Компактность современных микросхем позволяет, порой, забыть о ней. Но – только порой, в отдельных случаях. В общем случае от скорости света не уйти.

В материале «ЖИЗНЕННОЕ ПРОСТРАНСТВО ДЛЯ РОССИЙСКИХ ИСКИНОВ» мы говорили о перспективах внедрения технологий искусственного интеллекта в российский средний бизнес, и о том, что это потребует разветвленной сети центров хранения данных. О финансовых преимущества перехода на удаленное и гибридное хранение данных мы рассказывали в колонке «ЗАЧЕМ СРЕДНЕМУ И МАЛОМУ БИЗНЕСУ ГЛЯДЕТЬ НА ОБЛАКА?». Но как бы не был надежен и дешев удаленный центр хранения данных, у него есть особенность, от которой избавиться не позволит сама структура мироздания.

И особенность эта – задержка передачи данных. Представим себе – мы обрабатываем большие данные. Огромный массив информации, хранящийся в удаленном ЦХД, где хранение надежнее и дешевле. Массив этот неупорядочен. И вот, в процессе обработки, мы адресуемся к данным, хранимым в ЦОД, берем их порцию, обрабатываем, берем новую порцию… И вот представим себе, что ЦОД стоит от нас в 150 км. И вот это добавит к скорости обмена целую миллисекунду. Ничтожно малая для человеческой жизни (которую программисты не зря зовут Slow Time), но весьма много для обработки больших данных.

И если центр далеко, данные неструктурированны и качаются малыми порциями, даже такая удаленность ЦОД может очень неприятно повлиять и на скорость обучения нейросети, и на ее функционирования. Ну, конечно же – влияние этих эффектов можно снизить путем повышения структурирования данных, расширением объема буферов обмена. Стандартная оптимизация архитектур вычислительных систем – тем читателям, кто намерен познакомиться с проблемой чуть глубже, пригодится материал о протоколах обмена Storage protocols comparison – Fibre Channel, FCoE, Infiniband, iSCSI?.

Технологии больших данных предполагается внедрять и на заполярных металлургических комбинатах – и рядом с ними должны будут встать ЦХД…
Технологии больших данных предполагается внедрять и на заполярных металлургических комбинатах – и рядом с ними должны будут встать ЦХД…

Но – от самой задержки, вызванной скоростью света, уйти невозможно. И вот это-то диктует императив размещения центров хранения данных достаточно близко от потребителя этих самых данных. Потребитель может работать на идентификацию лица пользователя банкомата, или на подбор для барышни оптимального вида макияжа. Потребитель может работать на крупный сырьевой бизнес – как, например, анализ с помощью больших данных состава сырья на «Норильском никеле». Во всех случаях ЦХД стоит размещать достаточно близко.

Как бы ни был дешев «хостинг» на островах Вануату или в Канаде, размещать там большие данные для ИскИнов бессмысленно. Дешевизну хранения съедят задержки их передачи. Из-за которых вы будете медленнее обучать нейросеть, дольше решать с ее помощью практические задачи. Продержите клиента лишнее время перед терминалом для видеоопознания – обидится, уйдет к конкуренту. Будете долго опознавать руду перед дробилкой – снизите скорость дробилки. Будете опознавать хуже, за счет снижения обмена – а зачем тогда связываться с большими данными? То есть – ЦОДы надо строить вблизи потребителей. По законам природы…

Для обработки потребительских данных – в городских агломерациях, где концентрация населения делает это выгодно.  Крупный сырьевик может заказать специализированной организации и центр хранения рядом с ГОК или там, где обрабатываются данные геофизической разведки. Но, во всех случаях, это работает на той же территории, где живут потребители. И никакая TÉMPORA эти данные перехватить не сможет. Не из-за секретности, не из-за законов – это диктует сама Вселенная. И не надо налагать на ИТ-бизнес лишние ограничения – наложенных природой более, чем достаточно!

P.S. Когда колонка была написана, новостная лента рассказала о проекте закона «Об экспериментальных правовых режимах в сфере цифровых инноваций», частично исключающем новации в области блокчейна, больших данных и ИИ из общего правового поля. Мысли о противоречии скорости прогресса в ИТ, и инерционности законодательства, похоже, носятся в воздухе…