Доклады, выступления, видео и электронные публикации

Цифровые данные и искусственный интеллект

Известно, что при осмысленной обработке больших данных возможно извлечение знаний, способных оказать существенное влияние на качество принимаемых решений в различных задачах общества, государства и бизнеса [1].

Накопленный специалистами опыт манипуляций с данными для извлечения знаний позволяет автоматически выполнять многие процессы, например, за счет использования методов искусственного интеллекта (ИИ), без участия оператора, и, следовательно, без ознакомления его с накопленными данными. Это тем более важно, что при этом значительная часть накапливаемых операторами больших данных относится к категории персональных и других защищаемых данных, оборот которых регулируется законодательством, в том числе 152-ФЗ и связанными с ним подзаконными актами, в совокупности существенно ограничивающими возможности обмена данными указанного типа.

Таким образом, сформировалось противоречие между потребностями хозяйствующих субъектов в сборе и обработке больших данных и ограниченными возможностями осуществлять эту деятельность в рамках существующих технических решений и норм правового регулирования.

Преодоление данного противоречия является научной задачей и возможно путем разработки специализированных технологий, методов и средств обработки защищаемых данных без ознакомления с ними. Этот тип технологий назовем технологиями «слепой» обработки (ТСО), а средства вычислительной техники (СВТ), реализующие ТСО — СВТ «ТСО».

Здесь нужно отметить, что целью извлечения знаний из больших данных является установление закономерностей в обществе. Построенные в результате машинного обучения модели носят прогнозный характер, не касаются конкретной личности, и, таким образом, не могут относиться к персональным данным.

Методы защиты систем искусственного интеллекта до настоящего времени не разработаны и не разрабатывались, хотя потребность в системах этого класса осознана. Опыт, на который можно опираться, отсутствует.

Представляется очевидным, что все стандартные методы технической защиты информации (ТЗИ) для корпоративных систем должны применяться и здесь, но должны быть дополнены новыми, специфическими методами, учитывающими особенности машинного обучениями и обработки больших данных, в том числе персональных.

Если защищаемые данные обрабатываются автоматически (трансформируются) и не могут быть извлечены из используемых СВТ для ознакомления с ними оператора и третьих лиц, то тогда трансформация данных не приводит к ознакомлению с ними.

При реализации этого подхода появляется необходимость обеспечить выполнение новой функции безопасности (ФБ) — «неизвлекаемость данных» (ФБ НД). Реализация этой функции может быть сделана по принципу ФБ «неизвлекаемый ключ». Опыт разработки неизвлекаемого ключа и успешной сертификации позволяет рассчитывать на успех в реализации и ФБ «неизвлекаемые данные».

Отметим, что обеспечение ФБ НД является необходимым условием использования СВТ «ТСО», но не является достаточным. Достаточность должна обеспечиваться реализацией мер безопасности, предусмотренных требованиями регуляторов, устанавливающих правила работы с защищаемыми данными, а именно ФСБ, ФСТЭК, Минцифры, ЦБ.

Под реализацией подхода «неизвлекаемые данные» понимается обеспечение хранения и обработки данных различных поставщиков без их передачи в трактовке 152-ФЗ «О персональных данных».

В соответствии с п. 3 статьи 3 152-ФЗ «О персональных данных» передача персональных данных включает распространение, предоставление и доступ.

Распространение персональных данных — действия, направленные на раскрытие персональных данных неопределенному кругу лиц (п. 5 ст. 3).

Предоставление персональных данных — действия, направленные на раскрытие персональных данных определенному лицу или определенному кругу лиц (п. 6 ст. 3).

Определения доступа к персональным данным в 152-ФЗ нет. Под доступом к информации в широком смысле принято понимать возможность ознакомления с информацией, копирования, модификации, создания и уничтожения информации.

Таким образом, реализация в СВТ «ТСО» функций безопасности, гарантирующих исключение для пользователей возможности раскрытия персональных данных, ознакомления с ними, их копирования, модификации, создания и уничтожения позволит говорить о том, что персональные данные не предоставляются.

Неизвлекаемость данных — свойство, обеспечиваемое специальным режимом доступа к данным, при котором гарантируется исключение раскрытия персональных и других защищаемых данных, ознакомления с ними, копирования, модификации, но допускается обработка и использование для извлечения знаний.

Свойство неизвлекаемости данных не является абсолютным, как и другие свойства данных в предметной области технической защиты информации — целостность, доступность, конфиденциальность. Наиболее распространенной количественной оценкой таких характеристик является уровень доверия, устанавливаемый при испытаниях, однако за ним стоит обоснование, сформулированное относительно свойственных каждой характеристике специфических точек отсчета. По аналогии, оценка свойства неизвлекаемости может быть дана в форме уровня доверия, устанавливаемого на основе выполненного анализа в процессе сертификационных испытаний. Для осуществления этой оценки должна быть выработана и обоснована система координат, в которой могут быть сформулированы параметры свойства неизвлекаемости. Это задача научного уровня.

Относительность понятий «доверенность» и «неизвлекаемость» не исключает некоторых остаточных рисков — компенсация этих рисков возможна на основе использования механизмов страхования информационных рисков [2].

Рассмотрим один из возможных механизмов технологии слепой обработки.

Защищаемые данные загружаются в СВТ «ТСО» предварительно в зашифрованном виде. Перемещение защищаемых данных в СВТ «ТСО» не приводит к их утечке, если извлечь данные из хранилища и ознакомиться с ними невозможно, даже в том случае, если извлекать знания в автоматическом режиме можно.

Их начальная обработка выполняется полностью автономно — без участия человека. Здесь под начальной обработкой понимается обеспечение безопасного криптографического скачка — расшифрование с использованием ключа поставщика и зашифрование на ключе хранения. После безопасной загрузки данных можно реализовывать технологию автономного машинного обучения, при которой также обеспечивается неизвлекаемость данных.

Неизвлекаемость данных обеспечивается ограничением команд обработки, применяемых к данным, и методами преобразований, позволяющими обеспечить защиту данных от ознакомления при их передаче, и реализуется совокупностью команд трансформации данных.

Термин «информационная технология» (ИТ) ниже будем понимать как процесс, состоящий из последовательности информационных операций над данными. Ограничение команд, обеспечивающих неизвлекаемость данных, выполняется по результатам изучения конкретных ИТ, предназначенных для слепой обработки данных. ИТ, обеспечивающая неизвлекаемость, должна быть согласована и зафиксирована.

Полностью автономная, без участия человека, обработка выполняется на основе согласованных и зафиксированных ИТ. Согласование и фиксация обеспечивается подписью регулятора. Согласование возможно в случае, если для данной ИТ (последовательности операций, конвейера операций) выполняется основное требование — в составе публикуемых результатов полностью автономной обработки (без участия человека) не содержатся защищаемые данные. В этом случае ИТ подписывается электронной подписью (ЭП) регулятора. Зафиксированная безопасная последовательность операций трансформации данных без ознакомления с ними может быть подписана ЭП разных регуляторов — если предполагается обработка наборов данных, относящихся к разным видам тайн. Например, при обработке наборов, содержащих сведения о персональных данных, тайне связи и банковской тайне соответствующая ИТ должна быть подписана ЭП уполномоченных представителей РКН и ЦБ, а наборы данных должны быть соответственно маркированы.

При положительном результате проверки ЭП ИТ исполняется, при отрицательном — отклоняется. Результат проверки отражается в журнале аудита. Проверка ЭП выполняется сертифицированными средствами электронной подписи (СЭП) с использованием ключа проверки подписи ответственного сотрудника регулятора.

Таким образом, обеспечить безопасную работу систем искусственного интеллекта с большими данными, содержащими защищаемые данные, в том числе персональные данные и данные, относимые к банковской тайне, тайне связи и другим видам тайн — технически и организационно вполне возможно. Однако, принятые в существующем законодательстве нормы и определения, а зачастую и их отраслевые трактовки в ряде случаев являются серьезными барьерами для развития систем обработки больших данных и систем ИИ в частности. Например, регулятор в сфере безопасности допускает перемещение данных в зашифрованном виде по каналам связи без ограничений, справедливо считая, что распространение данных может в этом случае быть связано не с передачей наборов байтов, а с передачей ключа расшифрования. А вот регулятор в сфере персональных данных не различает безопасное перемещение данных и их передачу, которая приводит к распространению и ознакомлению с ними.

Таких примеров не мало, и развитие нормативной базы на основе термина категориального уровня «информация» не представляется простой и быстрой. Более перспективным для развития систем ИИ представляется создание нормативной базы на основе термина «цифровые данные», трактуемых как особый вид зафиксированного отражения информации о фактах реального мира.

Литература

Акаткин Ю.М., Карпов О.Э., Конявский В.А., Ясиновская Е. Д. Цифровая экономика: концептуальная архитектура экосистемы цифровой отрасли // Бизнес-информатика. 2017. № 4 (42). С. 17-28.
Вусс Г., Конявский В., Хованов В. Система страхования информационных рисков // Финансовый бизнес. 1998. № 3. С. 34.

Автор: Конявский В. А.

Дата публикации: 15.02.2023

Выходные данные: Международная конференция «Правовые аспекты цифрового развития общества», 02.12.2022г.

Scientia potestas est

Цифровые данные и искусственный интеллект

Обратная связь