Персональные данные сегодня – ценный ресурс для многих сфер бизнеса и компаний. Частная информация собирается по ряду причин, и если часть этих данных имеет вполне общий характер, то остальные персональные данные, включая фамилии людей, даты рождения, номера страховых полисов и счетов, позволяют идентифицировать личность. Если такая информация попадет в руки злоумышленников, она может быть использована в корыстных целях. В связи с этим существует необходимость поиска инструментов анонимизации персональных данных с целью минимизации отрицательных последствий возможного нарушения их конфиденциальности. Предлагаем разобраться, что именно означает термин “анонимизация данных”.

Что такое “анонимизация данных”?
Анонимизация, или редактирование данных – процесс удаления или скрытия персональных данных с целью их последующего использования в разных целях. Некоторые организации, включая Институтский наблюдательный совет (IRB, США) и Европейское агентство по оценке лекарственных средств (EMA), требуют, чтобы исследователи и компании-производители лекарств анонимизировали свои данные, прежде чем публиковать результаты своих исследований, с целью защитить персональные данные их участников и право на неприкосновенность частной жизни.
Статья 3(1) Положения Совета ЕС 2018/1725 определяет персональные данные и субъектов данных следующим образом:
“Персональные данные” – это любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу (“субъекту персональных данных”); определяемое физическое лицо – тот человек, который может быть прямо или косвенно определен, в частности, с помощью таких идентификаторов, как имя, идентификационный номер, данные о местонахождении, учетные данные в сети и любые другие данные о его физическом, физиологическом, генетическом, психическом, экономическом, культурном и социальном статусе[.]”
В зависимости от сферы использования персональных данных требования к степени их анонимизации могут варьироваться. Например, при внутреннем использовании данных в пределах одной компании, они могут лишь незначительно редактироваться, в отличие от ситуаций публичного использования таблицы данных.
Согласно EMA, эффективность решений для анонимизации данных можно оценивать по следующим критериям:
- Возможность определить физическое лицо.
- Возможность связать записи, относящиеся к одному физическому лицу.
- Возможность логически вывести информацию о физическом лице.
Если алгоритм анонимизации не соответствует одному из этих трех критериев, существует риск нарушениях конфиденциальности персональных данных.
Трудности, возникающие в процессе анонимизации данных
Одна из главных трудностей в процессе анонимизации данных заключается в необходимости сохранения баланса между анонимностью и читабельностью/полезностью данных. Анонимизированные данные часто используются для обучения моделей, позволяющих прогнозировать некоторые характеристики, поведение или выходные данные в различных сферах анализа данных. Однако пользователь может переусердствовать и настолько изменить исходные данные в попытке сохранить их конфиденциальность, что они могут быть непригодны для дальнейшего анализа или отрицательно сказаться на качестве прогностических моделей. В связи с этим всегда необходимо искать какой-то компромиссный сценарий, гарантирующий сохранность данных, и при этом не снижающий точность прогностической модели.
С наступлением эпохи Big Data и семантических сетей возникла еще одна трудность: опасность использования персональных данных злоумышленниками путем доступа к связанным базам данных. Семантическая сеть (Web 3.0) позволяет связывать данные о физических лицах, хранящиеся в разных базах данных, которые используются в целях развития искусственного интеллекта. Однако это существенно усложняет процесс анонимизации персональных данных, поскольку данные хранятся в нескольких разных локациях. Даже если мы анонимизируем персональные данные в одной базе данных, сохраняется большая вероятность того, что с помощью чувствительной информации, хранящейся в другой базе данных, физические лица могут быть идентифицированы.
И наконец, возникают трудности идентификации и извлечения персональных данных, а также ставится под угрозу возможность отменить результаты анонимизации таблицы данных. Многие компании используют систему ручного аннотирования, с помощью которой данным, или сущностям, подлежащим анонимизации, присваиваются специальные метки. Очевидно, что при работе с большими данными, такой подход не эффективен. Кроме того, хороший инструмент анонимизации данных должен использовать надежный метод шифрования, которые позволяет сохранять исходные данные и в случае необходимости инвертировать процесс анонимизации. В связи с этим возникает необходимость поиска эффективных автоматизированных систем распознавания персональных данных в неструктурированных текстах.
Как это происходит?
Анонимизацию можно рассматривать как с точки зрения сохранности персональных данных, так и с точки зрения их полезности. В первом случае во главу угла ставится необходимость сохранения полной конфиденциальности данных, что предполагает использование строжайших алгоритмов их анонимизации в ущерб полезности. Во втором – наоборот. В зависимости от ситуации, в которой используются персональные данные, вы можете придерживаться первой или второй точки зрения. Однако оптимальный инструмент анонимизации данных должен гарантировать сохранение баланса между конфиденциальностью и полезностью данных.
Два основных этапа редактирования данных – предварительная обработка данных и собственно анонимизация.
Предварительная обработка данных
На этапе предварительной обработки данных необходимо убедиться в том, что данные имеют нужный формат и должным образом очищены. Например, орфографические ошибки могут отрицательно сказаться на точности процесса извлечения персональных данных, которые вам предстоит анонимизировать. Идентификация таких данных, или сущностей, которые необходимо анонимизировать, – тоже часть предварительной обработки данных. Она выполняется путем ручной разметки или с помощью автоматизированных средств; очевидно, что второе – более предпочтительно. После того, как информация будет должным образом размечена, она классифицируется на прямые идентификаторы и квазиидентификаторы в зависимости от ее воспроизводимости, уникальности и доступности для широкой публики.
Анонимизация
Прежде чем приступить к анонимизации данных, необходимо принять во внимание ряд факторов. Во-первых, важно понять, могут ли наши данные стать объектом хакерской атаки. В каком контексте будут использоваться данные? Кто будет иметь к ним доступ? Могут ли они быть использованы злоумышленниками? Если да, то как? Ответы на эти вопросы позволят нам определить оптимальный баланс между анонимностью данных и их полезностью.
Теперь необходимо выбрать методику анонимизации данных, которая оптимально соответствует нашим потребностям и целям. Наиболее простой способ анонимизации – полное и необратимое удаление всех персональных данных с помощью специальных программ. При этом риск нарушения конфиденциальности данных будет сведен до минимума, но читабельность данных также существенно сократится.

Другой способ состоит в псевдонимизации персональных данных, которая предполагает их замену терминами, обозначающими тип замены (например, “Измененное имя” или “Измененный адрес”). При таком подходе отредактированный текст будет более читабельным, но в нем будет сложно отследить интересующие исследователя точки данных, особенно при работе с несколькими документами. В качестве альтернативы можно использовать уникальные сочетания числовых или буквенно-числовых символов, которые позволяют отслеживать анонимизированные сущности по нескольким документам. А если их при этом сочетать со специальными терминами, обозначающими тип анонимизированных сущностей, такие отредактированные тексты будут очень понятными.
Хотя псевдонимизация делает текст более читабельным, она также повышает риск того, что персональные данные будут восстановлены через так называемые квазиидентификаторы: если объединить достаточное количество непрямых идентификаторов, злоумышленники смогут определить физическое лицо. В связи с этим в процессе анонимизации данных стали применять алгоритмы генерализации или рандомизации, которые позволяют сократить риск раскрытия идентичности данных, даже если в данных встречаются квазиидентификаторы. При генерализации значение заменяется целым диапазоном (например, возраст “53 года” заменяется диапазоном “45-55”). Популярный инструмент анонимизации – k-анонимизатор, который гарантирует невозможность определения физического лица, поскольку этот человек – один из k-1 других членов группы. k-анонимизация эффективна при работе со структурированными текстами, но в отношении неструктурированных текстов такой подход менее эффективен и приводит к снижению точности моделей машинного обучения из-за потерь информации. А вот рандомизация данных (добавление шума и перестановки, например, изменение дат в случайном порядке) может вызвать путаницу в атрибутах, но в целом больше подходит для работы с неструктурированными текстами. В последнее время принцип дифференциальной приватности приобрел большую популярность в связи с тем, что он не влияет на точность моделей: он используется для анонимизации данных путем рандомизации данных или добавления шума, в результате чего поисковые запросы не могут определить, содержит ли база данных персональные данные физических лиц. Однако следует отметить, что этот не очень прост в реализации.
Необходимая документация
Какую бы методику анонимизации данных мы не использовали, она должна быть тщательно задокументирована. В некоторых случаях этого требуют специальные контролирующие органы, такие как EMA, но в целом это – общепринятая практика в сфере анализа данных.
Компания Megaputer предлагает вам автоматизированное решение для предварительной обработки и анонимизации данных. Если вам понадобится дополнительная информация о том, как можно редактировать данные с помощью системы PolyAnalyst™, свяжитесь с нами, и мы предоставим вам бесплатную демоверсию программы.