Хайп или необходимость: как обезличивают наши данные

Публикация: 13.11.2023
Источник Комментарии
Хайп или необходимость: как обезличивают наши данные

One person typing on laptop in dark office generated by artificial intelligence


Хайп или необходимость: как обезличивают наши данные

Данные без лица

Обезличить данные — значит совершить такие действия, после которых невозможно понять, кому эти данные принадлежат. Иногда процесс называют деперсонализацией или анонимизацией. Эти термины означают одно и то же.

Обезличивание обычно касается трех видов информации: 

  • Прямые идентификаторы, которые позволяют сразу определить человека. То есть ФИО, ИНН, номер паспорта, СНИЛС и другие.
  • Косвенные идентификаторы. Например, человека можно вычислить по дате рождения, дате выдачи паспорта и городу проживания. Чем больше таких персональных данных будут связаны друг с другом, тем проще понять, кому они принадлежат.
  • Ценная информация, которая не относится к персональным данным, но ее утечка может быть чувствительной для компании. Например, формула лекарства у фармацевтической компании или схема движения инкассаторских машин банка.  

Данные редко обезличивают просто для безопасного хранения. Чаще всего это делается для разработки и тестирования новых продуктов и систем. Также в последнее время такие данные всё чаще применяют для обучения ИИ-моделей.

Давайте представим ситуацию: компания делает новый IT-продукт и хочет проверить, всё ли работает как надо. Базу с реальными персональными данными служба безопасности для этих целей не даст, а искусственно синтезированная информация часто однообразна и не предусматривает всех возможных сценариев. То есть тестирование с ними система пройдет, но в реальной жизни возможно поведет себя некорректно.

Выход — обработать существующие данные так, чтобы они всё ещё несли смысл для бизнеса и могли использоваться в тестировании, при этом были достаточно обезличены, чтобы их распространение не нанесло вред бизнесу.

От «чистых» данных до *********

Если взять все данные и каждый символ поменять в нём на звездочку, такую базу никто и никогда не восстановит — для тестов она тоже становится бесполезной. Получается, что обезличить информацию нужно настолько, чтобы она сохранила смысл для бизнеса.

Где именно будет находиться точка баланса между обезличенностью и разумностью, зависит от задачи. Например, если компании для анализа нужны даты рождения покупателей, их можно шифровать в определенном диапазоне (плюс-минус полгода). Если нужно подтверждение совершеннолетия, логика обезличивания будет немного другая. А когда этот критерий не важен, его можно просто убрать, чтобы у злоумышленников было меньше шансов выяснить владельца по косвенному признаку. 

Иногда самостоятельно определить, нарушит ли обезличивание бизнес-логику и работу алгоритмов, бывает сложно. В таком случае обращаются к специалистам. 

К обезличиванию стоит подходить крайне аккуратно, если дело касается нескольких взаимосвязанных баз данных. Например, нам важно сохранить логику и связность данных про какого-нибудь Ивана Иванова. Это значит, что везде он должен быть обезличен одинаково. Потому что, если в одном месте он в результате обезличивания превратится в Плова Фролова, а в другом — в Слово Толково, нужная связь потеряется.

Взаимосвязь может быть и другого характера. Возьмем простую таблицу с данными по зарплате и отчислениям: на каждые 100 рублей 13 уходят в виде НДФЛ, ещё часть — в ФСС и так далее. После изменения первого числа на 120, остальные данные также должны измениться. Но в результате обезличивания эта логика может нарушиться, а связи потеряться. 

Поэтому важно после обезличивания данных, но до того, как отдать базу на обучение ИИ или тестирование продукта, попробовать использовать её в существующей системе, откуда брались исходники. Если система не начала работать с обезличенной информацией, то где-то была допущена ошибка и баланс между безопасностью и пользой нарушился. 

Способы и инструменты обезличивания данных

Прежде, чем обезличить данные, их нужно найти. Они могут быть расположены в базах данных, текстах, отдельных файлах. Когда дело касается больших объемов информации, можно использовать следующие простые методы: 

  • По точному совпадению через стандартные инструменты поиска систем.
  • По шаблонам. Например, с использованием регулярных выражений, взяв образец с сайта шаблонов I Hate Regex, либо прописав искомый формат данных вручную.
  • По косвенным указателям. Один из вариантов, когда название столбца в базе данных и колонки Excel совпадает.  

Более продвинутый подход — использовать алгоритмы машинного обучения. Их дольше и сложнее настраивать, зато они более универсальны и позволяют найти нужную информацию, даже когда форматы хранения разнообразны, но ключевая бизнес-логика выдерживается. Алгоритмы МО часто помогают там, где регулярными выражениями решить задачу не выходит. 

Когда данные найдены, их необходимо обезличить. Для этого существует несколько основных подходов: информацию можно просто удалить, заменить на константу или значения из специально созданного словаря, перемешать или сгруппировать в более крупные категории, чтобы уменьшить точность идентификации. Например, объединить людей в широкие возрастные группы. 

Можно пойти более сложным путем, используя, например, FPE-шифрование с понижением размерности алфавита. Это значит, что зашифрованные данные будут иметь тот же формат (длину и структуру), как и исходные данные. То есть дата останется датой, номер телефона будет похож на номер телефона, а в ИНН найдутся всё те же 10 цифр. Символы в словах будут меняться на другие из какого-то выдуманного алфавита. Например, вместо цифр 0-9 будут использоваться только 0-4 и уйдет половина букв. 

С технической точки зрения обезличить можно тремя способами: вручную, скриптами или с помощью специализированного решения на базе ETL-процесса. Рассмотрим плюсы и минусы последних двух.

Скрипты хорошо работают с компактными базами данных без большого количества вложенных таблиц. Они относительно бесплатны, если не считать время, которое тратит штатный сотрудник на их разработку и поддержание работоспособности. Скриптами можно выполнять операции прямо внутри источника исходных данных, поэтому нет необходимости в дополнительном объеме хранения данных. С таким обезличиванием может вполне справиться обычный аналитик или разработчик, который работает с базами данных. Минус в том, что вся логика и методология обезличивания завязана на одном человеке, который их придумал. Он может заболеть, отправиться в отпуск или уволиться. А ещё этот сотрудник имеет доступ к необезличенным данным и может стать причиной их утечки. Поэтому скрипты — это история для небольших компаний.

Специализированное решение на базе ETL-процесса достаточно дорогостоящее, но помогает справиться с большим количеством баз и таблиц. В нём можно сохранять шаблоны и пресеты, использовать преднастроенные алгоритмы обезличивания. Это нивелирует зависимость от конкретного исполнителя. Часто с помощью таких продуктов можно не только обезличивать, но и находить данные. Кроме стоимости минусы такого решения в том, что увеличиваются число шагов и точно потребуются вычислительные мощности — обновлять данные внутри источника, как это работает со скриптами, здесь не выйдет. Такой путь выбирают крупные и средние компании.

Что делать?

В России существует ФЗ № 152 «О персональных данных», который регулирует вопрос. Штрафы по нему не превышают 100 тысяч рублей за первоначальную утечку и 300 тысяч при повторном нарушении. 

На рассмотрении профильного комитета Госдумы также находится законопроект, в котором финансовые санкции увеличатся на порядки. Также не стоит забывать про имиджевую составляющую — люди становятся всё более нетерпимыми к утечкам персональных данных. Компании этот тренд видят, поэтому за последние несколько лет количество инструментов обезличивания и частота их использования кратно возросли. 

Обезличиванием занимаются не только в России. Решения различных стран имеют минимальную локальную привязку и чаще касаются особенностей документов: в России есть СНИЛС, а в Казахстане — ИИН. Решения должны быть к ним адаптированы.

Пока обезличивание не стало повсеместным трендом для бизнеса, каждый пользователь может самостоятельно сделать свои данные безопаснее. Например, указывать не настоящие ФИО при регистрации в программах лояльности и там, где настоящие данные не нужны и ни на что не влияют.

Читать далее:

Посмотрите, как по-разному видят Крабовидную туманность «Уэбб» и «Хаббл»

Останки жуткой «русалки» из Японии отсканировали: что ученые нашли на снимках

Ученые рассказали, что произойдет с планетой через шесть лет

Фото на обложке: изображение от vecstock на Freepik


Понравилась статья? Поделись с друзьями!

LongReef Team Автор статьи: LongReef Team
20
Нет Комментариев.
Но, вы можете быть первыми кто его оставит

Авторизуйся что бы оставить свой коммент...

Популярные Статьи

Взрослые пациенты с рецидивирующими B-клеточными лимфомами еще до недавнего времени относились к...
04.02.2022
Хронические заболевания — серьезный вызов современному обществу. Пациенты нуждаются в постоянном...
07.04.2022
Огромная и прочная мировая индустрия сотовой связи уже несколько лет балансирует на грани кризиса....
08.04.2022
Олег Мансуров из Success Rockets рассказал «Хайтеку» о том, как даже небольшие компании теперь...
12.04.2022
По данным исследования «Хабр Карьера», 47% ИТ-специалистов находятся в поисках работы, а Gartner...
26.04.2022
Слова «криптовалюта», «криптоинвестирование» и NFT прочно вошли в жизнь человечества. Но, как и...
28.04.2022
Магомед-Амин Идилов должен был пойти по стопам своей семьи — в бизнес. Неожиданные события изменили...
29.04.2022
Особенность современного бизнеса в том числе — в том, что он все чаще строится на технологических...
05.05.2022
Что делали врачи-нейрохирурги и неврологи, когда у них еще не было томографа? Как The Beatles...
11.05.2022
Синергия физиков и айтишников стала неизбежной историей: исследователи, работающие на Большом...
16.05.2022
Разработчики на рынке медицинских технологий в России делают нечто, что до них никто не делал —...
17.05.2022
Еще 10 лет назад никто не мог представить, что нейронные сети смогут генерировать картинки, которые...
18.05.2022
На расширенном заседании ИТ-комитета Государственной Думы глава Минцифры Максут Шадаев отметил, что...
19.05.2022
За последние два года миллионы игроков-любителей заново открыли для себя шахматы. Рост интереса к...
20.05.2022
Мы живем во времена, когда перемены происходят с молниеносной скоростью. Реальность меняется,...
23.05.2022
Сейчас, когда многие зарубежные игроки, которые поставляли решения для highload-проектов, уходят с...
24.05.2022
Сегодня к ИТ-отрасли приковано пристальное внимание: в условиях цифровой экономики именно эта сфера...
26.05.2022
Naked-Eye-эффект — это новая разновидность техник 3D-дизайна, которую в последнее время часто можно...
27.05.2022
С 24 февраля 2022 года Запад ввел санкции против России, в связи с чем многие зарубежные бренды...
02.06.2022
Российский производитель смартфонов INOI выпустил новую модель бюджетного смартфона, в котором,...
03.06.2022
Об отказе от cookies в СМИ писали еще в 2014 году: им пророчили смерть VentureBeat и TechCrunch,...
06.06.2022
Многие компании сейчас работают над тем, чтобы сделать места, где живет человек, экологичными....
07.06.2022
Голосовые интерфейсы все глубже проникают в бизнес-процессы, и сегодня удивить пользователя может...
10.06.2022
Строительная индустрия пока слабо цифровизирована, но спрос на digital-продукты в ней растет. Уход...
15.06.2022
ITIL® — совокупность лучших практик по предоставлению ИТ-услуг. Однако компания PeopleCert, которая...
05.07.2022
Бот в контакт-центре умеет выполнять много задач: подтверждать запись, напоминать о доставке,...
07.07.2022
Считается, что машинное обучение — это очень сложно и дорого, а для того, чтобы обучить ИИ, нужно...
08.07.2022
Только 26% владельцев малого бизнеса в США получили университетское образование, дальше учились еще...
13.07.2022
В 2022 году Роспотребнадзор опубликовал рейтинг по самым загрязненным регионам России, и...
18.07.2022
Время людей с телефонами и планшетами уже превышает время без них — это примерно 5-6 часов. А 11%...
20.07.2022
Некоторые называют Большой адронный коллайдер величайшим творением человечества, а другие не...
22.07.2022
Интерфейс — это средство взаимодействия между пользователем и программой, которое должно быть...
26.07.2022
Правительства десятков стран и корпорации нанимают выдающихся ученых при финансовой поддержке в...
29.07.2022
Первое изделие на 3D-принтере напечатали 1983 году — это была небольшая емкость в виде чаши. Сейчас...
01.08.2022
Согласно Wall Street Journal, рынок NFT упал на 90%. Но это означает, что рухнули только...
05.08.2022
Удобные приложения, смски о движении средств, онлайн-оплата счетов и сервис без походов в офис —...
10.08.2022
Одни исследователи считают, что 3D-печать — это мода, которая ничем не поможет отрасли, другие —...
12.08.2022
Для разработчиков важно адекватно оценить планы и сравнить их с продуктом, который получается в...
15.08.2022
Квантовые технологии везде — кажется, что они способны на что угодно и разовьют вычисления так, что...
22.08.2022
Дети и подростки быстро увлекаются новым, — особенно если это бодро подать. Поэтому научные...
24.08.2022
Растущая онкозаболеваемость вносит все больший «вклад» в общественное здравоохранение большинства...
29.08.2022
Если раньше блогеры призывали ставить лайк под роликом и жать колокольчик, то теперь они просят...
31.08.2022
Кажется, что весь интернет — в курсах для айтишников, и у каждого есть знакомый, который начал...
02.09.2022
Искусственный интеллект все чаще используют в сельском хозяйстве. Теперь алгоритмы умеют определять...
05.09.2022
Рынок e-pharm в России набирает обороты. По данным исследований, 63% покупателей лекарств примерно...
09.09.2022
Оказалось, что цветы появились на Земле на 100 млн лет раньше, чем предполагалось. Разбираемся,...
12.09.2022
По данным Института Гэллапа, отсутствие мотивации у сотрудников и стресс ежегодно обходятся мировой...
14.09.2022
Когда говорят о беспилотниках, обычно думают про съемки красивых мест с воздуха во время...
16.09.2022
Сегодняшние наборы для занятий по робототехнике — это конструкторы разной сложности: от бульдозера...
20.09.2022
Только за март — май этого года свыше двухсот ИТ-компаний, связанных с технологиями и...
22.09.2022
Первые исследователи и путешественники, прибывшие в Антарктиду, вынуждены были передвигаться по...
26.09.2022
Кажется, что сталь — понятный материал, от которого сложно добиться новых свойств. Но это не так:...
28.09.2022
2022 год поменял все сферы, но ИТ — особенно. Специалисты уезжают, иностранные программы и компании...
03.10.2022
Комары, слепни и другие кровососущие — обязательный элемент дачной жизни. Но технологии помогают с...
04.10.2022
Пандемия стала важным событием для производителей лекарств. До нее ВОЗ предупреждала о том, что...
05.10.2022
О квантовых компьютерах говорят постоянно, причем громко — технология, о которой ученые только...
06.10.2022
Видео давно вышло за пределы развлекательного формата, сейчас его используют в обучении и продажах:...
11.10.2022
Бизнес становится более научным — теперь там используют данные, чтобы правильно подавать продукт,...
13.10.2022
Опросы уже не первый год показывают, что школьники считают работу в ИТ наиболее перспективной, а...
18.10.2022
Фекальная трансплантация — это новый метод лечения, он помогает при бактериальных инфекциях и...
17.10.2022