1. Ang konsepto ng Data Masking
Ang data masking ay kilala rin bilang data masking. Ito ay isang teknikal na paraan upang i-convert, baguhin o takpan ang sensitibong data tulad ng numero ng mobile phone, numero ng bank card at iba pang impormasyon kapag nagbigay kami ng mga patakaran at patakaran sa pag-mask. Pangunahing ginagamit ang diskarteng ito upang maiwasan ang direktang paggamit ng sensitibong data sa mga hindi mapagkakatiwalaang kapaligiran.
Prinsipyo ng Data Masking: Dapat panatilihin ng data masking ang orihinal na katangian ng data, mga panuntunan sa negosyo, at kaugnayan ng data upang matiyak na ang kasunod na pag-develop, pagsubok, at pagsusuri ng data ay hindi maaapektuhan ng masking. Tiyakin ang pagkakapare-pareho at bisa ng data bago at pagkatapos ng masking.
2. Pag-uuri ng Data Masking
Maaaring hatiin ang data masking sa static data masking (SDM) at dynamic data masking (DDM).
Static data masking (SDM): Ang static na data masking ay nangangailangan ng pagtatatag ng isang bagong non-production environment database para sa paghihiwalay mula sa production environment. Kinukuha ang sensitibong data mula sa database ng produksyon at pagkatapos ay iniimbak sa database na hindi produksyon. Sa ganitong paraan, ang desensitized na data ay nakahiwalay sa production environment, na nakakatugon sa mga pangangailangan ng negosyo at nagsisiguro ng seguridad ng production data.
Dynamic Data masking (DDM): Ito ay karaniwang ginagamit sa kapaligiran ng produksyon upang i-desensitize ang sensitibong data sa real time. Minsan, kailangan ng iba't ibang antas ng masking upang mabasa ang parehong sensitibong data sa iba't ibang sitwasyon. Halimbawa, ang iba't ibang tungkulin at pahintulot ay maaaring magpatupad ng iba't ibang masking scheme.
Pag-uulat ng data at application ng masking ng mga produkto ng data
Pangunahing kasama sa mga ganitong sitwasyon ang mga produkto o billboard ng pagsubaybay sa panloob na data, mga produkto ng data ng panlabas na serbisyo, at mga ulat batay sa pagsusuri ng data, gaya ng mga ulat sa negosyo at pagsusuri ng proyekto.
3. Data Masking Solution
Kasama sa mga karaniwang data masking scheme ang: invalidation, random value, pagpapalit ng data, simetriko na pag-encrypt, average na value, offset at rounding, atbp.
Kawalang-bisa: Ang invalidation ay tumutukoy sa pag-encrypt, pagputol, o pagtatago ng sensitibong data. Karaniwang pinapalitan ng scheme na ito ang totoong data ng mga espesyal na simbolo (tulad ng *). Ang operasyon ay simple, ngunit hindi alam ng mga user ang format ng orihinal na data, na maaaring makaapekto sa mga kasunod na aplikasyon ng data.
Random na Halaga: Ang random na halaga ay tumutukoy sa random na pagpapalit ng sensitibong data (ang mga numero ay pinapalitan ang mga digit, pinapalitan ng mga titik ang mga titik, at pinapalitan ng mga character ang mga character). Titiyakin ng pamamaraang ito ng masking ang format ng sensitibong data sa isang tiyak na lawak at mapadali ang kasunod na aplikasyon ng data. Maaaring kailanganin ang mga diksyunaryo ng masking para sa ilang makabuluhang salita, tulad ng mga pangalan ng mga tao at lugar.
Pagpapalit ng Data: Ang pagpapalit ng data ay katulad ng pag-mask ng mga null at random na halaga, maliban na sa halip na gumamit ng mga espesyal na character o random na halaga, ang masking data ay pinapalitan ng isang partikular na halaga.
Symmetric Encryption: Symmetric encryption ay isang espesyal na nababaligtad na paraan ng masking. Ini-encrypt nito ang sensitibong data sa pamamagitan ng mga susi at algorithm ng pag-encrypt. Ang format ng ciphertext ay pare-pareho sa orihinal na data sa mga lohikal na panuntunan.
Katamtaman: Ang average na scheme ay kadalasang ginagamit sa mga istatistikal na sitwasyon. Para sa numerical data, kinakalkula muna namin ang kanilang mean, at pagkatapos ay random na ipamahagi ang mga desensitized na halaga sa paligid ng mean, kaya pinapanatili ang kabuuan ng data na pare-pareho.
Offset at Rounding: Binabago ng pamamaraang ito ang digital data sa pamamagitan ng random shift. Tinitiyak ng offset rounding ang tinatayang authenticity ng range habang pinapanatili ang seguridad ng data, na mas malapit sa totoong data kaysa sa mga nakaraang scheme, at may malaking kabuluhan sa scenario ng big data analysis.
Ang Inirerekomendang Modelo "ML-NPB-5660" para sa Data Masking
4. Karaniwang ginagamit na Mga Teknik sa Pag-mask ng Data
(1). Mga Istatistikong Teknik
Pagsa-sample ng data at pagsasama-sama ng data
- Pagsa-sample ng data: Ang pagsusuri at pagsusuri ng orihinal na set ng data sa pamamagitan ng pagpili ng isang kinatawan na subset ng set ng data ay isang mahalagang paraan upang mapabuti ang pagiging epektibo ng mga diskarte sa pag-alis ng pagkakakilanlan.
- Pagsasama-sama ng data: Bilang isang koleksyon ng mga diskarte sa istatistika (tulad ng pagsusuma, pagbibilang, pag-average, maximum at minimum) na inilapat sa mga katangian sa microdata, ang resulta ay kumakatawan sa lahat ng mga tala sa orihinal na set ng data.
(2). Cryptography
Ang kriptograpiya ay isang karaniwang paraan upang ma-desensitize o mapahusay ang bisa ng desensitization. Ang iba't ibang uri ng mga algorithm ng pag-encrypt ay maaaring makamit ang iba't ibang mga epekto ng desensitization.
- Deterministic na pag-encrypt: Isang hindi random na simetriko na pag-encrypt. Karaniwan itong nagpoproseso ng data ng ID at maaaring i-decrypt at ibalik ang ciphertext sa orihinal na ID kung kinakailangan, ngunit kailangang maprotektahan nang maayos ang susi.
- Hindi maibabalik na pag-encrypt: Ang hash function ay ginagamit upang iproseso ang data, na karaniwang ginagamit para sa data ng ID. Hindi ito maaaring direktang i-decrypt at dapat na i-save ang relasyon sa pagmamapa. Bilang karagdagan, dahil sa tampok ng hash function, maaaring mangyari ang banggaan ng data.
- Homomorphic encryption: Ginagamit ang ciphertext homomorphic algorithm. Ang katangian nito ay ang resulta ng operasyon ng ciphertext ay kapareho ng operasyon ng plaintext pagkatapos ng decryption. Samakatuwid, ito ay karaniwang ginagamit upang iproseso ang mga numerical na field, ngunit hindi ito malawak na ginagamit para sa mga dahilan ng pagganap.
(3). Teknolohiya ng System
Ang teknolohiya ng pagsugpo ay nagtatanggal o nagtatanggol sa mga item ng data na hindi nakakatugon sa proteksyon sa privacy, ngunit hindi nag-publish ng mga ito.
- Pag-mask: ito ay tumutukoy sa pinakakaraniwang paraan ng desensitization upang i-mask ang halaga ng katangian, tulad ng numero ng kalaban, ang ID card ay minarkahan ng asterisk, o ang address ay pinutol.
- Lokal na pagsugpo: tumutukoy sa proseso ng pagtanggal ng mga partikular na halaga ng katangian (mga column), pag-aalis ng mga hindi mahalagang field ng data;
- Pagpigil sa rekord: tumutukoy sa proseso ng pagtanggal ng mga partikular na talaan (mga hilera), pagtanggal ng mga di-mahahalagang talaan ng data.
(4). Teknolohiya ng Pseudonym
Ang Pseudomanning ay isang de-identification technique na gumagamit ng pseudonym para palitan ang isang direktang identifier (o iba pang sensitibong identifier). Lumilikha ang mga diskarte ng pseudonym ng mga natatanging identifier para sa bawat indibidwal na paksa ng impormasyon, sa halip na mga direkta o sensitibong identifier.
- Maaari itong bumuo ng mga random na halaga nang nakapag-iisa upang tumugma sa orihinal na ID, i-save ang talahanayan ng pagmamapa, at mahigpit na kontrolin ang pag-access sa talahanayan ng pagmamapa.
- Maaari mo ring gamitin ang encryption upang makagawa ng mga pseudonym, ngunit kailangang panatilihing maayos ang decryption key;
Ang teknolohiyang ito ay malawakang ginagamit sa kaso ng isang malaking bilang ng mga independiyenteng gumagamit ng data, tulad ng OpenID sa senaryo ng open platform, kung saan ang iba't ibang mga developer ay nakakakuha ng iba't ibang Openids para sa parehong user.
(5). Mga Teknik sa Paglalahat
Ang diskarte sa paglalahat ay tumutukoy sa isang diskarte sa pag-de-identification na binabawasan ang granularity ng mga napiling attribute sa isang set ng data at nagbibigay ng mas pangkalahatan at abstract na paglalarawan ng data. Ang teknolohiya ng generalization ay madaling ipatupad at maaaring maprotektahan ang pagiging tunay ng data sa antas ng record. Ito ay karaniwang ginagamit sa mga produkto ng data o mga ulat ng data.
- Rounding: kinapapalooban ng pagpili ng rounding base para sa napiling attribute, gaya ng pataas o pababang forensics, na nagbubunga ng mga resultang 100, 500, 1K, at 10K
- Top at bottom coding techniques: Palitan ang mga value sa itaas (o ibaba) ng threshold ng threshold na kumakatawan sa itaas (o ibaba) na antas, na nagbubunga ng resulta ng "sa itaas X" o "sa ibaba ng X"
(6). Mga Diskarte ng Randomization
Bilang isang uri ng de-identification technique, ang randomization technology ay tumutukoy sa pagbabago ng value ng isang attribute sa pamamagitan ng randomization, upang ang value pagkatapos ng randomization ay iba sa orihinal na real value. Binabawasan ng prosesong ito ang kakayahan ng isang attacker na kumuha ng value ng attribute mula sa iba pang value ng attribute sa parehong record ng data, ngunit nakakaapekto sa authenticity ng resultang data, na karaniwan sa production test data.
Oras ng post: Set-27-2022