1. Ang konsepto ng Pagtago ng Datos
Ang data masking ay kilala rin bilang data masking. Ito ay isang teknikal na pamamaraan upang i-convert, baguhin, o takpan ang sensitibong datos tulad ng numero ng mobile phone, numero ng bank card, at iba pang impormasyon kapag nagbigay tayo ng mga patakaran at patakaran sa pag-mask. Ang pamamaraang ito ay pangunahing ginagamit upang maiwasan ang direktang paggamit ng sensitibong datos sa mga hindi maaasahang kapaligiran.
Prinsipyo ng Pagtakip sa Datos: Dapat panatilihin ng pagtatakip sa datos ang orihinal na mga katangian ng datos, mga tuntunin sa negosyo, at kaugnayan ng datos upang matiyak na ang kasunod na pag-unlad, pagsubok, at pagsusuri ng datos ay hindi maaapektuhan ng pagtatakip. Tiyakin ang pagkakapare-pareho at bisa ng datos bago at pagkatapos ng pagtatakip.
2. Pag-uuri ng Pagtakip sa Datos
Ang data masking ay maaaring hatiin sa static data masking (SDM) at dynamic data masking (DDM).
Pagtakip ng static na datos (SDM)Ang static data masking ay nangangailangan ng pagtatatag ng isang bagong database ng non-production environment para sa paghihiwalay mula sa production environment. Ang sensitibong data ay kinukuha mula sa production database at pagkatapos ay iniimbak sa non-production database. Sa ganitong paraan, ang desensitized na data ay nakahiwalay mula sa production environment, na nakakatugon sa mga pangangailangan ng negosyo at tinitiyak ang seguridad ng production data.
Dynamic Data masking (DDM)Karaniwang ginagamit ito sa kapaligiran ng produksyon upang bawasan ang pagiging sensitibo ng sensitibong data sa totoong oras. Minsan, kinakailangan ang iba't ibang antas ng masking upang mabasa ang parehong sensitibong data sa iba't ibang sitwasyon. Halimbawa, ang iba't ibang mga tungkulin at pahintulot ay maaaring magpatupad ng iba't ibang mga scheme ng masking.
Pag-uulat ng datos at aplikasyon sa pagtatakip ng mga produkto ng datos
Pangunahing kinabibilangan ng mga ganitong senaryo ang mga produkto o billboard para sa pagsubaybay sa panloob na datos, mga produkto ng panlabas na datos ng serbisyo, at mga ulat batay sa pagsusuri ng datos, tulad ng mga ulat sa negosyo at pagsusuri ng proyekto.
3. Solusyon sa Pagtatakip ng Datos
Kabilang sa mga karaniwang pamamaraan ng paglalagay ng data sa mga kahon ang: pagpapawalang-bisa, random na halaga, pagpapalit ng data, simetrikong pag-encrypt, average na halaga, offset at pag-round off, atbp.
Pagpapawalang-bisaAng pagpapawalang-bisa ay tumutukoy sa pag-encrypt, pagputol, o pagtatago ng sensitibong datos. Karaniwang pinapalitan ng pamamaraang ito ang totoong datos ng mga espesyal na simbolo (tulad ng *). Simple lang ang operasyon, ngunit hindi malalaman ng mga gumagamit ang format ng orihinal na datos, na maaaring makaapekto sa mga susunod na aplikasyon ng datos.
Random na HalagaAng random na halaga ay tumutukoy sa random na pagpapalit ng sensitibong datos (mga numero ang pumapalit sa mga numero, mga letra ang pumapalit sa mga letra, at mga karakter ang pumapalit sa mga karakter). Ang pamamaraang ito ng paglalagay ng masking ay titiyak sa format ng sensitibong datos sa isang tiyak na lawak at mapadali ang kasunod na aplikasyon ng datos. Maaaring kailanganin ang mga diksyunaryo ng paglalagay ng masking para sa ilang makabuluhang salita, tulad ng mga pangalan ng tao at lugar.
Pagpapalit ng DatosAng pagpapalit ng datos ay katulad ng paglalagay ng mga null at random na halaga, maliban sa sa halip na gumamit ng mga espesyal na karakter o random na halaga, ang paglalagay ng masking datos ay pinapalitan ng isang partikular na halaga.
Simetrikong EncryptionAng simetrikong pag-encrypt ay isang espesyal na paraan ng reversible masking. Ine-encrypt nito ang sensitibong data sa pamamagitan ng mga encryption key at algorithm. Ang format ng ciphertext ay naaayon sa orihinal na data sa mga lohikal na tuntunin.
KaraniwanAng iskema ng average ay kadalasang ginagamit sa mga senaryo ng istatistika. Para sa mga datos na numerikal, kinakalkula muna namin ang kanilang mean, at pagkatapos ay sapalarang ipinamamahagi ang mga desensitized na halaga sa paligid ng mean, kaya pinapanatili ang kabuuan ng datos na pare-pareho.
Offset at RoundingBinabago ng pamamaraang ito ang digital na datos sa pamamagitan ng random shift. Tinitiyak ng offset rounding ang tinatayang pagiging tunay ng saklaw habang pinapanatili ang seguridad ng datos, na mas malapit sa totoong datos kaysa sa mga nakaraang pamamaraan, at may malaking kahalagahan sa senaryo ng pagsusuri ng malaking datos.
Ang Modelo ng Rekomendasyon"ML-NPB-5660"para sa Pagtakip ng Datos
4. Mga Karaniwang Ginagamit na Teknik sa Pagtago ng Datos
(1). Mga Teknik sa Estadistika
Pagkuha ng datos at pagsasama-sama ng datos
- Pagkuha ng Sample ng Datos: Ang pagsusuri at ebalwasyon ng orihinal na hanay ng datos sa pamamagitan ng pagpili ng isang kinatawan na subset ng hanay ng datos ay isang mahalagang pamamaraan upang mapabuti ang bisa ng mga pamamaraan ng pag-alis ng pagkakakilanlan.
- Pagsasama-sama ng datos: Bilang isang koleksyon ng mga pamamaraang pang-estadistika (tulad ng pagbubuod, pagbibilang, pag-average, pinakamataas at pinakamababang) na inilalapat sa mga katangian sa microdata, ang resulta ay kumakatawan sa lahat ng mga tala sa orihinal na hanay ng datos.
(2). Kriptograpiya
Ang kriptograpiya ay isang karaniwang pamamaraan upang mabawasan o mapahusay ang bisa ng desensitization. Ang iba't ibang uri ng mga algorithm ng pag-encrypt ay maaaring makamit ang iba't ibang epekto ng desensitization.
- Deterministic encryption: Isang hindi-random na simetrikong encryption. Karaniwan nitong pinoproseso ang datos ng ID at maaaring i-decrypt at ibalik ang ciphertext sa orihinal na ID kung kinakailangan, ngunit ang susi ay kailangang maayos na protektahan.
- Hindi Maibabalik na Pag-encrypt: Ang hash function ay ginagamit upang iproseso ang data, na karaniwang ginagamit para sa ID data. Hindi ito maaaring direktang i-decrypt at dapat i-save ang mapping relationship. Bukod pa rito, dahil sa katangian ng hash function, maaaring mangyari ang data collision.
- Homomorphic encryption: Ginagamit ang ciphertext homomorphic algorithm. Ang katangian nito ay ang resulta ng operasyon ng ciphertext ay kapareho ng sa operasyon ng plaintext pagkatapos ng decryption. Samakatuwid, karaniwang ginagamit ito upang iproseso ang mga numerical field, ngunit hindi ito malawakang ginagamit para sa mga kadahilanang pang-performance.
(3). Teknolohiya ng Sistema
Binubura o pinoprotektahan ng teknolohiyang pagsugpo ang mga item sa datos na hindi nakakatugon sa proteksyon sa privacy, ngunit hindi inilalathala ang mga ito.
- Pagmamaskad: tumutukoy ito sa pinakakaraniwang paraan ng desensitisasyon upang itago ang halaga ng katangian, tulad ng numero ng kalaban, ang ID card ay minarkahan ng asterisk, o ang address ay pinutol.
- Lokal na pagsugpo: tumutukoy sa proseso ng pagbura ng mga partikular na halaga ng katangian (mga kolum), pag-aalis ng mga hindi mahahalagang patlang ng datos;
- Pagsugpo ng rekord: tumutukoy sa proseso ng pagbura ng mga partikular na rekord (mga hilera), pagbura ng mga hindi mahahalagang rekord ng datos.
(4). Teknolohiya ng Sagisag-panulat
Ang pseudomanning ay isang pamamaraan ng pag-alis ng pagkakakilanlan na gumagamit ng sagisag-panulat upang palitan ang isang direktang pagkakakilanlan (o iba pang sensitibong pagkakakilanlan). Ang mga pamamaraan ng sagisag-panulat ay lumilikha ng mga natatanging pagkakakilanlan para sa bawat indibidwal na paksa ng impormasyon, sa halip na direkta o sensitibong pagkakakilanlan.
- Maaari itong bumuo ng mga random na halaga nang nakapag-iisa upang tumugma sa orihinal na ID, i-save ang mapping table, at mahigpit na kontrolin ang pag-access sa mapping table.
- Maaari mo ring gamitin ang encryption upang makagawa ng mga alyas, ngunit kailangan mong panatilihing maayos ang decryption key;
Malawakang ginagamit ang teknolohiyang ito sa kaso ng malaking bilang ng mga independiyenteng gumagamit ng data, tulad ng OpenID sa senaryo ng open platform, kung saan ang iba't ibang developer ay nakakakuha ng iba't ibang Openids para sa iisang user.
(5). Mga Teknik sa Paglalahat
Ang pamamaraan ng paglalahat ay tumutukoy sa isang pamamaraan ng pag-alis ng pagkakakilanlan na nagbabawas sa granularity ng mga napiling katangian sa isang set ng datos at nagbibigay ng mas pangkalahatan at abstraktong paglalarawan ng datos. Ang teknolohiya ng paglalahat ay madaling ipatupad at maaaring protektahan ang pagiging tunay ng datos sa antas ng rekord. Karaniwan itong ginagamit sa mga produkto ng datos o mga ulat ng datos.
- Pag-round: kinabibilangan ng pagpili ng rounding base para sa napiling katangian, tulad ng pataas o pababa na forensics, na nagreresulta sa mga resultang 100, 500, 1K, at 10K
- Mga pamamaraan ng top at bottom coding: Palitan ang mga halagang nasa itaas (o mas mababa) ng threshold ng isang threshold na kumakatawan sa pinakamataas (o pinakamababang) antas, na magbubunga ng resultang "sa itaas ng X" o "sa ibaba ng X"
(6). Mga Teknik sa Randomisasyon
Bilang isang uri ng pamamaraan ng pag-alis ng pagkakakilanlan, ang teknolohiya ng randomization ay tumutukoy sa pagbabago ng halaga ng isang katangian sa pamamagitan ng randomization, upang ang halaga pagkatapos ng randomization ay iba sa orihinal na tunay na halaga. Binabawasan ng prosesong ito ang kakayahan ng isang umaatake na kumuha ng halaga ng isang katangian mula sa iba pang mga halaga ng katangian sa parehong talaan ng datos, ngunit nakakaapekto sa pagiging tunay ng nagresultang datos, na karaniwan sa datos ng pagsubok sa produksyon.
Oras ng pag-post: Set-27-2022



