1. Ang konsepto ng data masking
Ang data masking ay kilala rin bilang data masking. Ito ay isang teknikal na pamamaraan upang mai -convert, baguhin o masakop ang sensitibong data tulad ng numero ng mobile phone, numero ng bangko ng bangko at iba pang impormasyon kapag nagbigay kami ng mga patakaran at patakaran. Ang pamamaraan na ito ay pangunahing ginagamit upang maiwasan ang sensitibong data mula sa paggamit nang direkta sa hindi maaasahang mga kapaligiran.
Prinsipyo ng Masking Data: Dapat mapanatili ng data masking ang orihinal na mga katangian ng data, mga patakaran sa negosyo, at kaugnayan ng data upang matiyak na ang kasunod na pag -unlad, pagsubok, at pagsusuri ng data ay hindi maaapektuhan ng masking. Tiyakin ang pagkakapare -pareho ng data at bisa bago at pagkatapos ng pag -mask.
2. Pag -uuri ng Data Masking
Ang data masking ay maaaring nahahati sa static data masking (SDM) at dynamic na data masking (DDM).
Static Data Masking (SDM): Ang static na masking ng data ay nangangailangan ng pagtatatag ng isang bagong database ng kapaligiran na hindi paggawa para sa paghihiwalay mula sa kapaligiran ng paggawa. Ang sensitibong data ay nakuha mula sa database ng produksyon at pagkatapos ay naka-imbak sa database ng hindi paggawa. Sa ganitong paraan, ang desensitized data ay nakahiwalay mula sa kapaligiran ng paggawa, na nakakatugon sa mga pangangailangan ng negosyo at tinitiyak ang seguridad ng data ng produksyon.
Dynamic Data Masking (DDM): Karaniwang ginagamit ito sa kapaligiran ng produksyon upang ma -desensitize ang sensitibong data sa real time. Minsan, ang iba't ibang mga antas ng masking ay kinakailangan upang basahin ang parehong sensitibong data sa iba't ibang mga sitwasyon. Halimbawa, ang iba't ibang mga tungkulin at pahintulot ay maaaring magpatupad ng iba't ibang mga scheme ng masking.
Pag -uulat ng Data at Application ng Mga Produkto ng Data ng Data
Ang nasabing mga senaryo ay pangunahing kasama ang mga panloob na data sa pagsubaybay sa data o billboard, panlabas na mga produkto ng data ng serbisyo, at mga ulat batay sa pagsusuri ng data, tulad ng mga ulat sa negosyo at pagsusuri ng proyekto.
3. Solusyon ng Masking Data
Ang mga karaniwang scheme ng masking ng data ay kinabibilangan ng: Invalidation, random na halaga, kapalit ng data, simetriko encryption, average na halaga, offset at pag -ikot, atbp.
Invalidation: Ang hindi wasto ay tumutukoy sa pag -encrypt, truncation, o pagtatago ng sensitibong data. Ang pamamaraan na ito ay karaniwang pumapalit ng totoong data na may mga espesyal na simbolo (tulad ng *). Ang operasyon ay simple, ngunit hindi alam ng mga gumagamit ang format ng orihinal na data, na maaaring makaapekto sa kasunod na mga aplikasyon ng data.
Random na halaga: Ang random na halaga ay tumutukoy sa random na kapalit ng sensitibong data (ang mga numero ay nagpapalitan ng mga numero, mga titik na pinapalitan ang mga titik, at mga character na pinapalitan ang mga character). Ang pamamaraan ng masking na ito ay titiyakin ang format ng sensitibong data sa isang tiyak na lawak at mapadali ang kasunod na aplikasyon ng data. Ang mga masking dictionaries ay maaaring kailanganin para sa ilang mga makabuluhang salita, tulad ng mga pangalan ng mga tao at lugar.
Kapalit ng data: Ang kapalit ng data ay katulad ng masking ng null at random na mga halaga, maliban na sa halip na gumamit ng mga espesyal na character o random na mga halaga, ang data ng masking ay pinalitan ng isang tiyak na halaga.
Symmetric encryption: Ang simetriko encryption ay isang espesyal na nababaligtad na pamamaraan ng masking. Nag -encrypt ito ng sensitibong data sa pamamagitan ng mga key at algorithm ng pag -encrypt. Ang format na ciphertext ay naaayon sa orihinal na data sa mga lohikal na patakaran.
Average: Ang average na pamamaraan ay madalas na ginagamit sa mga senaryo ng istatistika. Para sa mga numerong data, una naming kinakalkula ang kanilang ibig sabihin, at pagkatapos ay sapalarang ipamahagi ang mga desensitized na halaga sa paligid ng ibig sabihin, sa gayon pinapanatili ang kabuuan ng data na pare -pareho.
Offset at pag -ikot: Ang pamamaraang ito ay nagbabago sa digital na data sa pamamagitan ng random shift. Tinitiyak ng offset rounding ang tinatayang pagiging tunay ng saklaw habang pinapanatili ang seguridad ng data, na mas malapit sa totoong data kaysa sa mga nakaraang mga scheme, at may malaking kabuluhan sa senaryo ng malaking pagsusuri ng data.
Ang modelo ng rekomendasyon "ML-NPB-5660"Para sa data masking
4. Karaniwang ginagamit na mga diskarte sa masking ng data
(1). Mga pamamaraan sa istatistika
Data sampling at pagsasama -sama ng data
- Data Sampling: Ang pagsusuri at pagsusuri ng orihinal na data na itinakda sa pamamagitan ng pagpili ng isang kinatawan na subset ng set ng data ay isang mahalagang pamamaraan upang mapagbuti ang pagiging epektibo ng mga diskarte sa pagkakakilanlan.
- Pagsasama -sama ng data: Bilang isang koleksyon ng mga istatistika na pamamaraan (tulad ng pagbubuod, pagbibilang, pag -average, maximum at minimum) na inilalapat sa mga katangian sa microdata, ang resulta ay kinatawan ng lahat ng mga talaan sa orihinal na set ng data.
(2). Cryptography
Ang Cryptography ay isang pangkaraniwang pamamaraan upang ma -desensitize o mapahusay ang pagiging epektibo ng desensitization. Ang iba't ibang uri ng mga algorithm ng pag -encrypt ay maaaring makamit ang iba't ibang mga epekto ng desensitization.
- Deterministic encryption: Isang non-random symmetric encryption. Karaniwan itong pinoproseso ang data ng ID at maaaring ma -decrypt at ibalik ang ciphertext sa orihinal na ID kung kinakailangan, ngunit ang susi ay kailangang protektado nang maayos.
- Hindi maibabalik na pag -encrypt: Ang pag -andar ng hash ay ginagamit upang maproseso ang data, na karaniwang ginagamit para sa data ng ID. Hindi ito direktang mai -decrypt at dapat na mai -save ang relasyon sa pagmamapa. Bilang karagdagan, dahil sa tampok ng pag -andar ng hash, maaaring mangyari ang pagbangga ng data.
- Homomorphic encryption: Ginagamit ang ciphertext homomorphic algorithm. Ang katangian nito ay ang resulta ng operasyon ng ciphertext ay pareho sa na sa operasyon ng plaintext pagkatapos ng decryption. Samakatuwid, karaniwang ginagamit ito upang maproseso ang mga patlang ng numero, ngunit hindi ito malawak na ginagamit para sa mga kadahilanan sa pagganap.
(3). Teknolohiya ng System
Tinatanggal ng teknolohiyang pagsugpo o protektahan ang mga item ng data na hindi nakakatugon sa proteksyon sa privacy, ngunit hindi nai -publish ang mga ito.
- Masking: Tumutukoy ito sa pinaka -karaniwang paraan ng desensitization upang i -mask ang halaga ng katangian, tulad ng numero ng kalaban, ang ID card ay minarkahan ng isang asterisk, o ang address ay na -truncated.
- Lokal na pagsugpo: Tumutukoy sa proseso ng pagtanggal ng mga tiyak na halaga ng katangian (mga haligi), pag-alis ng mga di-mahahalagang patlang ng data;
- Record Suppression: Tumutukoy sa proseso ng pagtanggal ng mga tukoy na talaan (hilera), pagtanggal ng mga hindi mahahalagang tala ng data.
(4). Teknolohiya ng Pseudonym
Ang Pseudomanning ay isang pamamaraan ng de-pagkakakilanlan na gumagamit ng isang pseudonym upang mapalitan ang isang direktang identifier (o iba pang sensitibong identifier). Ang mga diskarte sa pseudonym ay lumikha ng mga natatanging pagkakakilanlan para sa bawat indibidwal na paksa ng impormasyon, sa halip na direkta o sensitibong mga pagkakakilanlan.
- Maaari itong makabuo ng mga random na halaga nang nakapag -iisa upang tumutugma sa orihinal na ID, i -save ang talahanayan ng pagmamapa, at mahigpit na kontrolin ang pag -access sa talahanayan ng pagmamapa.
- Maaari mo ring gamitin ang pag -encrypt upang makabuo ng mga pseudonym, ngunit kailangang panatilihing maayos ang key ng decryption;
Ang teknolohiyang ito ay malawakang ginagamit sa kaso ng isang malaking bilang ng mga independiyenteng mga gumagamit ng data, tulad ng OpenID sa senaryo ng bukas na platform, kung saan ang iba't ibang mga developer ay nakakakuha ng iba't ibang mga openID para sa parehong gumagamit.
(5). Mga diskarte sa generalization
Ang pamamaraan ng generalization ay tumutukoy sa isang diskarte sa de-pagkakakilanlan na binabawasan ang butil ng mga napiling katangian sa isang set ng data at nagbibigay ng isang mas pangkalahatan at abstract na paglalarawan ng data. Ang teknolohiya ng generalization ay madaling ipatupad at maaaring maprotektahan ang pagiging tunay ng data ng antas ng record. Karaniwang ginagamit ito sa mga produkto ng data o mga ulat ng data.
- pag -ikot: nagsasangkot ng pagpili ng isang pag -ikot ng base para sa napiling katangian, tulad ng paitaas o pababang forensics, nagbubunga ng mga resulta 100, 500, 1k, at 10k
- Nangungunang Mga Diskarte sa Pag -coding: Palitan ang mga halaga sa itaas (o sa ibaba) ang threshold na may isang threshold na kumakatawan sa antas ng tuktok (o ibaba), na nagbubunga ng isang resulta ng "sa itaas x" o "sa ibaba x"
(6). Mga diskarte sa randomization
Bilang isang uri ng diskarte sa de-pagkakakilanlan, ang teknolohiyang randomization ay tumutukoy sa pagbabago ng halaga ng isang katangian sa pamamagitan ng randomization, upang ang halaga pagkatapos ng randomization ay naiiba sa orihinal na tunay na halaga. Ang prosesong ito ay binabawasan ang kakayahan ng isang umaatake upang makakuha ng isang halaga ng katangian mula sa iba pang mga halaga ng katangian sa parehong talaan ng data, ngunit nakakaapekto sa pagiging tunay ng nagresultang data, na karaniwan sa data ng pagsubok sa paggawa.
Oras ng Mag-post: Sep-27-2022