Duplicate

세미나 2 | 데이터 보호를 위한 기술 소개

수강 일자
2022/09/13
교수
이병영 교수님
운영체제랑 비슷한 레벨을 연구하고 있음

데이터의 종류 및 암호화/보호 기초

Data in Rest, Data in Transit, Data in Use 로 구별된다. Data in Rest 는 데이터가 저장되어 있는 상태, Data in Transit 은 데이터가 통신해서 이동하고 있는 상태, Data in Use 는 데이터가 연산에 사용되고 있는 상태로 볼 수 있음.
Data in Rest 를 보호하는 방법은 데이터를 저장할 때 그냥 암호화를 해 놓으면 됨. 자동으로 암호화해서 들어가는 시스템을 구축할 수 있음. Data in Transit 를 보호하는 방법은 통신할 때 암호화를 해서 보내면 됨. Data in Use 는 현실적으로 보호할 수 있는 방법은 없음. 지메일 관리자가 지메일을 당연히 볼 수 있음. Naive 하게 생각한다면 컴퓨터 전체를 암호화하지 않는 이상 불가능함.

Data in Use 의 보호 필요성

부가가치가 높은 데이터의 활용 예시들은 Data in Use 를 동반함. 이러한 데이터들의 부가가치는 계속해서 높아지고 있는데 이것에 발 맞추어 데이터를 보호하는 것이 필수적으로 떠오르고 있음. 이러한 솔루션으로는 데이터 비식별화, 동형암호, 기밀계산 등이 있음.

데이터 비식별화

개인을 특정할 수 있는 데이터를 식별할 수 없도록 수정하는 방법론. 이름을 익명으로 쓰거나 주민등록번호를 대충 쓰거나 나이를 범위로 쓰거나 등등이 예시임. 원본 데이터보다 비식별화된 데이터가 가져갈 수 있는 데이터가 적은 것은 확실해보임.
하지만 데이터 비식별화는 데이터의 퀄리티 자체를 너무 떨어뜨려 버리기 떄문에 좋지는 못함. 익명성을 높일려면은 데이터의 가치를 더 떨어뜨려야 함. 예를 들어 AI 를 학습하려고 할 떄 데이터의 퀄리티가 낮으면 학습된 모델의 accuracy 가 떨어지는 것은 거의 당연한 이야기임.
이전에 Netflix 에서 Recommendation Challenge 를 열었을 때 공개한 데이터를 기반으로 IMDD 데이터와 조합하여 Netflix 가 공개한 영화 및 평점 정보를 준 사람의 이름을 유추한 결과도 있었음.

동형암호 (Homomorphic Encryption)

5 + 8 을 누군가에게 시키고 싶은데 누군가는 결과만 알고 무엇을 더한지는 몰라야 함. 이를 위해서 그냥 다 시키고 그 중에서 원하는 결과만을 뺴내면 됨. 그러면 계산자는 무엇이 유의미한 데이터인지 판별하지 못함. 동형암호의 문제점은 계산 속도가 느리다는 것임.

기밀계산 (Confidential Computing)

CPU 가 생성하는 계산 가능한 금고를 생성하여 CPU 만 금고 내부를 볼 수 있도록 설정. 금고 안에서만 암호화를 풀 수 있고 암호화된 것을 넣고 풀고 금고 내에서 계산하고 암호화된 결과를 다시 뱉으면 됨. 앞의 것들과는 다르게 CPU 만 털리지 않으면 안전함을 보장할 수 있음.