Duplicate

세미나 5 | Protecting Data Privacy in the Era of AI

수강 일자
2022/10/04
교수
최우석 교수님

Research Interests

박사 때 통신형 회로를 많이 연구하심. 하지만, 이것만 해서는 원하는 직장에 취업하기가 어려워서 다른 것들도 많이 다루어보심. 딥러닝에 발을 당구어보려고 하셨으나 너무 많은 사람들이 하고 있어서 늦었다고 판단하여 Data Privacy 쪽을 연구하시게 되었음.

Emerging Domains

CPU 는 무어의 법칙에 따라서 트랜지스터의 수가 exponential 하게 증가하면서 잘 발전해왔음. Clock 수도 증가하면서 필요한 부가적인 파워와 그에 따른 발열을 잡기 위한 쿨러의 발전도 따라왔음. 하지만 딥러닝의 발전에 따라서 부가적으로 발생하는 이슈들이 생김에 따라 데이터를 보관하는 새로운 하드웨어를 개발하는 현상들이 발생했음.

Move into Cloud

본인 컴퓨터에 데이터를 저장하던 과거에는 컴퓨터를 훔쳐가서 비밀번호를 풀지 않는 한 데이터를 안전하게 보관할 수 있었음. 하지만, 구글이나 아마존 같은 곳에서 클라우드 서비스를 시작하면서 데이터 보안에 대한 문제점들이 등장하기 시작함.

Training on Private Data

환자들의 의료데이터는 법적으로 다른 병원이나 제 3자에게 공유하지 못하도록 제재를 가함. 하지만, 이러한 데이터를 이용해서 더 큰 모델을 학습하게 된다면 성능이 좋은 모델을 만들 수 있을 것임. 때문에 Raw 데이터가 아니라 암호화되어 있거나 가공된 데이터를 보내도록 하고, 이렇게 가공된 데이터는 절대로 원래대로 복원할 수 없도록 한 채로, 무엇인지는 모르지만 데이터를 처리할 수 있는 친구한테 이 데이터를 보내서 학습을 할 수 있게 한다면 보안을 지키면서 좋은 모델을 학습할 수 있게 됨. 이를 위한 연구들이 이루어졌었음.

Differential Privacy

Apple 에서 사용하는 70년대에 개발된 데이터 보안 방법론. 동전을 던져서 앞면이 나오면 거짓말을, 뒷면이 나오면 진실을 말하도록 하면 그 사람의 비밀은 보장해줄 수 있는 채로, 동전의 앞 뒷면이 나올 확률을 알고 있기 때문에 통계적 정보를 전해받을 수 있음. 이 앞선 확률을 정할 때 Gaussian 을 사용하게되면, 끝 부분에서의 확률 차이가 명확해져서 사용할 수 없고 Laplace Distribution 을 사용함.

CryptoNets

마이크로소프트에서 사용하는 데이터 보안 방법론. 동혐암호를 사용하여 덧셈이라는 것을 모르고 수행한다고 가정하면 속도가 너무 느림. 이를 해결하기 위해서 MiniONN 이라는 것이 개발되었으나, 데이터의 통신량이 많다는 단점이 있었음. 이후에는 이 둘을 섞어서 쓰는 방법론도 고안이 되었음.

Integrated Circuits & Systems Lab

연구실에서 하고 있는 것은 알고리즘 내에서 optimization 을 하기도 하지만, 하드웨어를 주로 연구하는 연구실이기 때문에 가속화시키는 하드웨어를 보통 개발함.