2 Comments
User's avatar
Giang Sơn's avatar

Em xin bổ sung chút context sau khi học sơ về Data Privacy ạ:

Khi phân tích và chia sẻ dữ liệu, mặc dù đã được pseudonymized/ anonymized/ aggregated để nhưng vẫn có rủi ro về tính riêng tư vì attacker có thể dùng những chiêu ảo ma để trích xuất thông tin như:

- Linkage Attack: dùng dữ liệu ngoài (auxiliary data, chẳng hạn như dataset đã được public từ trước) và join với dữ liệu được anonymized. Ví dụ có case Netflix Prize: các nhà nghiên cứu join dữ liệu review trên IMDB (public datacó tên thật của user) với dữ liệu psedonymized của Netflix bằng cách match điểm & thời gian đăng review.

- Singling out Attack: Dùng cả bộ dữ liệu để lấy thông tin về một người. VD: một hệ thống cho query chỉ số aggregated về lương trong công ty nhưng không cho xem từng bản ghi, nhưng nếu biết trong công ty chỉ có 1 nhân viên là nữ, >60 tuổi thì khi query SUM(salary) WHERE gender = F and age > 60 sẽ ra chính xác lương của người đó.

- Reconstruction Attack: Từ một số thông tin aggregated mà có thể suy ngược ra bảng dữ liệu ban đầu.

- và mấy loại attack nữa khai thác weight hoặc output của ML model

Để bảo vệ được trước các chiêu thức này thì có thể áp dụng những biện pháp anonymization mạnh hơn:

- k-anonymity: đảm bảo mỗi bản ghi không thể phân biệt được với k-1 bản ghi khác. Chẳng hạn kể cả không có unique ID thì chỉ cần 3 cột gender, ZIP code, date of birth đã có thể định danh được 87% công dân Mỹ. Có thể che bớt thông tin ở 3 cột này (VD: biến age thật thành age range, hoặc che bớt chữ số trong ZIP code) để k-1 bản ghi có (gender-ZIP code-DOB) giống nhau -> không thể dựa vào 3 cột để định danh.

- Differential privacy: dùng một thuật toán add calibrated noise vào dữ liệu (chẳng hạn Laplace mechanism sẽ chọn giá trị noise từ Laplace distribution), khiến cho attacker không thể dùng kết quả query để suy đoán về từng bản ghi trong data.

- và những phương pháp để bảo vệ ML model (bảo vệ dữ liệu lẫn model) như: differentially private gradient descent (DP-SGD), private aggregation of teacher ensembles (PATE), hoặc federated learning.

Điểm chung của các phương thức này là privacy-utility tradeoff, có nghĩa là để tăng mức riêng tư một tí thì phải giảm tính chính xác trong phân tích hoặc xây dựng model một tí. Cần cân đối làm sao để mức giảm trong tính chính xác không ảnh hưởng tới ứng dụng của dữ liệu. Chẳng hạn khi báo cáo dân số theo bang ở Mỹ thì có thể chấp nhận sai số ở mức % nhỏ. (For context, US Census 2020 là một case rất nổi về ứng dụng differential privacy).

Expand full comment
Hieu Nguyen's avatar

Hay đấy, e có thể consider viết cho bản thân một bài riêng :) a hứa sẽ share ủng hộ :)

Các attack/algo mà e nhắc đến nó hay được coi là 1 vấn đề của việc data sharing nhưng mà public, bởi vì khi khả năng pattern matching của các DS/DA thời nay là rất xịn =)

Data security flow thì cũng sẽ chia ra các nhánh cho private và public data, private -> protect để không bị leak. public -> khi share ra ngoài không mang lại hậu quả gì. Trong private practice thì mostly là mọi người xử lý bằng policy, còn khi share bằng public thì chủ yếu phải sử dụng các thuật toán privacy để bảo vệ dữ liệu. Các thuật toán bên public thì hay và thú vị hơn, tuy nhiên vấn đề lại thường nằm ở bên private hơn, khi họ ko bảo vệ được dữ liệu của chính mình...

Expand full comment