[Paper Review] Personalized Federated Learning with Clustering: Non-IID Heart Rate Variability Data Application

에이치비킴 2021. 9. 7. 15:44

안녕하세요. 에이치비킴 입니다.

이번 논문 리뷰는 논문이 작성된 포맷에 맞춰 순서대로 살펴 볼 예정입니다.

논문명: Personalized Federated Learning with Clustering: Non-IID Heart Rate Variability Data Applicaiton (Joo Hun Yoo et al.)

0. ABSTRACT

@ 머신러닝 기법은 큰 데이터셋 내부에서 연관성을 찾는데 유용하게 쓰인다.

@ 하지만 데이터를 수집하고 활용하는 과정에서 privacy 문제가 제기될 수 있다. 의료 데이터와 같이 공개하기에 민감한 데이터는 특히 그렇다.

@ 이러한 측면에서, 연합학습 기법이 privacy 보호 측면에서 장점을 갖는다.

@ 위 privacy에 포함될 수 있는 분야는 다음과 같다. (환자의 정보가 포함되어 있는 healthcare field)

@ 그러나, 의료 데이터의 분포가 Independent and Identically Distributed (IID)하는 것은 현실적이지 못하다.

@ 그리고 이는, 이상적이지 않은 데이터 분포 형태로써 학습 데이터로 활용하기에 적합하지 않다.

@ 본 논문에서는, 심박수에 따른 우울증 검출을 위한 Personalized Federated Cluster Models를 제안한다.

@ 환자들이 더 많은 각자의 모델을 가질수록, non-IID한 상황에서 더 높은 accuracy를 보인다.

1. INTRODUCTION

분류 1

@ 머신러닝 기법은 많은 양의 데이터 속에 담긴 유의미한 정보를 찾아내기 위해 많은 분야에서 사용된다.

@ 딥러닝 기법은 서로 독립적인 데이터셋에서 복잡한 관계를 찾아내기 위해 사용된다. (인간이 수행하기에는 큰 시간이 소요되는 업무를 수행)

@ 머신러닝과 딥러닝 기법 모두, 활용하기 위해서는 매우 많은 양의 데이터가 필요하다.

@ 현재, EU's General Data Protection Regulation (GDPR), California Consumer Privacy Act (CCPA), and China's Cyber Security Law (CSL) 등과 같은 많은 단체에서 data privacy 보호를 위한 규제를 강화하고 있다.

@ 연합학습은 decentralized한 데이터 분포 구조를 갖으며, 이는 data collection에 의지하지 않는다는 의미로서 data privacy의 유출 없이 사용가능한 기법이다.

@ 본 논문에서는, non-IID한 상황에서의 성능이 개선된 연합학습을 활용하여 Major Depressive Disorder (MDD) severity를 예측한다.

분류 2

@ MDD 는 지난 2주 동안의 감정을 분석하여 mental disorder를 검사하는 방법이다.

@ 우울증 검사는 Hamilton Depression (HAM-D), Montgomery-Asberg Depression Rating Scale (MADRS), and Beck's Depression Inventory (BDI) 등을 통한 수치적 분석과, 정신의학과에서의 상담을 통해 이루어진다.

@ 하지만 위와 같은 진단법은 굉장한 시간적 자원을 쏟아야 한다.

@ 때문에 연구자들은 Electroencephalogram (EEG), and Heart Rate Varibaility (HRV)와 같은 biomarkers를 이용하여 MDD를 진단하고자 한다.

@ 본 논문에서는 data collection cost가 낮고, 활용하기가 단순한 HRV 데이터를 사용한다.

@ Clustering은 non-IID 환경에서의 연합학습 한계를 극복하기 위해 사용한다.

2. BACKGROUND & RELATED WORKS

Federated Learning and Clustering Methods

@ Federated Learning

연합학습(Federated Learning) 이란?

. 안녕하세요, 에이치비킴 입니다. 연합학습에 대해서 본격적으로 살펴보기 전에, 연합학습이 최근 각광받고 있는 이유가 무엇인지 알아보아야겠죠. 연합학습은, 기존의 머신러닝 기법들과는

hyungbinklm.tistory.com

@ 기존의 연합학습 기법은, non-IID한 데이터 분포 상황에서 최적의 솔루션을 제공하지 못한다.

HRV data for Major Depressive Disorder Diagnosis

@ HRV 데이터는 우울증 증상과의 눈에 띄는 상관 관계에 의해서 최근 우울증 진단의 기준으로 활용되기도 한다.

@ HRV 데이터를 활용한 이전 연구에서는 main ML 알고리즘으로 Support Vector Machine with feature selection (SVM-RFE)를 사용하였다.

@ 또한, 이전 연구에서는 우울증/비우울증 으로 이진 분류만 진행되었다. 본 연구에서는 non-binary nature를 분석한다.

@ 결정적으로, 이전 연구들은 privacy regulation에 대한 문제를 고려하지 않았다.

3. PERSONALIZED FEDERATED CLUSTER MODEL

Dataset

@ 삼성 의료 센터 정신의학과의 HRV 데이터를 수집하였다. (대조군을 포함하여 총 100명의 피험자를 12주간 추적 관찰한 데이터이며, 그들의 HRV 매개변수는 baseline, stress, recovery 3단계로 측정하였다.)

@ 본 논문의 목적은 HRV 데이터와 우울증 심각성의 complex relations를 찾아내는 것이기에, 여타 mental health scores는 데이터셋에 포함시키지 않았다.

@ HRV 데이터와 간단한 biomarker 데이터를 입력 데이터로 사용하였다.

@ MDD severity의 타겟 지표로 0-50 사이의 HAM-D를 사용했다.

@ 과학적 증명에 따라 HAM-D 값을 normal, mild, moderate-severe 3단계로 구분하였다.

Preprocessing

@ HRV 데이터는 479개의 행과 80개의 열로 구성되어 있다.

@ zero values로 dummy column을 추가하여 총 81개의 열이 되게끔 만든다.

@ 81개의 열을 9x9 parameter map으로 제작하여 총 479개의 map이 만들어지게끔 구성한다.

Tesing Procedure

@ 훈련 진행은 기존 연합학습과 동일하다고 보여진다. (본 논문에서 제안하는 클러스터링 알고리즘은 아래 그림 1을 참고)

@ 새로운 클라이언트가 들어오면, FindNearestCluster(cosine similarity metric 기반)을 적용하여 기존의 클러스터 모델 중 가장 유사한 모델로 클러스터링한다.

@ PFCM 기법은 등록 시에만 적용되며, 클러스터링된 이후에는 기존의 연합학습처럼 동작한다.

@ 각 모델의 accuracy는 최종 성능 검증을 위해 평균화된다.

4. EXPERIMENT

@ 본 논문에서 분류를 위해 설정한 클래스는 3개 이다.

@ Train set/Test set ratio - 80/20

@ 성능 비교를 위해 다음과 같은 기법들을 사용하였다.

- FedAvg

- Support Vector Machine(SVM), disregarding privacy

- Support Vector Machine with Recursive Feature Elimination(SVM-RFE), disregarding privacy

@ 성능 비교는 그림 2를 통해 확인 할 수 있다.

@ 그림 2를 통해 다른 기법에 비해 성능이 뛰어남을 확인 할 수 있다.

@ 73.68%라는 수치는 3개의 클래스로 분류하였을 때이며, 2개의 클래스로 분류할 때에는 90.70%의 accuracy 성능을 보인다.

5. CONCLUSION

@ 연합학습과 클러스터링의 접목을 통하여 기존의 머신러닝 기법 성능에 비해 능가하는 성능을 보였다.

@ 연합학습은 기존의 머신러닝 기법과 다르게 엄격한 data privacy regulation을 준수한다.

저작자표시 비영리 변경금지