제목: Dimensionality reduction using statistical analysis and model based methods: a comparison between elementary effect method and random forest regressor
저자: 정인범 (한양대학교 대학원)
학회/저널: 한양대학교 대학원 석사학위논문
발행일: 2018-02
DOI: (N/A, URI: 1804:null-200000432990)
주요 연구 내용: 본 연구는 차원축소 기법을 변수선택(Filter, Wrapper, Embedded)과 변수추출(PCA, Autoencoder)로 분류함. 이후 통계적 해석(Filter) 방법인 Elementary Effect(EE) 기법과 모델 기반(Embedded) 방법인 Random Forest Regressor(RFR)의 변수 중요도 계산 방식과 성능을 비교 분석함.
주요 결과 및 결론: 시뮬레이션 모델(데이터 생성 필요)의 경우, EE 기법(특히 Sampling for Uniformity)이 RFR보다 적은 해석 횟수로 높은 변수 선별 정확도를 보였음. 반면, 'Big data'와 같이 이미 데이터가 확보된 경우 RFR이 더 적합했음. 또한 RFR은 변수추출 기법인 Autoencoder보다 사용이 편리하고 우수한 성능을 보임.
기여점: 서로 다른 학문적 배경(통계적 GSA vs. 기계학습)에서 발전한 두 주요 차원축소 기법(EE, RFR)의 성능을 정량적으로 비교, 분석하였음. 데이터 상황(시뮬레이션 vs. 기존 데이터)에 따라 적절한 기법을 선택해야 함을 실증적으로 제시함.
주요 연구 내용: 본 논문은 확장 가능한 엔드투엔드 트리 부스팅 시스템인 XGBoost를 제안함. 희소 데이터를 효율적으로 처리하기 위한 새로운 희소성 인지 알고리즘(sparsity-aware algorithm)과 근사 트리 학습을 위한 가중치 분위 스케치(weighted quantile sketch)를 도입함. 또한, 캐시 접근 패턴, 데이터 압축, 샤딩(sharding)과 같은 시스템 최적화를 통해 확장성을 극대화함.
주요 결과 및 결론: XGBoost는 단일 머신에서 기존 솔루션보다 10배 이상 빠른 성능을 보이며, 분산 및 메모리 제한 환경에서도 수십억 개의 대용량 데이터를 훨씬 적은 리소스로 처리할 수 있음. 이러한 알고리즘과 시스템 최적화의 결합을 통해 실제 대규모 문제를 해결하는 강력한 솔루션 제공.
기여점: 고도로 확장 가능한 엔드투엔드 트리 부스팅 시스템을 설계 및 구축함. 병렬 트리 학습을 위한 새로운 희소성 인지 알고리즘과 효율적인 제안 계산을 위한 이론적으로 정당화된 가중치 분위 스케치를 제안함. 또한, 메모리 외부(out-of-core) 트리 학습을 위한 효과적인 캐시 인식 블록 구조를 도입하여 시스템 효율성을 높임.
주요 연구 내용: 실시간 AU(Facial Action Unit) 감지 및 강도 추정 시스템을 제안함. 외형(HOG) 및 기하학적(landmark) 특징을 사용. 개인별 중립 표정 차이를 보정하기 위해 간단한 중간값(median) 기반 특징 정규화 기법을 사용.
주요 결과 및 결론: 제안한 시스템이 FERA 2015 챌린지의 3가지 태스크(AU 발생 감지, 완전 자동 AU 강도, 사전 분할 AU 강도 추정)에서 모두 기준선(baseline) 성능을 능가함. 여러 데이터셋을 함께 훈련(cross-dataset learning)하는 것이 일반화(generic) 모델 훈련에 이점을 보임.
기여점: 특정 AU 감지 시 개인 맞춤형 중립 표정 정규화의 이점을 시연. 일반화 모델 훈련을 위한 다중 데이터셋 사용의 이점을 시연. 20-30fps로 실시간 실행 가능한 전체 AU 감지 파이프라인을 제시.