저자: Ian Goodfellow (Google Brain), Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio (Université de Montréal)
학회/저널: Communications of the ACM (Original paper in NIPS 2014)
주요 연구 내용: 생성자(Generator)와 판별자(Discriminator)라는 두 개의 신경망을 경쟁적으로 학습시키는 새로운 생성 모델 프레임워크를 제안함. 생성자는 실제 데이터와 유사한 가짜 데이터를 생성하고, 판별자는 실제 데이터와 가짜 데이터를 구별하도록 학습함. 이 적대적 과정을 통해 생성자는 실제 데이터의 분포를 학습하게 됨.
주요 결과 및 결론: GAN은 특히 고해상도의 사실적인 이미지를 생성하는 데 있어 가장 성공적인 생성 모델 중 하나임을 입증함. 이 프레임워크는 다루기 힘든 확률 밀도 함수를 근사할 필요 없이 모델을 학습시킬 수 있다는 장점이 있음. 그러나 학습 과정의 불안정성은 여전히 해결해야 할 주요 과제로 남아있음.
기여점: 기존 생성 모델의 어려움이었던 명시적 확률 밀도 추정이나 마르코프 체인 기반의 느린 샘플링 과정을 피하는, 게임 이론에 기반한 새로운 생성 모델링 접근법을 제시함. 이 적대적 학습 프레임워크는 고품질의 결과물을 생성하는 데 매우 효과적이며, 비지도 학습 분야에 큰 영향을 미침.
제목: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
저자: Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf (Hugging Face)
학회/저널: arXiv
발행일: 2020-03-01
DOI: arXiv:1910.01108
주요 연구 내용: BERT와 같은 대규모 사전 훈련 모델을 경량화하기 위해 지식 증류(Knowledge Distillation) 기법을 사전 훈련 단계에 적용. 학생 모델(DistilBERT)이 교사 모델(BERT)의 동작을 학습하도록 언어 모델링, 증류, 코사인 거리 손실을 결합한 삼중 손실(triple loss)을 도입하여 훈련.
주요 결과 및 결론: DistilBERT는 BERT보다 파라미터 수가 40% 적고, 추론 속도는 60% 빠르면서도 GLUE 벤치마크에서 BERT 성능의 97%를 유지함. 이를 통해 제한된 컴퓨팅 환경이나 모바일 기기에서도 효율적으로 동작할 수 있는 범용 언어 모델의 가능성을 입증.
기여점: 기존의 태스크 특화적 증류 방식에서 벗어나, 사전 훈련 단계에 지식 증류를 적용하여 범용적으로 사용 가능한 작고 빠른 언어 모델을 성공적으로 개발함. 또한 삼중 손실 함수와 교사 모델의 가중치를 활용한 초기화 방법을 제안하여 효과적인 지식 전수를 이룸.
제목: Dimensionality reduction using statistical analysis and model based methods: a comparison between elementary effect method and random forest regressor
저자: 정인범 (한양대학교 대학원)
학회/저널: 한양대학교 대학원 석사학위논문
발행일: 2018-02
DOI: (N/A, URI: 1804:null-200000432990)
주요 연구 내용: 본 연구는 차원축소 기법을 변수선택(Filter, Wrapper, Embedded)과 변수추출(PCA, Autoencoder)로 분류함. 이후 통계적 해석(Filter) 방법인 Elementary Effect(EE) 기법과 모델 기반(Embedded) 방법인 Random Forest Regressor(RFR)의 변수 중요도 계산 방식과 성능을 비교 분석함.
주요 결과 및 결론: 시뮬레이션 모델(데이터 생성 필요)의 경우, EE 기법(특히 Sampling for Uniformity)이 RFR보다 적은 해석 횟수로 높은 변수 선별 정확도를 보였음. 반면, 'Big data'와 같이 이미 데이터가 확보된 경우 RFR이 더 적합했음. 또한 RFR은 변수추출 기법인 Autoencoder보다 사용이 편리하고 우수한 성능을 보임.
기여점: 서로 다른 학문적 배경(통계적 GSA vs. 기계학습)에서 발전한 두 주요 차원축소 기법(EE, RFR)의 성능을 정량적으로 비교, 분석하였음. 데이터 상황(시뮬레이션 vs. 기존 데이터)에 따라 적절한 기법을 선택해야 함을 실증적으로 제시함.
주요 연구 내용: 이 연구는 순환(recurrence) 및 합성곱(convolution)을 완전히 배제하고 오직 어텐션(attention) 메커니즘에만 의존하는 새로운 시퀀스 변환 모델인 '트랜스포머'를 제안함. 트랜스포머는 인코더-디코더 구조를 따르며, 각 부분은 여러 개의 동일한 레이어를 쌓아 구성되고, 각 레이어는 멀티-헤드 셀프-어텐션과 위치별 피드포워드 네트워크라는 두 개의 핵심적인 하위 레이어로 이루어짐.
주요 결과 및 결론: 트랜스포머는 기계 번역 작업에서 기존의 최고 성능 모델들을 능가하는 결과를 보임. WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU 점수를 기록하여 기존 최고 기록을 2 BLEU 이상 경신하며, 영어-프랑스어 번역 태스크에서는 41.8 BLEU 점수로 새로운 단일 모델 최고 기록을 세움. 이러한 성과를 기존 모델들보다 훨씬 적은 훈련 시간으로 달성하여 병렬화의 이점을 입증함.
기여점: 본 논문은 어텐션 메커니즘만으로도 시퀀스 변환 작업에서 최첨단 성능을 달성할 수 있음을 보여줌. 순차적 계산에 의존하는 RNN을 병렬 계산이 가능한 셀프-어텐션으로 대체함으로써 훈련 속도를 크게 향상시키고, 더 우수한 번역 품질을 달성하는 새로운 패러다임을 제시함.
주요 연구 내용: 이미지 기반 시퀀스 인식을 위해 Convolutional Neural Network(CNN)와 Recurrent Neural Network(RNN)을 통합한 새로운 아키텍처인 CRNN(Convolutional Recurrent Neural Network)을 제안함. 이 모델은 특징 추출(CNN), 시퀀스 모델링(RNN), 전사(Transcription)의 세 부분을 하나의 프레임워크로 결합하여 문자 단위의 레이블 없이 종단간(End-to-End) 학습이 가능함.
주요 결과 및 결론: IIIT-5K, SVT, ICDAR 등 표준 장면 텍스트 인식 벤치마크에서 기존 최고 수준의 알고리즘들과 대등하거나 더 우수한 성능을 보임. 또한, 제안된 모델은 훨씬 적은 파라미터(8.3M)를 사용하여 효율적이며, 악보 인식과 같은 다른 시퀀스 인식 문제에도 일반화될 수 있음을 확인함.
기여점: 기존 방법들과 달리 구성 요소를 개별적으로 훈련할 필요 없는 완전한 종단간 학습이 가능함. 문자 분할이나 정규화 과정 없이 임의 길이의 시퀀스를 자연스럽게 처리하며, 사전(lexicon) 유무에 관계없이 높은 성능을 달성함.
주요 연구 내용: 본 논문은 확장 가능한 엔드투엔드 트리 부스팅 시스템인 XGBoost를 제안함. 희소 데이터를 효율적으로 처리하기 위한 새로운 희소성 인지 알고리즘(sparsity-aware algorithm)과 근사 트리 학습을 위한 가중치 분위 스케치(weighted quantile sketch)를 도입함. 또한, 캐시 접근 패턴, 데이터 압축, 샤딩(sharding)과 같은 시스템 최적화를 통해 확장성을 극대화함.
주요 결과 및 결론: XGBoost는 단일 머신에서 기존 솔루션보다 10배 이상 빠른 성능을 보이며, 분산 및 메모리 제한 환경에서도 수십억 개의 대용량 데이터를 훨씬 적은 리소스로 처리할 수 있음. 이러한 알고리즘과 시스템 최적화의 결합을 통해 실제 대규모 문제를 해결하는 강력한 솔루션 제공.
기여점: 고도로 확장 가능한 엔드투엔드 트리 부스팅 시스템을 설계 및 구축함. 병렬 트리 학습을 위한 새로운 희소성 인지 알고리즘과 효율적인 제안 계산을 위한 이론적으로 정당화된 가중치 분위 스케치를 제안함. 또한, 메모리 외부(out-of-core) 트리 학습을 위한 효과적인 캐시 인식 블록 구조를 도입하여 시스템 효율성을 높임.
제목: MUST-CNN: A Multilayer Shift-and-Stitch Deep Convolutional Architecture for Sequence-Based Protein Structure Prediction
저자: Zeming Lin, Jack Lanchantin, Yanjun Qi (University of Virginia)
학회/저널: Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16)
발행일: 2016-02-12
DOI: 해당 없음
주요 연구 내용: 단백질의 아미노산 서열로부터 2차 구조나 용매 접근성 같은 속성을 예측하기 위해 딥 컨볼루션 신경망(CNN)을 활용. Max-pooling으로 인한 해상도 저하 문제를 해결하기 위해, 다중 계층에 'shift-and-stitch' 기법을 적용하여 전체 서열에 대한 완전 밀집(fully dense) 예측을 효율적으로 생성하는 종단간(end-to-end) 모델 MUST-CNN을 제안함.
주요 결과 및 결론: 제안된 MUST-CNN 모델은 기존의 최첨단 모델들보다 구조적으로 더 단순함에도 불구하고, 4prot 및 CullPDB라는 두 개의 대규모 단백질 속성 예측 데이터셋에서 더 우수한 성능을 달성함. 특히 4prot 데이터셋에서 3클래스 2차 구조 예측(ssp) 정확도(Q3) 89.6%를 기록했으며, CullPDB 데이터셋에서는 8클래스 예측(Q8) 정확도 68.4%를 달성하여 기존 최고 성능을 경신함.
기여점: 딥 CNN에 적용 가능한 새로운 'multilayer shift-and-stitch' (MUST) 기법을 제안하여 학습 및 추론 시간을 크게 단축시키고 모델의 규모를 확장함. 또한, 임의 길이의 서열에 대해 각 위치별(per-position) 레이블링을 수행하는 일반적인 종단간 시스템을 제안했으며, 이를 통해 두 개의 대규모 단백질 데이터셋에서 최첨단 성능을 달성함.
주요 연구 내용: 바둑판의 국면을 평가하는 가치망(value network)과 다음 수를 선택하는 정책망(policy network)이라는 두 개의 심층 신경망을 몬테카를로 트리 탐색(MCTS)과 결합한 새로운 접근법을 제안함. 신경망은 인간 전문가의 기보를 이용한 지도 학습과 알파고 자체 대국을 통한 강화 학습의 조합으로 훈련됨.
주요 결과 및 결론: 개발된 프로그램 알파고(AlphaGo)는 다른 주요 바둑 프로그램들을 상대로 99.8%의 압도적인 승률을 기록했으며, 당시 유럽 챔피언이었던 판후이 프로 2단을 5대 0으로 이김. 이는 컴퓨터 프로그램이 정식 크기의 바둑판에서 인간 프로 기사를 상대로 거둔 최초의 승리임.
기여점: 인간 전문가의 기보를 활용한 지도 학습과 자체 대국 기반의 강화 학습을 결합한 혁신적인 신경망 훈련 파이프라인을 구축함. 심층 신경망을 통해 바둑의 복잡한 국면 평가와 수 선택 문제를 해결하고, 이를 효율적으로 몬테카를로 트리 탐색과 통합하여 인간 최고 수준의 기력을 달성함.
주요 연구 내용: 네트워크가 깊어질수록 정확도가 떨어지는 'degradation' 문제를 해결하기 위해 잔차 학습(residual learning) 프레임워크를 제안함. 네트워크가 목표 함수를 직접 학습하는 대신, 입력에 대한 잔차 함수(residual function)를 학습하도록 shortcut connection을 도입하여 매우 깊은 네트워크의 최적화를 용이하게 함.
주요 결과 및 결론: ImageNet 데이터셋에서 최대 152개 레이어의 매우 깊은 잔차 네트워크(ResNet)를 성공적으로 훈련시켰으며, 이는 VGGNet보다 8배 깊지만 복잡도는 더 낮음. ResNet 앙상블 모델은 ImageNet test set에서 3.57%의 top-5 error를 달성하여 ILSVRC 2015 분류 과제에서 1위를 차지함.
기여점: 심층 신경망의 'degradation' 문제를 해결하는 잔차 학습 프레임워크(ResNet)를 제안함. 이전보다 훨씬 깊은 네트워크(152-layer)의 훈련을 가능하게 하여 이미지 인식 분야에서 SOTA(State-of-the-art) 성능을 달성함. 잔차 학습의 효과를 ImageNet 및 CIFAR-10 데이터셋에서 실험적으로 증명하고, COCO 데이터셋을 사용한 객체 탐지에서도 우수성을 입증함.
주요 연구 내용: 사전 훈련된 VGG-19 네트워크를 사용하여 이미지의 콘텐츠(Content)와 스타일(Style) 표현을 분리하는 방법을 제안함. 콘텐츠는 네트워크의 상위 계층 피처 맵으로 정의하고, 스타일은 여러 계층에 걸친 피처 맵 간의 상관관계(Gram 행렬)로 정의하여 두 표현을 독립적으로 제어함.
주요 결과 및 결론: 사진의 콘텐츠와 명화의 스타일을 성공적으로 결합하여 높은 지각적 품질의 새로운 예술 이미지를 생성함. 이를 통해 CNN에서 콘텐츠와 스타일 표현이 분리 가능하다는 것을 입증했으며, 이는 인간의 예술 창작 및 인식 과정을 알고리즘적으로 이해하는 경로를 제시함.
기여점: 최초로 자연 이미지에서 콘텐츠와 스타일을 분리하는 이미지 피처를 시연함. 예술적 이미지 생성을 위한 신경망 알고리즘을 제공했으며, 예술 및 스타일에 대한 신경과학적 연구를 위한 새로운 도구를 제시함.