Skip to main content

One post tagged with "Knowledge discovery and data mining"

지식 발견 및 데이터 마이닝

View All Tags

XGBoost: A Scalable Tree Boosting System

· 6 min read
Tianqi Chen
University of Washington 연구원
Carlos Guestrin
연구원

논문 정보

  • 제목: XGBoost: A Scalable Tree Boosting System
  • 저자: Tianqi Chen (University of Washington), Carlos Guestrin (University of Washington)
  • 학회/저널: KDD '16 (The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining)
  • 발행일: 2016-08-13
  • DOI: 10.1145/2939672.2939785
  • 주요 연구 내용: 본 논문은 확장 가능한 엔드투엔드 트리 부스팅 시스템인 XGBoost를 제안함. 희소 데이터를 효율적으로 처리하기 위한 새로운 희소성 인지 알고리즘(sparsity-aware algorithm)과 근사 트리 학습을 위한 가중치 분위 스케치(weighted quantile sketch)를 도입함. 또한, 캐시 접근 패턴, 데이터 압축, 샤딩(sharding)과 같은 시스템 최적화를 통해 확장성을 극대화함.
  • 주요 결과 및 결론: XGBoost는 단일 머신에서 기존 솔루션보다 10배 이상 빠른 성능을 보이며, 분산 및 메모리 제한 환경에서도 수십억 개의 대용량 데이터를 훨씬 적은 리소스로 처리할 수 있음. 이러한 알고리즘과 시스템 최적화의 결합을 통해 실제 대규모 문제를 해결하는 강력한 솔루션 제공.
  • 기여점: 고도로 확장 가능한 엔드투엔드 트리 부스팅 시스템을 설계 및 구축함. 병렬 트리 학습을 위한 새로운 희소성 인지 알고리즘과 효율적인 제안 계산을 위한 이론적으로 정당화된 가중치 분위 스케치를 제안함. 또한, 메모리 외부(out-of-core) 트리 학습을 위한 효과적인 캐시 인식 블록 구조를 도입하여 시스템 효율성을 높임.