Stacked Generalization

December 1, 1992 · 6 min read

David H. Wolpert

논문 정보

제목: Stacked Generalization
저자: David H. Wolpert (Los Alamos National Laboratory)
학회/저널: Neural Networks
발행일: 1992-12-01
DOI: 10.1016/S0893-6080(05)80023-1
주요 연구 내용: 여러 일반화기(generalizer)를 결합하거나 단일 일반화기의 성능을 향상시키기 위한 '스택 일반화(Stacked Generalization)' 프레임워크를 제안함. 이 방법은 원본 학습 데이터를 분할하여 생성된 예측값들을 새로운 학습 데이터로 삼아 상위 레벨의 일반화기를 학습시키는 2단계 구조를 가짐.
주요 결과 및 결론: 두 가지 실험(함수 표면 피팅, NETtalk 음소 변환)을 통해 스택 일반화가 단일 일반화기나 전통적인 교차 검증(cross-validation) 기반의 '승자 독식' 방식보다 우수한 성능을 보임을 입증함. 거의 모든 실제 일반화 문제에서 스택 일반화를 사용하여 오류율을 최소화해야 한다고 결론지음.
기여점: 일반화 오류를 줄이기 위한 새로운 방법론인 스택 일반화를 공식적으로 소개함. 기존의 교차 검증, 부트스트래핑, 단순 평균 등의 기법들이 스택 일반화 프레임워크의 특수한 경우임을 보여줌으로써, 보다 정교하고 일반적인 모델 결합 방식을 제시함.

요약

초록

본 논문은 하나 이상의 일반화기(generalizer)의 일반화 오류율을 최소화하기 위한 기법인 스택 일반화(stacked generalization)를 소개한다. 스택 일반화는 주어진 학습 데이터셋에 대한 일반화기의 편향(bias)을 추론하여 작동한다. 이 과정은 원본 학습 데이터의 일부로 학습한 일반화기가 나머지 데이터를 예측한 값을 입력으로 하고, 실제 정답을 출력으로 하는 2차 공간에서 일반화를 수행함으로써 진행된다. 여러 일반화기와 함께 사용될 때, 스택 일반화는 개별 일반화기들을 결합하기 위해 교차 검증의 단순한 '승자 독식' 전략보다 더 정교한 전략을 활용하는 것으로 볼 수 있다. 단일 일반화기와 사용될 경우, 특정 학습 데이터로 훈련된 일반화기의 오류를 추정하고 보정하는 기법이 된다.

서론

연구는 주어진 샘플 데이터(학습 데이터셋)로부터 함수를 추론하는 일반화 문제를 다룬다. 일반화기(generalizer)는 학습 데이터를 기반으로 새로운 입력(question)에 대한 출력을 추측하는 알고리즘이다. 이 논문은 학습 정확도가 아닌 일반화 정확도를 최대한 높이는 것을 목표로 하는 스택 일반화 기법을 제안한다. 이 기법의 핵심 아이디어는 학습 데이터를 분할하고, 일부로 학습한 뒤 나머지 일부에서의 동작을 관찰함으로써 일반화기의 편향을 추론하고 보정하는 것이다. 이는 단순히 최상의 일반화기 하나를 선택하는 교차 검증과 달리, 여러 일반화기를 효과적으로 결합하거나 단일 일반화기의 오류를 예측하여 성능을 개선하는 더 정교한 접근법이다.

배경

일반화기는 학습 데이터 $\{x_k, y_k\}$ 와 질문 $q$ 가 주어졌을 때 추측값 $\hat{y}$ 를 출력하는 매핑으로 정의된다. 신경망, 결정 트리, 최근접 이웃(k-NN) 등 다양한 알고리즘이 일반화기에 해당한다. 여러 일반화기 중 최적의 모델을 선택하는 전통적인 방법으로 교차 검증(Cross-Validation)이 있다. 교차 검증은 학습 데이터를 여러 부분으로 나누어, 일부는 훈련에, 일부는 검증에 사용하여 각 일반화기의 평균적인 일반화 성능을 추정한다. 이후 가장 성능이 좋은 모델 하나를 선택하는 '승자 독식(winner-takes-all)' 전략을 사용한다. 스택 일반화는 이러한 방식에서 더 나아가, 각 모델의 예측을 버리지 않고 종합하여 최종 예측을 생성한다.

모델 아키텍처 / 방법론

핵심 구조/방법: 스택 일반화는 계층적인 구조를 가진다.
1. Level 0 (기반 레벨): 원본 학습 데이터셋 $L$ 과 N개의 기반 일반화기(level-0 generalizers) $\{G_j\}$ 가 존재한다.
2. Level 1 학습 데이터 생성: 학습 데이터셋 $L$ 을 $r$ 개의 파티션 $(\theta_{i1}, \theta_{i2})$ 으로 분할한다 (예: Leave-one-out 교차 검증 방식). 각 파티션 $i$ 에 대해, $N$ 개의 기반 일반화기 $\{G_j\}$ 를 $\theta_{i1}$ 으로 학습시킨 후, $\theta_{i2}$ 의 입력값에 대한 예측값 $G_j(\theta_{i1}; \text{input of } \theta_{i2})$ 을 계산한다. 이 $N$ 개의 예측값들은 Level 1 학습 데이터의 입력 벡터가 되고, $\theta_{i2}$ 의 실제 출력값은 Level 1 데이터의 목표(target)가 된다. 이 과정을 모든 파티션에 대해 반복하여 $r$ 개의 Level 1 학습 데이터 $L'$ 을 생성한다.
3. Level 1 (메타 레벨): 새로운 일반화기(level-1 generalizer) $\Gamma$ 를 생성된 Level 1 학습 데이터 $L'$ 로 학습시킨다.
4. 최종 예측: 새로운 질문 $q$ 에 대한 예측을 위해, 먼저 N개의 기반 일반화기 $\{G_j\}$ 를 전체 원본 데이터 $L$ 로 학습시킨다. 이들의 예측값 $\{G_1(L;q), ..., G_N(L;q)\}$ 를 Level 1 일반화기 $\Gamma$ 의 입력으로 사용하여 최종 예측값을 얻는다.
이 구조는 다중 일반화기 결합과 단일 일반화기 성능 개선의 두 가지 사례로 구분된다.
주요 구성 요소:
- Level-0 Generalizers: 기저 모델(base models)로, 서로 다른 종류의 알고리즘일 수 있다.
- Level-1 Generalizer: 메타 모델(meta-model)로, 기저 모델들의 예측을 결합하는 역할을 한다.
- Partition Set: Level-1 학습 데이터를 생성하기 위한 데이터 분할 전략. 본 논문에서는 주로 CVPS(Cross-Validation Partition Set)를 사용한다.
수식: 교차 검증 오류 추정치는 다음과 같이 정의된다. 이는 스택 일반화에서 가장 단순한 형태의 Level-1 일반화기가 사용하는 지표와 같다. $C.V.(G,\theta)\equiv\frac{1}{m}\sum*{i=1}^{m}[G(\theta*{i1}; \text{input of } \theta*{i2}) - (\text{output of } \theta*{i2})]^{2}$
알고리즘:
- 다중 일반화기 결합: Level-0 일반화기들의 예측을 입력으로 받아 Level-1 일반화기가 최종 예측을 생성한다. 기존의 교차 검증(최소 CV 오류를 가진 모델 선택)이나 단순 평균/가중 평균 방식은 모두 매우 단순한 Level-1 일반화기를 사용하는 스택 일반화의 특수 사례로 볼 수 있다.
- 단일 일반화기 개선: Level-1 공간의 출력을 Level-0 일반화기의 '오류'로 정의한다. 즉, $Error = G(\theta_{i1}; x_{i2}) - y_{i2}$ 를 학습한다. 새로운 질문 $q$ 에 대해 Level-0 예측값 $y_{pred}$ 를 구하고, Level-1에서 예측된 오류 $e_{pred}$ 를 빼서 최종 예측값 $y_{final} = y_{pred} - e_{pred}$ 를 구한다.

실험 결과

주요 데이터셋:
- 실험 1: 1차원 표면 피팅 문제. 무작위로 생성된 3차 다항식 및 초월 함수를 부모 함수로 사용했다.
- 실험 2: NETtalk의 텍스트-음소 변환 문제. Carterette and Jones 데이터셋을 사용했다.
핵심 성능 지표:
- 실험 1: 단일 '점 잇기(connect-the-dots)' 일반화기를 Level 0에 두고, 그 오류를 예측하는 스택 구조를 사용했다. 제곱 오류의 평균 비율(stacked/non-stacked)이 약 2.0으로, 스택 일반화가 오류를 절반으로 줄이는 성능 향상을 보였다.
- 실험 2: 7개의 입력 문자 슬롯 중 각각 3, 4, 5번째 슬롯만 보는 3개의 단순한 Level-0 일반화기를 사용했다. 각 모델의 개별 정확도는 23%, 69%, 25%였으나, 이를 결합한 스택 일반화기는 **88%**의 정확도를 달성했다.
비교 결과:
- 실험 2에서 교차 검증을 사용했다면 가장 성능이 좋은 단일 모델(69% 정확도)을 선택했을 것이다. 스택 일반화는 이보다 약 19%p 더 높은 정확도를 보여, 단순한 모델 선택보다 정교한 결합이 훨씬 효과적임을 입증했다.

결론

스택 일반화는 일반화기의 편향을 추정하고 보정함으로써 일반화 오류를 줄이는 강력하고 일반적인 프레임워크다. 이 방법론은 교차 검증이나 단순 결합 같은 기존 기법들을 포함하는 더 넓은 개념이다. 실험 결과는 스택 일반화가 단일 모델의 성능을 향상시키거나 여러 모델을 효과적으로 결합하여 예측 성능을 크게 개선할 수 있음을 보여준다. 따라서 많은 일반화 문제에서 스택 일반화의 사용이 권장된다.

논문 정보​

요약​

초록​

서론​

배경​

모델 아키텍처 / 방법론​

실험 결과​

결론​

논문 정보

요약

초록

서론

배경

모델 아키텍처 / 방법론

실험 결과

결론