Attention Is All You Need
· 6 min read
논문 정보
- 제목: Attention Is All You Need
- 저자: Ashish Vaswani (Google Brain), Noam Shazeer (Google Brain), Niki Parmar (Google Research), Jakob Uszkoreit (Google Research), Llion Jones (Google Research), Aidan N. Gomez (University of Toronto), Łukasz Kaiser (Google Brain), Illia Polosukhin
- 학회/저널: 31st Conference on Neural Information Processing Systems (NIPS 2017)
- 발행일: 2017-12-06
- DOI: 10.48550/arXiv.1706.03762
- 주요 연구 내용: 이 연구는 순환(recurrence) 및 합성곱(convolution)을 완전히 배제하고 오직 어텐션(attention) 메커니즘에만 의존하는 새로운 시퀀스 변환 모델인 '트랜스포머'를 제안함. 트랜스포머는 인코더-디코더 구조를 따르며, 각 부분은 여러 개의 동일한 레이어를 쌓아 구성되고, 각 레이어는 멀티-헤드 셀프-어텐션과 위치별 피드포워드 네트워크라는 두 개의 핵심적인 하위 레이어로 이루어짐.
- 주요 결과 및 결론: 트랜스포머는 기계 번역 작업에서 기존의 최고 성능 모델들을 능가하는 결과를 보임. WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU 점수를 기록하여 기존 최고 기록을 2 BLEU 이상 경신하며, 영어-프랑스어 번역 태스크에서는 41.8 BLEU 점수로 새로운 단일 모델 최고 기록을 세움. 이러한 성과를 기존 모델들보다 훨씬 적은 훈련 시간으로 달성하여 병렬화의 이점을 입증함.
- 기여점: 본 논문은 어텐션 메커니즘만으로도 시퀀스 변환 작업에서 최첨단 성능을 달성할 수 있음을 보여줌. 순차적 계산에 의존하는 RNN을 병렬 계산이 가능한 셀프-어텐션으로 대체함으로써 훈련 속도를 크게 향상시키고, 더 우수한 번역 품질을 달성하는 새로운 패러다임을 제시함.