Skip to main content

3 posts tagged with "Natural language processing"

자연어 처리

View All Tags

WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS

· 5 min read
Weronika Ormaniec
연구원
Felix Dangel
연구원
Sidak Pal Singh
연구원

논문 정보

  • 제목: WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS
  • 저자: Weronika Ormaniec (ETH Zürich), Felix Dangel (Vector Institute), Sidak Pal Singh (ETH Zürich)
  • 학회/저널: ICLR 2025
  • 발행일: 2025-03-17
  • DOI: 해당 없음
  • 주요 연구 내용: 단일 셀프 어텐션 레이어의 손실 함수에 대한 헤시안 행렬을 이론적으로 완전히 유도하고, 이를 행렬 미분 형태로 표현함. 헤시안의 각 블록이 데이터, 가중치, 어텐션 모멘트(attention moments)에 어떻게 의존하는지 분석하여 기존 MLP나 CNN과의 구조적 차이점을 명확히 함.
  • 주요 결과 및 결론: 트랜스포머 헤시안은 파라미터 그룹(Query, Key, Value)에 따라 데이터와 가중치에 대한 의존성이 매우 비선형적이고 이질적(heterogeneous)임을 보임. Softmax 활성화 함수와 Query-Key 파라미터화와 같은 트랜스포머의 핵심 설계 요소가 이러한 이질성의 주요 원인임을 밝힘.
  • 기여점: 트랜스포머 학습에 통용되는 적응형 옵티마이저, 레이어 정규화, 학습률 워밍업 등의 기법이 필요한 이유를 헤시안의 복잡하고 이질적인 구조를 통해 설명함. 이는 트랜스포머의 독특한 최적화 환경과 그로 인한 문제들에 대한 깊은 이론적 토대를 제공함.

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

· 4 min read
Victor Sanh
연구원
Lysandre Debut
연구원
Julien Chaumond
연구원
Thomas Wolf
연구원

논문 정보

  • 제목: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
  • 저자: Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf (Hugging Face)
  • 학회/저널: arXiv
  • 발행일: 2020-03-01
  • DOI: arXiv:1910.01108
  • 주요 연구 내용: BERT와 같은 대규모 사전 훈련 모델을 경량화하기 위해 지식 증류(Knowledge Distillation) 기법을 사전 훈련 단계에 적용. 학생 모델(DistilBERT)이 교사 모델(BERT)의 동작을 학습하도록 언어 모델링, 증류, 코사인 거리 손실을 결합한 삼중 손실(triple loss)을 도입하여 훈련.
  • 주요 결과 및 결론: DistilBERT는 BERT보다 파라미터 수가 40% 적고, 추론 속도는 60% 빠르면서도 GLUE 벤치마크에서 BERT 성능의 97%를 유지함. 이를 통해 제한된 컴퓨팅 환경이나 모바일 기기에서도 효율적으로 동작할 수 있는 범용 언어 모델의 가능성을 입증.
  • 기여점: 기존의 태스크 특화적 증류 방식에서 벗어나, 사전 훈련 단계에 지식 증류를 적용하여 범용적으로 사용 가능한 작고 빠른 언어 모델을 성공적으로 개발함. 또한 삼중 손실 함수와 교사 모델의 가중치를 활용한 초기화 방법을 제안하여 효과적인 지식 전수를 이룸.

Attention Is All You Need

· 6 min read
Ashish Vaswani
Google Research 연구원
Noam Shazeer
연구원
Niki Parmar
연구원
Jakob Uszkoreit
연구원
Llion Jones
연구원
Aidan Gomez
연구원
Lukasz Kaiser
연구원
Illia Polosukhin
연구원

논문 정보

  • 제목: Attention Is All You Need
  • 저자: Ashish Vaswani (Google Brain), Noam Shazeer (Google Brain), Niki Parmar (Google Research), Jakob Uszkoreit (Google Research), Llion Jones (Google Research), Aidan N. Gomez (University of Toronto), Łukasz Kaiser (Google Brain), Illia Polosukhin
  • 학회/저널: 31st Conference on Neural Information Processing Systems (NIPS 2017)
  • 발행일: 2017-12-06
  • DOI: 10.48550/arXiv.1706.03762
  • 주요 연구 내용: 이 연구는 순환(recurrence) 및 합성곱(convolution)을 완전히 배제하고 오직 어텐션(attention) 메커니즘에만 의존하는 새로운 시퀀스 변환 모델인 '트랜스포머'를 제안함. 트랜스포머는 인코더-디코더 구조를 따르며, 각 부분은 여러 개의 동일한 레이어를 쌓아 구성되고, 각 레이어는 멀티-헤드 셀프-어텐션과 위치별 피드포워드 네트워크라는 두 개의 핵심적인 하위 레이어로 이루어짐.
  • 주요 결과 및 결론: 트랜스포머는 기계 번역 작업에서 기존의 최고 성능 모델들을 능가하는 결과를 보임. WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU 점수를 기록하여 기존 최고 기록을 2 BLEU 이상 경신하며, 영어-프랑스어 번역 태스크에서는 41.8 BLEU 점수로 새로운 단일 모델 최고 기록을 세움. 이러한 성과를 기존 모델들보다 훨씬 적은 훈련 시간으로 달성하여 병렬화의 이점을 입증함.
  • 기여점: 본 논문은 어텐션 메커니즘만으로도 시퀀스 변환 작업에서 최첨단 성능을 달성할 수 있음을 보여줌. 순차적 계산에 의존하는 RNN을 병렬 계산이 가능한 셀프-어텐션으로 대체함으로써 훈련 속도를 크게 향상시키고, 더 우수한 번역 품질을 달성하는 새로운 패러다임을 제시함.