본문으로 건너뛰기

"Transformer" 태그로 연결된 1개 게시물개의 게시물이 있습니다.

트랜스포머 아키텍처

모든 태그 보기

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

· 약 4분
Victor Sanh
연구원
Lysandre Debut
연구원
Julien Chaumond
연구원
Thomas Wolf
연구원

논문 정보

  • 제목: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
  • 저자: Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf (Hugging Face)
  • 학회/저널: arXiv
  • 발행일: 2020-03-01
  • DOI: arXiv:1910.01108
  • 주요 연구 내용: BERT와 같은 대규모 사전 훈련 모델을 경량화하기 위해 지식 증류(Knowledge Distillation) 기법을 사전 훈련 단계에 적용. 학생 모델(DistilBERT)이 교사 모델(BERT)의 동작을 학습하도록 언어 모델링, 증류, 코사인 거리 손실을 결합한 삼중 손실(triple loss)을 도입하여 훈련.
  • 주요 결과 및 결론: DistilBERT는 BERT보다 파라미터 수가 40% 적고, 추론 속도는 60% 빠르면서도 GLUE 벤치마크에서 BERT 성능의 97%를 유지함. 이를 통해 제한된 컴퓨팅 환경이나 모바일 기기에서도 효율적으로 동작할 수 있는 범용 언어 모델의 가능성을 입증.
  • 기여점: 기존의 태스크 특화적 증류 방식에서 벗어나, 사전 훈련 단계에 지식 증류를 적용하여 범용적으로 사용 가능한 작고 빠른 언어 모델을 성공적으로 개발함. 또한 삼중 손실 함수와 교사 모델의 가중치를 활용한 초기화 방법을 제안하여 효과적인 지식 전수를 이룸.