본문으로 건너뛰기

"State space models" 태그로 연결된 1개 게시물개의 게시물이 있습니다.

상태 공간 모델

모든 태그 보기

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

· 약 6분
Albert Gu
Stanford University 연구원
Tri Dao
연구원

논문 정보

  • 제목: Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  • 저자: Albert Gu (Carnegie Mellon University), Tri Dao (Princeton University)
  • 학회/저널: arXiv
  • 발행일: 2024-05-31
  • DOI: 10.48550/arXiv.2312.00752
  • 주요 연구 내용: 기존 상태 공간 모델(SSM)의 한계인 내용 기반 추론(content-based reasoning) 능력 부재를 해결하기 위해, 모델의 파라미터가 입력에 따라 동적으로 변하는 '선택 메커니즘'을 도입함. 이로 인해 비효율적으로 변하는 계산 문제를 해결하기 위해 GPU 메모리 계층 구조를 활용한 하드웨어 친화적인 병렬 스캔 알고리즘을 설계함.
  • 주요 결과 및 결론: Mamba는 시퀀스 길이에 대해 선형적으로 확장되며, Transformer 대비 5배 높은 추론 처리량을 보임. 언어, 음성, 유전체 등 다양한 모달리티에서 기존 SOTA 모델 및 Transformer의 성능을 능가했으며, 특히 언어 모델링에서는 동일 크기의 Transformer를 압도하고 2배 큰 모델과 대등한 성능을 달성함.
  • 기여점: 첫째, SSM에 입력 의존적인 선택 메커니즘을 도입하여 시퀀스 내 정보를 선택적으로 처리하는 능력을 부여함. 둘째, 이 선택적 SSM을 효율적으로 계산하기 위한 하드웨어 인식 병렬 알고리즘을 개발함. 셋째, 어텐션과 MLP 블록 없이 선택적 SSM을 통합한 단순하고 효율적인 Mamba 아키텍처를 제안함.