본문으로 건너뛰기

"Language model survey" 태그로 연결된 1개 게시물개의 게시물이 있습니다.

언어 모델 설문조사

모든 태그 보기

SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS

· 약 6분
Zhenyan Lu
연구원
Xiang Li
연구원
Dongqi Cai
연구원
Rongjie Yi
연구원
Fangming Liu
연구원
Xiwen Zhang
연구원
Nicholas D. Lane
연구원
Mengwei Xu
연구원

논문 정보

  • 제목: SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS
  • 저자: Zhenyan Lu (Beijing University of Posts and Telecommunications), Xiang Li (Peng Cheng Laboratory), Dongqi Cai (Helixon Research), Rongjie Yi (Beijing University of Posts and Telecommunications), Fangming Liu (Beijing University of Posts and Telecommunications), Xiwen Zhang (Beijing University of Posts and Telecommunications), Nicholas D. Lane (University of Cambridge), Mengwei Xu (Beijing University of Posts and Telecommunications)
  • 학회/저널: arXiv
  • 발행일: 2025-02-26 (v3)
  • DOI: arXiv:2409.15790
  • 주요 연구 내용: 1억~50억 파라미터 사이의 디코더-전용 트랜스포머 기반 소형 언어 모델(SLM) 70개를 대상으로 기술 혁신을 아키텍처, 학습 데이터셋, 학습 알고리즘 세 가지 축으로 분석함. 또한, 상식 추론, 수학, 인-컨텍스트 학습, 긴 컨텍스트 처리 등 다양한 영역에서 모델의 능력을 평가하고, 온디바이스 환경에서의 추론 지연 시간과 메모리 사용량을 벤치마킹함.
  • 주요 결과 및 결론: SLM의 성능은 2022년에서 2024년 사이에 LLM보다 빠르게 발전했으며, 모델 성능에는 아키텍처보다 데이터 품질이 더 결정적인 영향을 미침. 최신 SLM은 Chinchilla 법칙이 제안하는 것보다 훨씬 많은 토큰으로 '과잉 학습'되는 경향이 있으며, 이는 제한된 자원의 디바이스에 더 강력한 모델을 배포하기 위함임. 모델 아키텍처는 특히 추론의 프리필(prefill) 단계에서 지연 시간에 큰 영향을 줌.
  • 기여점: 최근 발표된 SLM들을 철저히 검토하고 핵심 혁신을 요약하며, 모델의 능력과 온디바이스 비용을 포괄적으로 벤치마킹함. 심층 분석을 통해 향후 SLM 연구에 기여할 수 있는 통찰력을 제공하고, 모든 결과와 벤치마크 도구를 공개하여 관련 연구를 촉진함.