Skip to main content

2 posts tagged with "Small language models"

소규모 언어 모델

View All Tags

Small Language Models are the Future of Agentic AI

· 8 min read
Peter Belcak
NVIDIA 연구원
Greg Heinrich
연구원
Saurav Muralidharan
연구원
Shizhe Diao
연구원

논문 정보

  • 제목: Small Language Models are the Future of Agentic AI
  • 저자: Peter Belcak, Greg Heinrich, Saurav Muralidharan, Shizhe Diao, Yonggan Fu, Xin Dong, Yingyan Celine Lin, Pavlo Molchanov (Georgia Institute of Technology, NVIDIA Research)
  • 학회/저널: arXiv preprint
  • 발행일: 2025-06-02
  • DOI: 제공되지 않음
  • 주요 연구 내용: 에이전트 AI 시스템의 대부분 작업이 반복적이고 범위가 한정되어 있어, 범용 LLM보다는 특정 작업에 특화된 SLM이 더 적합하다고 주장함. SLM이 충분한 성능을 갖추고 있으며(V1), 운영상 더 적합하고(V2), 경제적으로 필연적인 선택(V3)임을 다양한 근거를 통해 설명함.
  • 주요 결과 및 결론: 최신 SLM들은 이미 LLM에 필적하는 성능을 보이며 추론 비용, 미세조정, 엣지 배포 등에서 상당한 이점을 가짐. 따라서 에이전트 시스템은 SLM을 기본으로 사용하고 필요할 때만 LLM을 호출하는 이기종(heterogeneous) 시스템으로 발전해야 하며, 이를 위한 LLM-to-SLM 변환 알고리즘을 제안함.
  • 기여점: 에이전트 AI 분야에서 LLM 중심 패러다임에 대한 비판적 관점을 제시하고, SLM의 효용성과 경제성을 강조하여 지속 가능하고 책임감 있는 AI 배포의 필요성에 대한 논의를 촉발함. 또한, 기존 LLM 기반 에이전트를 SLM 기반으로 전환할 수 있는 구체적인 알고리즘을 제공함.

SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS

· 6 min read
Zhenyan Lu
연구원
Xiang Li
연구원
Dongqi Cai
연구원
Rongjie Yi
연구원
Fangming Liu
연구원
Xiwen Zhang
연구원
Nicholas D. Lane
연구원
Mengwei Xu
연구원

논문 정보

  • 제목: SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS
  • 저자: Zhenyan Lu (Beijing University of Posts and Telecommunications), Xiang Li (Peng Cheng Laboratory), Dongqi Cai (Helixon Research), Rongjie Yi (Beijing University of Posts and Telecommunications), Fangming Liu (Beijing University of Posts and Telecommunications), Xiwen Zhang (Beijing University of Posts and Telecommunications), Nicholas D. Lane (University of Cambridge), Mengwei Xu (Beijing University of Posts and Telecommunications)
  • 학회/저널: arXiv
  • 발행일: 2025-02-26 (v3)
  • DOI: arXiv:2409.15790
  • 주요 연구 내용: 1억~50억 파라미터 사이의 디코더-전용 트랜스포머 기반 소형 언어 모델(SLM) 70개를 대상으로 기술 혁신을 아키텍처, 학습 데이터셋, 학습 알고리즘 세 가지 축으로 분석함. 또한, 상식 추론, 수학, 인-컨텍스트 학습, 긴 컨텍스트 처리 등 다양한 영역에서 모델의 능력을 평가하고, 온디바이스 환경에서의 추론 지연 시간과 메모리 사용량을 벤치마킹함.
  • 주요 결과 및 결론: SLM의 성능은 2022년에서 2024년 사이에 LLM보다 빠르게 발전했으며, 모델 성능에는 아키텍처보다 데이터 품질이 더 결정적인 영향을 미침. 최신 SLM은 Chinchilla 법칙이 제안하는 것보다 훨씬 많은 토큰으로 '과잉 학습'되는 경향이 있으며, 이는 제한된 자원의 디바이스에 더 강력한 모델을 배포하기 위함임. 모델 아키텍처는 특히 추론의 프리필(prefill) 단계에서 지연 시간에 큰 영향을 줌.
  • 기여점: 최근 발표된 SLM들을 철저히 검토하고 핵심 혁신을 요약하며, 모델의 능력과 온디바이스 비용을 포괄적으로 벤치마킹함. 심층 분석을 통해 향후 SLM 연구에 기여할 수 있는 통찰력을 제공하고, 모든 결과와 벤치마크 도구를 공개하여 관련 연구를 촉진함.