Skip to main content

Small Language Models are the Future of Agentic AI

· 8 min read
Peter Belcak
NVIDIA 연구원
Greg Heinrich
Saurav Muralidharan
Shizhe Diao

논문 정보

  • 제목: Small Language Models are the Future of Agentic AI
  • 저자: Peter Belcak, Greg Heinrich, Saurav Muralidharan, Shizhe Diao, Yonggan Fu, Xin Dong, Yingyan Celine Lin, Pavlo Molchanov (Georgia Institute of Technology, NVIDIA Research)
  • 학회/저널: arXiv preprint
  • 발행일: 2025-06-02
  • DOI: 제공되지 않음
  • 주요 연구 내용: 에이전트 AI 시스템의 대부분 작업이 반복적이고 범위가 한정되어 있어, 범용 LLM보다는 특정 작업에 특화된 SLM이 더 적합하다고 주장함. SLM이 충분한 성능을 갖추고 있으며(V1), 운영상 더 적합하고(V2), 경제적으로 필연적인 선택(V3)임을 다양한 근거를 통해 설명함.
  • 주요 결과 및 결론: 최신 SLM들은 이미 LLM에 필적하는 성능을 보이며 추론 비용, 미세조정, 엣지 배포 등에서 상당한 이점을 가짐. 따라서 에이전트 시스템은 SLM을 기본으로 사용하고 필요할 때만 LLM을 호출하는 이기종(heterogeneous) 시스템으로 발전해야 하며, 이를 위한 LLM-to-SLM 변환 알고리즘을 제안함.
  • 기여점: 에이전트 AI 분야에서 LLM 중심 패러다임에 대한 비판적 관점을 제시하고, SLM의 효용성과 경제성을 강조하여 지속 가능하고 책임감 있는 AI 배포의 필요성에 대한 논의를 촉발함. 또한, 기존 LLM 기반 에이전트를 SLM 기반으로 전환할 수 있는 구체적인 알고리즘을 제공함.

Al Adoption for Collaboration: Factors Influencing Inclusive Learning Adoption in Higher Education

· 5 min read
IBRAHIM YOUSSEF ALYOUSSEF
AMR MOHAMMED DRWISH
FATIMAH ADEL ALBAKHEET
RAFDAN ALHAJHOJ

논문 정보

  • 제목: Al Adoption for Collaboration: Factors Influencing Inclusive Learning Adoption in Higher Education
  • 저자: IBRAHIM YOUSSEF ALYOUSSEFD 외 4명 (King Faisal University)
  • 학회/저널: IEEE Access
  • 발행일: 2025-05-07
  • DOI: 10.1109/ACCESS.2025.3567656
  • 주요 연구 내용: 기술 수용 모델(TAM)을 확장하여 '인식된 AI 출력 품질', '신뢰', '친숙도', '교육 서비스 품질', '참여 효능감' 등의 변수가 AI 기술 수용에 미치는 영향을 탐구함. 사우디아라비아의 King Faisal University 학생 443명을 대상으로 설문조사를 실시하고, 구조 방정식 모델링(SEM)을 통해 가설을 검증함.
  • 주요 결과 및 결론: '인식된 사용 용이성'과 '인식된 유용성'이 '행동 의도'에, 그리고 '행동 의도'가 실제 'AI 채택'에 긍정적인 영향을 미치는 것을 확인함. 특히 '참여 효능감'이 사용 용이성과 유용성 인식에 큰 영향을 주었으나, 'AI 출력 품질'은 '유용성'에 유의미한 영향을 미치지 않음.
  • 기여점: 고등 교육의 포용적, 협력적 학습 환경에서 AI 채택에 영향을 미치는 요인들을 실증적으로 분석함. 개발도상국 상황에서의 데이터를 제공하고, AI 기술의 효과적인 통합을 위한 실질적인 교육 전략을 제안하여 기존 TAM 연구를 확장함.

Test Intention Guided LLM-based Unit Test Generation

· 5 min read
Zifan Nan
Zhaoqiang Guo
Kui Liu
Xin Xia

논문 정보

  • 제목: Test Intention Guided LLM-based Unit Test Generation
  • 저자: Zifan Nan, Zhaoqiang Guo, Kui Liu, Xin Xia (Huawei Technologies Co., Ltd.)
  • 학회/저널: 2025 IEEE/ACM 47th International Conference on Software Engineering (ICSE)
  • 발행일: 2025-05-01 (ICSE 2025 Proceedings)
  • DOI: 10.1109/ICSE55347.2025.00243
  • 주요 연구 내용: 정적 분석 기반의 PAINT 기법을 통해 코드의 분기(Branch)와 의존성을 분석하고, 이를 바탕으로 명시적인 '테스트 의도(Test Intention)'를 생성하여 LLM 프롬프트에 주입함으로써 단위 테스트의 품질을 향상시키는 IntUT 프레임워크를 제안함.
  • 주요 결과 및 결론: 산업계 자바 프로젝트 적용 결과, 기존 방식 대비 분기 커버리지(Branch Coverage)를 94%, 라인 커버리지(Line Coverage)를 49% 향상시켰으며, 실제 개발자 대상 라이브 스터디에서 30%의 효율성 향상을 입증함.
  • 기여점: 단순 코드 컨텍스트 제공을 넘어, 프로그램 분석을 통해 도출된 명확한 테스트 시나리오(입력값, Mocking 동작, 기대 결과)를 LLM에 가이드함으로써 복잡한 분기와 의존성을 가진 코드에 대한 테스트 생성 한계를 극복함.

Real-time Semantic Full-Body Haptic Feedback Converted from Sound for Virtual Reality Gameplay

· 5 min read
Gyeore Yun
POSTECH 연구원
Seungmoon Choi
POSTECH 교수

논문 정보

  • 제목: Real-time Semantic Full-Body Haptic Feedback Converted from Sound for Virtual Reality Gameplay
  • 저자: Gyeore Yun, Seungmoon Choi (Pohang University of Science and Technology, POSTECH)
  • 학회/저널: CHI Conference on Human Factors in Computing Systems (CHI '25)
  • 발행일: 2025-04-26
  • DOI: 10.1145/3706598.3713355
  • 주요 연구 내용: VR FPS 게임의 사운드 스트림을 실시간으로 캡처하여 Long-Short-Term Memory (LSTM) 모델로 총성, 피격, 폭발 등 의미론적 이벤트로 분류한다. 이후 분류된 이벤트에 맞춰 미리 디자인된 전신 햅틱 패턴을 생성하여 햅틱 슈트를 통해 사용자에게 전달하는 시스템을 제안함.
  • 주요 결과 및 결론: 사용자 연구를 통해 제안된 의미론적 사운드-햅틱 변환 시스템이 기존의 단순 신호 처리 기반 변환 방식(NS-ALL)이나 의미는 맞지만 패턴이 무작위인 방식(S-RAND)에 비해 일치성, 방해 요소, 선호도 측면에서 월등히 높은 사용자 경험 점수를 기록함. 이는 사운드의 의미를 정확히 분류하고 그에 맞는 햅틱 패턴을 제공하는 것이 몰입감 향상에 중요함을 시사함.
  • 기여점: 게임 프로그램과 독립적으로 작동하면서 실시간으로 사운드의 의미를 파악하여 전신 햅틱 피드백을 자동으로 생성하는 시스템을 개발함. 또한, 사용자 연구를 통해 의미론적 변환과 적절한 햅틱 패턴 디자인이 VR 게임 경험을 크게 향상시킬 수 있음을 실험적으로 증명함.

The Future of Software Testing: A Review of Trends, Challenges, and Opportunities

· 5 min read
Elavarasi Kesavan
Cognizant Full Stack QA Architect

논문 정보

  • 제목: The Future of Software Testing: A Review of Trends, Challenges, and Opportunities
  • 저자: Mrs. Elavarasi Kesavan (Full Stack QA Architect, Cognizant)
  • 학회/저널: International Journal of Innovations in Science Engineering and Management
  • 발행일: 2025-04-15
  • DOI: 10.69968/ijisem.2025v4i253-57
  • 주요 연구 내용: 본 논문은 AI, IoT, 클라우드, 애자일 등 최신 기술이 소프트웨어 테스팅 분야에 미치는 영향을 분석함. 문헌 연구를 통해 최신 테스팅 동향, 지속적인 과제, 그리고 새로운 기회들을 종합적으로 검토하고, 미래의 테스트 엔지니어가 갖추어야 할 역량을 조망함.
  • 주요 결과 및 결론: 소프트웨어 테스팅은 AI와 IoT 같은 신기술과 깊이 연관되어 빠르게 발전하고 있으며, 테스터에게는 코딩 능력과 새로운 도구 및 프레임워크에 대한 적응력이 요구됨. 애자일, 자동화, TCoE(Testing Centers of Excellence)가 QA Practice를 재편하고 있으나, 성능 테스트, 숨겨진 종속성, 품질 책임과 같은 과제는 여전히 남아있음.
  • 기여점: 소프트웨어 테스팅의 현재 상황과 미래 방향에 대한 포괄적인 개요를 제공함. 최신 동향, 고질적인 문제, 새로운 기회를 종합하여 미래의 테스트 엔지니어를 위한 지속적인 학습과 기술 개발의 필요성을 강조함.

Explainable Artificial Intelligence (XAI) for Material Design and Engineering Applications: A Quantitative Computational Framework

· 5 min read
Bokai Liu
Pengju Liu
Weizhuo Lu
Thomas Olofsson

논문 정보

  • 제목: Explainable Artificial Intelligence (XAI) for Material Design and Engineering Applications: A Quantitative Computational Framework
  • 저자: Bokai Liu, Pengju Liu, Weizhuo Lu, Thomas Olofsson (Department of Applied Physics and Electronics, Umeå University, Umeå, Sweden)
  • 학회/저널: International Journal of Mechanical System Dynamics
  • 발행일: 2025-03-27 (Accepted)
  • DOI: https://doi.org/10.1002/msd2.70017
  • 주요 연구 내용: 본 연구는 재료 설계 및 엔지니어링 응용을 위해 기계학습(ML)과 설명가능 인공지능(XAI)을 통합한 새로운 정량적 계산 프레임워크를 제안함. 이 프레임워크는 데이터 처리, 특징 선택, 모델 훈련, 성능 평가, 설명가능성 분석 및 실제 클라우드 배포를 포함하는 체계적인 파이프라인으로 구성됨.
  • 주요 결과 및 결론: 고성능 콘크리트(HPC)의 압축 강도 예측 사례 연구를 통해 프레임워크를 검증했으며, XGBoost 모델이 R2=0.918R^{2}=0.918로 가장 높은 예측 성능을 달성함. SHAP과 LIME은 특징 중요도와 재료 간 상호작용에 대한 상세한 통찰력을 제공했으며, 훈련된 모델은 클라우드 기반 API로 배포되어 확장성과 접근성을 확보함.
  • 기여점: 기존 ML 접근법의 '블랙박스' 한계를 극복하기 위해 고급 설명가능성 기술을 통합하고, 비선형적 특징 상호작용을 체계적으로 다루며, 확장 가능한 배포 전략을 제공함. 이를 통해 데이터 기반 예측과 근본적인 재료 과학 원리 사이의 간극을 좁히는 해석 가능하고 배포 가능한 AI 기반 재료 정보학 솔루션을 제시함.

WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS

· 5 min read
Weronika Ormaniec
Felix Dangel
Sidak Pal Singh

논문 정보

  • 제목: WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS
  • 저자: Weronika Ormaniec (ETH Zürich), Felix Dangel (Vector Institute), Sidak Pal Singh (ETH Zürich)
  • 학회/저널: ICLR 2025
  • 발행일: 2025-03-17
  • DOI: 해당 없음
  • 주요 연구 내용: 단일 셀프 어텐션 레이어의 손실 함수에 대한 헤시안 행렬을 이론적으로 완전히 유도하고, 이를 행렬 미분 형태로 표현함. 헤시안의 각 블록이 데이터, 가중치, 어텐션 모멘트(attention moments)에 어떻게 의존하는지 분석하여 기존 MLP나 CNN과의 구조적 차이점을 명확히 함.
  • 주요 결과 및 결론: 트랜스포머 헤시안은 파라미터 그룹(Query, Key, Value)에 따라 데이터와 가중치에 대한 의존성이 매우 비선형적이고 이질적(heterogeneous)임을 보임. Softmax 활성화 함수와 Query-Key 파라미터화와 같은 트랜스포머의 핵심 설계 요소가 이러한 이질성의 주요 원인임을 밝힘.
  • 기여점: 트랜스포머 학습에 통용되는 적응형 옵티마이저, 레이어 정규화, 학습률 워밍업 등의 기법이 필요한 이유를 헤시안의 복잡하고 이질적인 구조를 통해 설명함. 이는 트랜스포머의 독특한 최적화 환경과 그로 인한 문제들에 대한 깊은 이론적 토대를 제공함.

SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS

· 6 min read
Zhenyan Lu
Xiang Li
Dongqi Cai
Rongjie Yi
Fangming Liu
Xiwen Zhang
Nicholas D. Lane
Mengwei Xu

논문 정보

  • 제목: SMALL LANGUAGE MODELS: SURVEY, MEASUREMENTS, AND INSIGHTS
  • 저자: Zhenyan Lu (Beijing University of Posts and Telecommunications), Xiang Li (Peng Cheng Laboratory), Dongqi Cai (Helixon Research), Rongjie Yi (Beijing University of Posts and Telecommunications), Fangming Liu (Beijing University of Posts and Telecommunications), Xiwen Zhang (Beijing University of Posts and Telecommunications), Nicholas D. Lane (University of Cambridge), Mengwei Xu (Beijing University of Posts and Telecommunications)
  • 학회/저널: arXiv
  • 발행일: 2025-02-26 (v3)
  • DOI: arXiv:2409.15790
  • 주요 연구 내용: 1억~50억 파라미터 사이의 디코더-전용 트랜스포머 기반 소형 언어 모델(SLM) 70개를 대상으로 기술 혁신을 아키텍처, 학습 데이터셋, 학습 알고리즘 세 가지 축으로 분석함. 또한, 상식 추론, 수학, 인-컨텍스트 학습, 긴 컨텍스트 처리 등 다양한 영역에서 모델의 능력을 평가하고, 온디바이스 환경에서의 추론 지연 시간과 메모리 사용량을 벤치마킹함.
  • 주요 결과 및 결론: SLM의 성능은 2022년에서 2024년 사이에 LLM보다 빠르게 발전했으며, 모델 성능에는 아키텍처보다 데이터 품질이 더 결정적인 영향을 미침. 최신 SLM은 Chinchilla 법칙이 제안하는 것보다 훨씬 많은 토큰으로 '과잉 학습'되는 경향이 있으며, 이는 제한된 자원의 디바이스에 더 강력한 모델을 배포하기 위함임. 모델 아키텍처는 특히 추론의 프리필(prefill) 단계에서 지연 시간에 큰 영향을 줌.
  • 기여점: 최근 발표된 SLM들을 철저히 검토하고 핵심 혁신을 요약하며, 모델의 능력과 온디바이스 비용을 포괄적으로 벤치마킹함. 심층 분석을 통해 향후 SLM 연구에 기여할 수 있는 통찰력을 제공하고, 모든 결과와 벤치마크 도구를 공개하여 관련 연구를 촉진함.

Prediction of Pick Acting Forces Using an Random Forest Model based on Mechanical Properties of Rocks and Cutting Parameters

· 6 min read
Mohammad Sharghi
국립부경대학교 에너지자원공학과 박사후연구원
Hoyoung Jeong
국립부경대학교 에너지자원공학과 조교수

논문 정보

  • 제목: Prediction of Pick Acting Forces Using an Random Forest Model based on Mechanical Properties of Rocks and Cutting Parameters
  • 저자: Mohammad Sharghi, Hoyoung Jeong (Pukyong National University)
  • 학회/저널: TUNNEL & UNDERGROUND SPACE
  • 발행일: 2025-02-24
  • DOI: https://doi.org/10.7474/TUS.2025.35.1.055
  • 주요 연구 내용: 195개의 암석 선형절삭시험 데이터세트를 구축하여 다변수 선형 회귀(MLR) 분석으로 기초 상관관계를 파악하고, 무작위 탐색 교차 검증(Randomized Search CV)으로 하이퍼파라미터를 튜닝한 최적화된 랜덤 포레스트(RF) 모델을 제안함. 이 모델을 사용하여 픽 커터의 평균 수직력(FNmFN_m)과 평균 절삭력(FCmFC_m)을 예측함.
  • 주요 결과 및 결론: 최적화된 RF 모델은 MLR 모델(FNmFN_m R2R^2=0.743, FCmFC_m R2R^2=0.674) 대비 매우 우수한 예측 성능을 보임. 테스트 데이터 기준, FNmFN_m 예측 R2R^2는 0.983, FCmFC_m 예측 R2R^2는 0.908을 달성함. 특징 중요도 분석 결과, FNmFN_m은 일축압축강도(UCS)가 지배적 영향을 미쳤으나, FCmFC_m은 여러 매개변수가 복합적으로 작용하는 것으로 나타남.
  • 기여점: 다양한 암종과 절삭 조건을 포함하는 포괄적인 데이터셋을 활용하여, 픽 커터 작용력 예측에 최적화된 RF 머신러닝 모델을 제시함. 특히 FNmFN_mFCmFC_m에 영향을 미치는 주요 인자(UCS 등)를 규명함으로써 굴착 효율성 및 공구 마모 예측의 정확도를 크게 향상시킴.

Identifying Bug Inducing Commits by Combining Fault Localisation and Code Change Histories

· 7 min read
Gabin An
Jinsu Choi
Jingun Hong
Naryeong Kim
Shin Yoo

논문 정보

  • 제목: Identifying Bug Inducing Commits by Combining Fault Localisation and Code Change Histories
  • 저자: Gabin An (KAIST), Jinsu Choi (KAIST), Jingun Hong (SAP Labs Korea), Naryeong Kim (KAIST), Shin Yoo (KAIST)
  • 학회/저널: arXiv (Extended version of ICSE 2023 paper)
  • 발행일: 2025-02-19 (v2)
  • DOI: 10.1109/ICSE48619.2023.00059 (Original ICSE 2023 paper)
  • 주요 연구 내용: 코드 요소의 결함 의심 점수(Fault Localisation)와 코드 변경 이력(Version Control)을 결합하여 버그 유발 커밋(BIC)의 가능성을 정량화하는 'FONTE' 기법 제안. FONTE는 3단계(필터링, 의미 보존 커밋 제거, 점수화)를 통해 BIC 탐색 공간을 줄이고 순위를 매김.
  • 주요 결과 및 결론: 206개 실제 BIC 대상 평가 결과, FONTE는 기존 IR 기반 BIC 식별 기법 대비 최대 45.8% 높은 MRR을 달성. 또한 FONTE 점수를 활용한 '가중 이진 탐색(Weighted Bisection)'은 표준 이진 탐색 대비 탐색 반복 횟수를 98%의 사례에서 감소시킴.
  • 기여점: 버그 리포트나 버그 수정 커밋(BFC) 없이, 테스트 실패 정보(커버리지)와 커밋 이력만으로 BIC를 식별하는 효율적이고 유연한 비지도 방식 제안. 대규모 산업 프로젝트(SAP HANA)의 배치 테스팅 실패 시나리오에 적용하여 실용성 입증.