제목: A Study on the Capability of Generative AI to Understand and Utilize Test Cases
저자: 김정인, 이우진 (경북대학교 컴퓨터학부)
학회/저널: KCC 2025
발행일: 2025-06-20
DOI: N/A
주요 연구 내용: 최신 LLM인 GPT-4.1을 대상으로 경쟁 프로그래밍(CP) 문제 해결 시, 제로샷 프롬프팅 환경에서 테스트케이스(TC) 정보를 제공하는 것이 코드 생성 정확도에 미치는 영향을 분석함. 문제 정의만 제공한 경우, 문제 정의와 TC를 함께 제공한 경우, 입출력 정보와 TC만 제공한 경우로 나누어 실험을 설계하고 결과를 비교함.
주요 결과 및 결론: TC 정보 추가가 전반적인 코드 생성 정확도 향상으로 이어지지 않았으며, 특히 문제 난이도가 높을수록 성능이 저하되는 경향을 보였음. 또한, GPT-4.1은 TC를 생성하고 검증하는 능력에도 명확한 한계를 보였음.
기여점: LLM의 코드 생성 과정에서 TC 정보가 항상 긍정적인 영향을 미치는 것은 아니라는 점을 실험적으로 밝힘. 이는 LLM이 개발자처럼 TC를 통해 문제의 요구사항이나 잠재적 오류를 추론하는 단계에 이르지 못했음을 시사하며, LLM 활용 시 TC 포함 전략에 신중한 접근이 필요함을 제기함.
제목: Small Language Models are the Future of Agentic AI
저자: Peter Belcak, Greg Heinrich, Saurav Muralidharan, Shizhe Diao, Yonggan Fu, Xin Dong, Yingyan Celine Lin, Pavlo Molchanov (Georgia Institute of Technology, NVIDIA Research)
학회/저널: arXiv preprint
발행일: 2025-06-02
DOI: 제공되지 않음
주요 연구 내용: 에이전트 AI 시스템의 대부분 작업이 반복적이고 범위가 한정되어 있어, 범용 LLM보다는 특정 작업에 특화된 SLM이 더 적합하다고 주장함. SLM이 충분한 성능을 갖추고 있으며(V1), 운영상 더 적합하고(V2), 경제적으로 필연적인 선택(V3)임을 다양한 근거를 통해 설명함.
주요 결과 및 결론: 최신 SLM들은 이미 LLM에 필적하는 성능을 보이며 추론 비용, 미세조정, 엣지 배포 등에서 상당한 이점을 가짐. 따라서 에이전트 시스템은 SLM을 기본으로 사용하고 필요할 때만 LLM을 호출하는 이기종(heterogeneous) 시스템으로 발전해야 하며, 이를 위한 LLM-to-SLM 변환 알고리즘을 제안함.
기여점: 에이전트 AI 분야에서 LLM 중심 패러다임에 대한 비판적 관점을 제시하고, SLM의 효용성과 경제성을 강조하여 지속 가능하고 책임감 있는 AI 배포의 필요성에 대한 논의를 촉발함. 또한, 기존 LLM 기반 에이전트를 SLM 기반으로 전환할 수 있는 구체적인 알고리즘을 제공함.
주요 연구 내용: 컴퓨팅 교육 분야에서 생성형 AI(GenAI)의 현재 동향을 파악하기 위해 세 가지 접근법을 사용함. 첫째, 71편의 관련 연구에 대한 체계적 문헌 고찰(SLR)을 수행함. 둘째, 교육자(N=76)와 산업계 개발자(N=39)를 대상으로 설문조사를 실시함. 마지막으로 GenAI 도구 개발자, 연구자, 사용자 등 17명의 교육자와 심층 인터뷰를 진행하여 데이터를 삼각 측량 방식으로 분석함.
주요 결과 및 결론: 문헌 고찰 결과, 교육적 가드레일이 포함된 맞춤형 GenAI 도구를 사용할 때 긍정적인 결과가 더 많이 나타남. 설문 및 인터뷰 결과, 대다수 교육자(77%)는 GenAI로 인해 필요한 프로그래밍 역량이 변화했다고 인식하지만, 실제 교육과정을 수정한 비율은 36%에 그침. 역량의 중심이 코드 작성에서 코드 읽기, 테스트, 문제 분해 등 고차원적 기술로 이동하고 있으며, 평가 방식도 감독 있는 시험이나 구술시험으로 바뀌는 추세임.
기여점: 본 연구는 문헌, 교육자, 산업계 개발자의 관점을 통합하여 컴퓨팅 교육에서 GenAI의 현주소를 포괄적으로 제시함. GenAI 통합의 실제 동향, 교육 방식의 변화, 역량 요구사항의 전환, 그리고 형평성 문제와 같은 주요 과제를 명확히 규명하고, 교육자들이 GenAI를 효과적으로 도입하기 위한 구체적인 권장 사항을 제공함.
주요 연구 내용: 본 연구는 300개의 경쟁적 프로그래밍 문제를 'Easy', 'Medium', 'Hard' 세 가지 난이도로 나누어 ChatGPT의 문제 해결 능력을 평가함. LeetCode 플랫폼의 문제들을 활용했으며, 프롬프트 엔지니어링을 적용하여 생성된 코드의 정확성을 온라인 저지 시스템을 통해 측정함.
주요 결과 및 결론: ChatGPT는 전체 문제에 대해 66.00%의 정답률(acceptance rate)을 기록하여, 평균적인 인간 사용자의 52.95%를 상회하는 성능을 보임. 난이도별 정답률은 Easy 89.00%, Medium 68.00%, Hard 41.00%로, 문제의 복잡도가 증가할수록 성능이 저하되는 경향을 보임.
기여점: ChatGPT의 경쟁적 프로그래밍 문제 해결 능력을 인간과 비교하여 체계적으로 평가한 초기 연구 중 하나임. 효과적인 코드 생성을 위한 프롬프트 엔지니어링의 중요성을 입증하고, 복잡한 문제 해결에서 나타나는 AI의 한계점을 명확히 제시함.