Skip to main content

9 posts tagged with "Large language models"

대규모 언어 모델 - 방대한 텍스트로 학습된 고성능 자연어 처리 모델

View All Tags

PAPER2CODE: AUTOMATING CODE GENERATION FROM SCIENTIFIC PAPERS IN MACHINE LEARNING

· 6 min read
Minju Seo
KAIST
Jinheon Baek
KAIST
Seongyun Lee
KAIST
Sung Ju Hwang
KAIST, DeepAuto.ai

논문 정보

  • 제목: PAPER2CODE: AUTOMATING CODE GENERATION FROM SCIENTIFIC PAPERS IN MACHINE LEARNING
  • 저자: Minju Seo (KAIST), Jinheon Baek (KAIST), Seongyun Lee (KAIST), Sung Ju Hwang (KAIST, DeepAuto.ai)
  • 학회/저널: arXiv (v4)
  • 발행일: 2025-10-10
  • DOI: (N/A)
  • 주요 연구 내용: 기계 학습(ML) 논문만 입력받아 완전한 코드 리포지토리를 생성하는 멀티 에이전트 LLM 프레임워크 'PaperCoder'를 제안함. PaperCoder는 1) Planning (계획), 2) Analysis (분석), 3) Generation (생성)의 3단계로 작업을 분해하여 인간 개발자의 워크플로우를 모방함.
  • 주요 결과 및 결론: PaperCoder는 자체 구축한 Paper2CodeBench 및 공개된 PaperBench 벤치마크에서 ChatDev, MetaGPT 등 기존 코드 생성 방식들을 큰 차이로 능가함. 생성된 코드는 원본 논문 저자의 평가에서도 88%가 최고로 선택되었으며, 92%가 재현에 도움이 된다고 응답함.
  • 기여점: ML 논문에서 코드 자동 생성을 위한 체계적인 3단계(계획-분석-생성) 멀티 에이전트 방법론을 제시함. 생성된 코드는 평균 0.81%의 코드 라인만 수정하면 실행 가능한 '거의 실행 가능한(near-executable)' 수준의 높은 품질을 달성하여 ML 연구의 재현성 위기를 해결하는 데 기여함.

A Study on the Capability of Generative AI to Understand and Utilize Test Cases

· 4 min read
김정인
경북대학교 컴퓨터학부 석사과정생
이우진
경북대학교 컴퓨터학부 전임교수

논문 정보

  • 제목: A Study on the Capability of Generative AI to Understand and Utilize Test Cases
  • 저자: 김정인, 이우진 (경북대학교 컴퓨터학부)
  • 학회/저널: KCC 2025
  • 발행일: 2025-06-20
  • DOI: N/A
  • 주요 연구 내용: 최신 LLM인 GPT-4.1을 대상으로 경쟁 프로그래밍(CP) 문제 해결 시, 제로샷 프롬프팅 환경에서 테스트케이스(TC) 정보를 제공하는 것이 코드 생성 정확도에 미치는 영향을 분석함. 문제 정의만 제공한 경우, 문제 정의와 TC를 함께 제공한 경우, 입출력 정보와 TC만 제공한 경우로 나누어 실험을 설계하고 결과를 비교함.
  • 주요 결과 및 결론: TC 정보 추가가 전반적인 코드 생성 정확도 향상으로 이어지지 않았으며, 특히 문제 난이도가 높을수록 성능이 저하되는 경향을 보였음. 또한, GPT-4.1은 TC를 생성하고 검증하는 능력에도 명확한 한계를 보였음.
  • 기여점: LLM의 코드 생성 과정에서 TC 정보가 항상 긍정적인 영향을 미치는 것은 아니라는 점을 실험적으로 밝힘. 이는 LLM이 개발자처럼 TC를 통해 문제의 요구사항이나 잠재적 오류를 추론하는 단계에 이르지 못했음을 시사하며, LLM 활용 시 TC 포함 전략에 신중한 접근이 필요함을 제기함.

Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability

· 5 min read
Mengliang He
Jiayi Zeng
Yankai Jiang
Wei Zhang
Zeming Liu
Xiaoming Shi
Aimin Zhou

논문 정보

  • 제목: Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability
  • 저자: Mengliang He (East China Normal University), Jiayi Zeng (East China Normal University), Yankai Jiang (Shanghai AI Lab), Wei Zhang (East China Normal University), Zeming Liu (Beihang University), Xiaoming Shi (East China Normal University), Aimin Zhou (East China Normal University)
  • 학회/저널: arXiv (v1)
  • 발행일: 2025-06-02
  • DOI: (arXiv:2506.02073)
  • 주요 연구 내용: 기존 LLM 코드 생성 벤치마크가 순서도(flowchart)를 간과하고 있다는 문제를 지적. 15개 프로그래밍 언어, 3가지 순서도 유형(코드, UML, 의사코드)에 걸친 총 16,866개의 순서도를 포함하는 'Flow2Code'라는 새로운 벤치마크 데이터셋을 구축.
  • 주요 결과 및 결론: 13개의 최신 멀티모달 LLM(MLLM)을 평가한 결과, 현재 모델들이 순서도를 완벽하게 코드로 변환하지 못하며, 특히 의사코드(pseudocode) 순서도에서 성능 저하가 큼을 발견. 또한, 지도 미세조정(Supervised Fine-Tuning)이 모델 성능 향상에 크게 기여함을 확인함.
  • 기여점: 순서도 기반 코드 생성이라는 새로운 연구 방향을 제시. 해당 작업을 위한 포괄적인 벤치마크(Flow2Code)를 공개하고, 현재 MLLM의 한계를 명확히 식별하며, 성능 향상을 위한 미세조정의 효과를 입증함.

Small Language Models are the Future of Agentic AI

· 8 min read
Peter Belcak
NVIDIA 연구원
Greg Heinrich
Saurav Muralidharan
Shizhe Diao

논문 정보

  • 제목: Small Language Models are the Future of Agentic AI
  • 저자: Peter Belcak, Greg Heinrich, Saurav Muralidharan, Shizhe Diao, Yonggan Fu, Xin Dong, Yingyan Celine Lin, Pavlo Molchanov (Georgia Institute of Technology, NVIDIA Research)
  • 학회/저널: arXiv preprint
  • 발행일: 2025-06-02
  • DOI: 제공되지 않음
  • 주요 연구 내용: 에이전트 AI 시스템의 대부분 작업이 반복적이고 범위가 한정되어 있어, 범용 LLM보다는 특정 작업에 특화된 SLM이 더 적합하다고 주장함. SLM이 충분한 성능을 갖추고 있으며(V1), 운영상 더 적합하고(V2), 경제적으로 필연적인 선택(V3)임을 다양한 근거를 통해 설명함.
  • 주요 결과 및 결론: 최신 SLM들은 이미 LLM에 필적하는 성능을 보이며 추론 비용, 미세조정, 엣지 배포 등에서 상당한 이점을 가짐. 따라서 에이전트 시스템은 SLM을 기본으로 사용하고 필요할 때만 LLM을 호출하는 이기종(heterogeneous) 시스템으로 발전해야 하며, 이를 위한 LLM-to-SLM 변환 알고리즘을 제안함.
  • 기여점: 에이전트 AI 분야에서 LLM 중심 패러다임에 대한 비판적 관점을 제시하고, SLM의 효용성과 경제성을 강조하여 지속 가능하고 책임감 있는 AI 배포의 필요성에 대한 논의를 촉발함. 또한, 기존 LLM 기반 에이전트를 SLM 기반으로 전환할 수 있는 구체적인 알고리즘을 제공함.

Beyond the Hype: A Comprehensive Review of Current Trends in Generative Al Research, Teaching Practices, and Tools

· 6 min read
James Prather
Abilene Christian University 교수
Juho Leinonen
Natalie Kiesler
Jamie Gorson Benario

논문 정보

  • 제목: Beyond the Hype: A Comprehensive Review of Current Trends in Generative Al Research, Teaching Practices, and Tools
  • 저자: James Prather (Abilene Christian University), Juho Leinonen (Aalto University), Natalie Kiesler (Nuremberg Tech), 외 다수
  • 학회/저널: 2024 Working Group Reports on Innovation and Technology in Computer Science Education (ITICSE-WGR 2024)
  • 발행일: 2024-07-08
  • DOI: 10.1145/3689187.3709614
  • 주요 연구 내용: 컴퓨팅 교육 분야에서 생성형 AI(GenAI)의 현재 동향을 파악하기 위해 세 가지 접근법을 사용함. 첫째, 71편의 관련 연구에 대한 체계적 문헌 고찰(SLR)을 수행함. 둘째, 교육자(N=76)와 산업계 개발자(N=39)를 대상으로 설문조사를 실시함. 마지막으로 GenAI 도구 개발자, 연구자, 사용자 등 17명의 교육자와 심층 인터뷰를 진행하여 데이터를 삼각 측량 방식으로 분석함.
  • 주요 결과 및 결론: 문헌 고찰 결과, 교육적 가드레일이 포함된 맞춤형 GenAI 도구를 사용할 때 긍정적인 결과가 더 많이 나타남. 설문 및 인터뷰 결과, 대다수 교육자(77%)는 GenAI로 인해 필요한 프로그래밍 역량이 변화했다고 인식하지만, 실제 교육과정을 수정한 비율은 36%에 그침. 역량의 중심이 코드 작성에서 코드 읽기, 테스트, 문제 분해 등 고차원적 기술로 이동하고 있으며, 평가 방식도 감독 있는 시험이나 구술시험으로 바뀌는 추세임.
  • 기여점: 본 연구는 문헌, 교육자, 산업계 개발자의 관점을 통합하여 컴퓨팅 교육에서 GenAI의 현주소를 포괄적으로 제시함. GenAI 통합의 실제 동향, 교육 방식의 변화, 역량 요구사항의 전환, 그리고 형평성 문제와 같은 주요 과제를 명확히 규명하고, 교육자들이 GenAI를 효과적으로 도입하기 위한 구체적인 권장 사항을 제공함.

Large Language Models for Test-Free Fault Localization

· 5 min read
Aidan Z.H. Yang
Ruben Martins
Claire Le Goues
Vincent J. Hellendoorn

논문 정보

  • 제목: Large Language Models for Test-Free Fault Localization
  • 저자: Aidan Z.H. Yang, Ruben Martins, Claire Le Goues, Vincent J. Hellendoorn (Carnegie Mellon University)
  • 학회/저널: 2024 IEEE/ACM 46th International Conference on Software Engineering (ICSE '24)
  • 발행일: 2024-04-14
  • DOI: https://doi.org/10.1145/3597503.3623342
  • 주요 연구 내용: 기존 결함 위치 탐지(Fault Localization) 기술들이 테스트 커버리지에 의존하는 한계를 극복하기 위해, 대규모 언어 모델(LLM)과 양방향 어댑터(Bidirectional Adapter)를 결합한 테스트 프리(Test-Free) 방식인 LLMAO를 제안한다.
  • 주요 결과 및 결론: Defects4J 벤치마크에서 기존의 최신 머신러닝 기반 결함 탐지(MLFL) 기술들보다 Top-1 정확도는 2.3%~54.4%, Top-5 정확도는 14.4%~35.6% 향상된 성능을 보였으며, 모델 크기가 커질수록 성능이 비례하여 증가함을 확인했다.
  • 기여점: 테스트 케이스 없이 소스 코드의 자연어적 특성만을 학습하여 결함을 탐지하는 최초의 LLM 기반 접근법을 제시했으며, 기능적 버그뿐만 아니라 보안 취약점 탐지까지 일반화 가능함을 입증했다.

Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges

· 4 min read
Md. Eusha Kadir
Tasnim Rahman
Sourav Barman
Md. Al-Amin

논문 정보

  • 제목: Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges
  • 저자: Md. Eusha Kadir, Tasnim Rahman, Sourav Barman, Md. Al-Amin (Institute of Information Technology, Noakhali Science and Technology University, Noakhali, Bangladesh)
  • 학회/저널: International Journal of Advanced Trends in Computer Science and Engineering
  • 발행일: 2024-02-06
  • DOI: 10.30534/ijatcse/2024/031312024
  • 주요 연구 내용: 본 연구는 300개의 경쟁적 프로그래밍 문제를 'Easy', 'Medium', 'Hard' 세 가지 난이도로 나누어 ChatGPT의 문제 해결 능력을 평가함. LeetCode 플랫폼의 문제들을 활용했으며, 프롬프트 엔지니어링을 적용하여 생성된 코드의 정확성을 온라인 저지 시스템을 통해 측정함.
  • 주요 결과 및 결론: ChatGPT는 전체 문제에 대해 66.00%의 정답률(acceptance rate)을 기록하여, 평균적인 인간 사용자의 52.95%를 상회하는 성능을 보임. 난이도별 정답률은 Easy 89.00%, Medium 68.00%, Hard 41.00%로, 문제의 복잡도가 증가할수록 성능이 저하되는 경향을 보임.
  • 기여점: ChatGPT의 경쟁적 프로그래밍 문제 해결 능력을 인간과 비교하여 체계적으로 평가한 초기 연구 중 하나임. 효과적인 코드 생성을 위한 프롬프트 엔지니어링의 중요성을 입증하고, 복잡한 문제 해결에서 나타나는 AI의 한계점을 명확히 제시함.

From image to UML: First results of image-based UML diagram generation using LLMs

· 5 min read
Aaron Conrardy
Jordi Cabot

논문 정보

  • 제목: From image to UML: First results of image-based UML diagram generation using LLMs
  • 저자: Aaron Conrardy (Luxembourg Institute of Science and Technology), Jordi Cabot (Luxembourg Institute of Science and Technology, University of Luxembourg)
  • 학회/저널: First Large Language Models for Model-Driven Engineering Workshop (LLM4MDE 2024)
  • 발행일: 2024
  • DOI: (제공되지 않음)
  • 주요 연구 내용: 본 연구는 GPT-4V, Gemini (Pro/Ultra), CogVLM과 같은 최신 시각적 LLM을 사용하여, 손으로 그린 UML 클래스 다이어그램 이미지를 PlantUML 텍스트 코드로 변환하는 성능을 평가함. 다이어그램의 복잡도, 의미적 정확성, 프롬프트의 상세 수준을 변수로 설정하여 실험을 수행함.
  • 주요 결과 및 결론: GPT-4V가 PlantUML 구문 오류 없이 가장 정확하고 일관된 변환 결과를 보여주었음. 반면, 다른 모델들은 구문 오류가 잦거나(Gemini, CogVLM), 의미적으로 무의미한 다이어그램의 변환을 거부하는 경향을 보임.
  • 기여점: LLM을 활용한 이미지 기반 UML 다이어그램 생성 가능성을 최초로 실증적으로 평가함. 소프트웨어 엔지니어링 초기 설계 단계에서 발생하는 수동 모델링 작업을 자동화하여 '로우-모델링(low-modeling)'을 지원할 수 있음을 시사하며, 현재 기술 수준에서는 '인간-참여형(human-in-the-loop)' 접근이 필수적임을 강조함.

Robot Behavior-Tree-Based Task Generation with Large Language Models

· 5 min read
Yue Cao
C.S. George Lee

논문 정보

  • 제목: Robot Behavior-Tree-Based Task Generation with Large Language Models
  • 저자: Yue Cao, C.S. George Lee (Purdue University)
  • 학회/저널: arXiv (Preprint), AAAI-MAKE 2023 Proceedings
  • 발행일: 2023-02-24
  • DOI: -
  • 주요 연구 내용: 사전 학습된 대규모 언어 모델(LLM)을 활용하여 로봇 작업을 위한 행동 트리(Behavior Tree)를 생성하는 방법을 제안한다. 3계층 구조 생성을 위한 'Phase-Step 프롬프트'와 지식 기반(Knowledge Base)에서 유사한 작업을 검색하여 프롬프트를 구성하는 자동화 파이프라인을 제시한다.
  • 주요 결과 및 결론: 제안된 방법은 GPT-3 및 ChatGPT를 통해 다양한 도메인의 작업(예: 컴퓨터 조립)을 생성하는 데 성공했다. 특히 Phase-Step 프롬프트를 사용했을 때 단순 프롬프트 대비 행동 트리의 구조적 모듈성을 훨씬 잘 유지함을 확인했다.
  • 기여점: LLM을 행동 트리 생성에 적용한 최초의 시도로, 고정된 기본 작업(primitive tasks) 집합에 얽매이지 않고 새로운 도메인의 로봇 작업을 생성할 수 있는 일반화된 방법을 제시했다.

요약

초록

행동 트리(Behavior Tree)는 모듈성과 재사용성 덕분에 로봇 작업 표현 방식으로 인기를 얻고 있다. 그러나 수동으로 행동 트리를 설계하는 것은 시간이 많이 소요되며, 기존의 자동 생성 방식은 고정된 기본 작업(primitive tasks)에 의존하여 새로운 도메인으로의 확장이 어렵다. 본 논문은 최신 대규모 언어 모델(LLM)을 활용한 새로운 행동 트리 기반 작업 생성 접근 방식을 제안한다. 계층적 구조 생성을 가능하게 하는 'Phase-Step 프롬프트'를 설계하고, 행동 트리 임베딩 기반 검색을 통합하여 적절한 프롬프트를 자동으로 설정한다. 이를 통해 사전 정의된 기본 작업 집합 없이도 추상적인 작업 설명만으로 행동 트리를 신속하게 생성할 수 있음을 보여준다.

서론

행동 트리는 로봇 작업을 제어 흐름 노드(control-flow nodes)를 사용하여 조정하는 그래픽 표현 방식으로, 상태 머신(state machine) 등에 비해 모듈성과 가독성이 뛰어나다. 기존 연구들은 LTL 사양이나 PDDL 플래너를 통해 행동 트리를 생성하려 했으나, 이는 사전에 정의된 도메인 내의 작업 라이브러리에 의존한다는 한계가 있었다. 본 연구는 GPT-3와 같은 LLM의 강력한 일반화 능력을 활용하여 이러한 한계를 극복하고자 한다. 로봇 작업 생성 문제를 프롬프트 기반 학습 패러다임으로 재정의하고, 순차적 작업(sequential tasks) 생성을 넘어 모듈화된 행동 트리 구조를 생성하는 것을 목표로 한다.

배경

행동 트리는 Directed Rooted Tree 형태로 정의되며, 실행을 담당하는 리프 노드(Action, Condition)와 제어 흐름을 담당하는 브랜치 노드(Sequence, Fallback 등)로 구성된다. LLM 분야에서는 소수 샷(few-shot) 학습 능력을 활용한 '프롬프트 기반 학습'이 대두되었다. 본 연구는 입력 텍스트를 템플릿화하여 LLM이 기존 지식을 바탕으로 원하는 구조의 출력을 생성하도록 유도한다.

모델 아키텍처 / 방법론

Figure 3 1. Phase-Step 프롬프트 (Phase-Step Prompt) 3계층 행동 트리(Root → Phase → Step)를 생성하기 위한 프롬프트 설계다. Figure 3에서 보여지는 구조를 텍스트 형태로 변환하여 입력한다. 'Source Task'에 예시 작업 절차를 Phase와 Step으로 구분하여 제공하고, 'Target Task'에 원하는 작업 설명을 입력하여 LLM이 동일한 구조로 출력을 생성하도록 유도한다.

2. 행동 트리 구성 (Behavior-Tree Construction) 생성된 3계층 구조의 하위 작업(sub-task)들이 로봇이 수행 가능한 기본 동작(primitive)인지 확인하고 확장하는 과정이다.

  • 동사 유사도 측정: 로봇의 기본 동사 목록 LL과 하위 작업의 동사 vv 간의 유사도를 측정한다. 이를 위해 언어 임베딩 모델 Enc1()Enc_1()을 사용하여 다음과 같은 각도-코사인 유사도(angular-cosine similarity)를 계산한다. Sim(v,Li)=12arccos(Enc1(v)Enc1(Li)Enc1(v)Enc1(Li))πSim(v, L_i) = 1 - \frac{2 \arccos(\frac{Enc_1(v) \cdot Enc_1(L_i)}{\|Enc_1(v)\| \|Enc_1(L_i)\|})}{\pi} 유사도가 임계값 미만일 경우, 해당 하위 작업을 다시 LLM에 입력하여 더 세분화된 트리로 확장(Decomposition)한다.
  • 예외 처리: "안정성을 위해(for stability)"와 같은 추가 사양이 있는 경우, Fallback 노드와 Condition 노드를 삽입하여 구조를 보강한다. Figure 4 3. 자동 소스 작업 선택 (Automatic Source-Task Selection) 프롬프트에 사용할 가장 적절한 'Source Task'를 지식 기반(Knowledge Base)에서 자동으로 검색한다.
  • 행동 트리 임베딩: 타겟 작업 설명(vtargetv_{target})과 지식 기반 내의 행동 트리들(uiu_i) 간의 유사도를 계산하여 가장 유사한 트리를 템플릿으로 선택한다. Sim(target,BTi)=vtargetuivtargetuiSim(target, BT_i) = \frac{v_{target} \cdot u_i}{\|v_{target}\| \|u_i\|}
  • 전체 파이프라인은 논문의 Figure 4에 도식화되어 있으며, 타겟 설명 → 유사 소스 검색 → 프롬프트 구성 → LLM 생성 → 행동 트리 완성의 흐름을 따른다.

실험 결과

1. 실험 설정 GPT-3 (text-davinci-003)와 ChatGPT를 사용하여 실험을 진행했다. 자동차 휠 조립 작업을 소스 작업으로 사용하여 "데스크탑 조립"이라는 타겟 작업을 생성하는 과정을 시연했다. Figure 5 2. 전체 프로세스 시연

  • Table 3와 Figure 5에 따르면, GPT-3는 4개 페이즈 11개 스텝의 구조적인 작업을 생성했으며, ChatGPT는 3개 페이즈 8개 스텝을 생성했다.
  • 동사 유사도 검사 결과, ChatGPT가 생성한 "install" 동사는 로봇의 기본 동작이 아니라고 판단되어, 이를 다시 1개의 페이즈로 분해하는 과정(Table 4)을 거쳐 구체적인 동작(pick, place 등)으로 변환했다.

3. 절제 연구 (Ablation Study) Phase-Step 프롬프트의 효과를 검증하기 위해 구조화되지 않은 일반 프롬프트(PS-none)와 비교했다.

  • 구조 비율(Structure Ratio, R): 트리의 균형을 측정하기 위해 R=Nmin/NmaxR = N_{min}/N_{max} (두 번째 레이어의 최소 자식 노드 수 / 최대 자식 노드 수)라는 지표를 정의했다.
  • 결과: Table 6에 따르면, PS-none 프롬프트는 RR 값이 0에 가까워 순차적(sequential) 작업에 가까웠으나, Phase-Step 프롬프트는 RR 값이 0.6 이상으로 소스 작업의 트리 구조를 잘 보존했다.

4. 조립 작업 평가 부품 결합(part-mating) 작업의 수를 지표(NmateN_{mate})로 사용하여 평가했다. 더 상세한 소스 프롬프트(PS-desktop)를 사용했을 때 생성된 결과물에도 더 많은 결합 작업이 포함되어, 프롬프트의 상세도가 생성된 작업의 품질에 영향을 미침을 확인했다.

결론

본 연구는 생성형 AI 기술을 로봇 공학의 행동 트리 설계에 접목하여, 엔드 유저의 작업 설계 부담을 줄이고 도메인 간 작업 전이를 가능하게 했다. 생성된 작업이 합리적이고 실행 가능해 보이지만, 복잡한 공장 환경이나 엄격한 안전 규정을 작업 생성 과정에 어떻게 통합할지는 향후 과제로 남아있다. 또한, LLM이 학습 데이터에 없는 매우 희귀한 작업(예: 빈스 롬바르디 트로피 제작)이나 특정 로봇 하드웨어(Atlas 로봇)의 세부 사항을 처리하는 데에는 한계가 있음을 확인했다.