본문으로 건너뛰기

PAPER2CODE: AUTOMATING CODE GENERATION FROM SCIENTIFIC PAPERS IN MACHINE LEARNING

· 약 6분
Minju Seo
KAIST
Jinheon Baek
KAIST
Seongyun Lee
KAIST
Sung Ju Hwang
KAIST, DeepAuto.ai

논문 정보

  • 제목: PAPER2CODE: AUTOMATING CODE GENERATION FROM SCIENTIFIC PAPERS IN MACHINE LEARNING
  • 저자: Minju Seo (KAIST), Jinheon Baek (KAIST), Seongyun Lee (KAIST), Sung Ju Hwang (KAIST, DeepAuto.ai)
  • 학회/저널: arXiv (v4)
  • 발행일: 2025-10-10
  • DOI: (N/A)
  • 주요 연구 내용: 기계 학습(ML) 논문만 입력받아 완전한 코드 리포지토리를 생성하는 멀티 에이전트 LLM 프레임워크 'PaperCoder'를 제안함. PaperCoder는 1) Planning (계획), 2) Analysis (분석), 3) Generation (생성)의 3단계로 작업을 분해하여 인간 개발자의 워크플로우를 모방함.
  • 주요 결과 및 결론: PaperCoder는 자체 구축한 Paper2CodeBench 및 공개된 PaperBench 벤치마크에서 ChatDev, MetaGPT 등 기존 코드 생성 방식들을 큰 차이로 능가함. 생성된 코드는 원본 논문 저자의 평가에서도 88%가 최고로 선택되었으며, 92%가 재현에 도움이 된다고 응답함.
  • 기여점: ML 논문에서 코드 자동 생성을 위한 체계적인 3단계(계획-분석-생성) 멀티 에이전트 방법론을 제시함. 생성된 코드는 평균 0.81%의 코드 라인만 수정하면 실행 가능한 '거의 실행 가능한(near-executable)' 수준의 높은 품질을 달성하여 ML 연구의 재현성 위기를 해결하는 데 기여함.

Deep learning-driven IoT solution for smart tomato farming

· 약 5분
Akshit Saxena
Aayushi Agarwal
Bhavya Nagrath
Carmel Sanjana Jayavanth
Shamita Thulasidoss
S. Maheswari
P. Sasikumar

논문 정보

  • 제목: Deep learning-driven IoT solution for smart tomato farming
  • 저자: Akshit Saxena, Aayushi Agarwal, Bhavya Nagrath, Carmel Sanjana Jayavanth, Shamita Thulasidoss, S. Maheswari, P. Sasikumar (Vellore Institute of Technology)
  • 학회/저널: Scientific Reports
  • 발행일: 2025-08-24
  • DOI: 10.1038/s41598-025-15615-3
  • 주요 연구 내용: ESP32 기반 무선 센서 네트워크(토양 수분, 온도, 습도)를 사용하여 온실 환경 데이터를 실시간으로 수집하고, 라즈베리 파이와 YOLOv8 딥러닝 모델을 이용해 토마토의 숙성 단계를 이미지 기반으로 자동 분류하는 IoT 스마트 농업 플랫폼을 제안함.
  • 주요 결과 및 결론: 제안된 시스템은 실시간 모니터링 기능을 성공적으로 시연했으며, 양자화 및 가지치기 등 최적화된 YOLOv8 모델은 52.8%의 분류 정확도를 유지하면서 추론 속도를 35% 향상시켰음. 에너지 소비량 분석 결과, ESP32 센서는 일일 8.91Wh, 라즈베리 파이는 78Wh를 소모하는 것으로 나타남.
  • 기여점: 실제 온실 환경에서 수집한 이미지를 활용하여 IoT와 딥러닝을 통합한 실용적인 토마토 농업 모니터링 프로토타입을 구현함. 또한, 시스템 구성 요소의 상세한 에너지 소비 프로파일링을 제공하여 향후 엣지 AI 기반의 확장 가능한 시스템 설계에 기여함.

A Survey on Web Testing: On the Rise of AI and Applications in Industry

· 약 5분
Iva Kertusha
University of Oslo 연구원
Gebremariam Assres
Onur Duman
Andrea Arcuri

논문 정보

  • 제목: A Survey on Web Testing: On the Rise of AI and Applications in Industry
  • 저자: Iva Kertusha (Kristiania University of Applied Sciences), Gebremariam Assres (Kristiania University of Applied Sciences), Onur Duman (Glasgow Caledonian University), Andrea Arcuri (Kristiania University of Applied Sciences)
  • 학회/저널: Journal of Systems and Software (제출)
  • 발행일: 2025-08-12 (arXiv v2 기준)
  • DOI: 제공되지 않음
  • 주요 연구 내용: 2014년부터 2025년까지 발표된 웹 테스팅 관련 연구 논문 259편을 체계적으로 분석함. 14개의 연구 질문을 통해 웹 테스팅 분야의 주요 동향, 인구 통계, 기여, 도구, 과제 및 혁신을 식별하며, 특히 인공지능(AI) 기술의 부상과 산업계와의 협력 수준에 중점을 둠.
  • 주요 결과 및 결론: 웹 테스팅 연구는 지난 10년간 매우 활발했으며, ICST가 주요 학회로 나타남. 연구 대다수는 블랙박스 테스팅 자동화 기술에 초점을 맞추고 있으며, Selenium이 가장 널리 사용되는 도구임. 산업 시스템을 활용하는 긍정적인 추세가 관찰되지만, 많은 도구가 오픈소스로 제공되지 않고 있으며 인간 대상 연구는 상대적으로 제한적임.
  • 기여점: 기존 서베이 논문들보다 더 광범위한 259개의 논문을 분석하여 지난 10년간의 웹 테스팅 연구에 대한 심층적인 개요를 제공함. 특히 AI 기술의 역할과 산업 적용 현황을 상세히 분석하여 현재 연구의 강점과 약점, 그리고 미래 연구 방향에 대한 통찰을 제시함.

A machine learning-integrated framework for mechanical property prediction of FDM-printed PLA

· 약 5분
Yassmin Seid Ahmed
Hany Hassanin
Aamer Nazir
Sikandar Khan

논문 정보

  • 제목: A machine learning-integrated framework for mechanical property prediction of FDM-printed PLA
  • 저자: Yassmin Seid Ahmed (King Fahd University of Petroleum & Minerals), Hany Hassanin (University of Birmingham), Aamer Nazir (King Fahd University of Petroleum & Minerals), Sikandar Khan (King Fahd University of Petroleum & Minerals)
  • 학회/저널: The International Journal of Advanced Manufacturing Technology
  • 발행일: 2025-08-08
  • DOI: 10.1007/s00170-025-16232-0
  • 주요 연구 내용: FDM(Fused Deposition Modeling)으로 제작된 PLA 부품의 극한 인장 강도(UTS)를 예측하기 위해 기계 학습(ML), 실험적 검증, 유한 요소 해석(FEA)을 통합한 프레임워크를 제안한다. 14개의 기존 연구에서 422개 샘플 데이터를 수집하여 10개의 ML 알고리즘을 평가하고, 예측 성능 향상을 위해 앙상블 모델을 개발했다.
  • 주요 결과 및 결론: 개별 ML 모델 중에서는 TabNet이 가장 높은 예측 정확도를 보였으며, 여러 모델을 결합한 앙상블 전략은 결정 계수(R2R^2) 99.09%라는 월등한 성능을 달성했다. 309개의 외부 독립 샘플을 통한 검증에서 10% 미만의 예측 오차를 보여 모델의 일반화 능력을 확인했으며, 래스터 각도와 내부 채움 밀도가 인장 강도에 가장 큰 영향을 미치는 공정 변수임을 밝혔다.
  • 기여점: 대규모 데이터셋(422개 샘플)과 10개의 다양한 ML 알고리즘, 앙상블 모델링을 적용하고, 외부 데이터셋, 실제 인장 실험, 물리 기반 FEA 시뮬레이션을 포함하는 다단계 검증 체계를 통해 기존 연구들의 한계를 극복했다. 이를 통해 적층 제조 부품의 기계적 물성을 예측하는 검증되고 확장 가능한 통합 솔루션을 제공한다.

Comparative Analysis of Explainable AI Methods for Manufacturing Defect Prediction: A Mathematical Perspective

· 약 5분
Gabriel Marín Díaz

논문 정보

  • 제목: Comparative Analysis of Explainable AI Methods for Manufacturing Defect Prediction: A Mathematical Perspective
  • 저자: Gabriel Marín Díaz (Faculty of Statistics, Complutense University & Science and Aerospace Department, Universidad Europea de Madrid)
  • 학회/저널: Mathematics
  • 발행일: 2025-07-29
  • DOI: 10.3390/math13152436
  • 주요 연구 내용: 기계 학습(XGBoost), 비지도 클러스터링(Fuzzy C-Means, K-means), 설명가능 AI(XAI)를 통합하여 제조 공정의 결함을 예측하고 분석하는 통합 프레임워크를 제안함. 지도 학습 모델로 결함 발생 가능성이 높은 시나리오를 분류하고, 비지도 학습으로 생산 데이터를 잠재적 운영 프로파일로 군집화하여 각 접근법을 XAI로 해석함.
  • 주요 결과 및 결론: XGBoost 모델은 95.37%의 높은 정확도로 결함을 예측했으며, SHAP, LIME 등의 XAI 기법은 'MaintenanceHours', 'DefectRate', 'QualityScore'를 핵심 영향 변수로 일관되게 식별함. K-means 클러스터링은 '고효율/고품질', '고위험/자원집약적', '균형/지속가능'의 세 가지 의미 있는 운영 프로파일을 성공적으로 분리했으나, Fuzzy C-Means는 명확한 군집 분리에 한계를 보임.
  • 기여점: 지도 학습, 비지도 클러스터링, XAI를 제조 결함 분석을 위한 단일 프레임워크로 통합한 최초의 연구임. 예측 모델링과 구조적 데이터 분석 모두에 XAI를 적용하여, 제조 공정의 동적 관계에 대한 투명하고 데이터 기반의 이해를 가능하게 하는 이중 해석 가능성 접근법을 제시함.

A Study on the Capability of Generative AI to Understand and Utilize Test Cases

· 약 4분
김정인
경북대학교 컴퓨터학부 석사과정생
이우진
경북대학교 컴퓨터학부 전임교수

논문 정보

  • 제목: A Study on the Capability of Generative AI to Understand and Utilize Test Cases
  • 저자: 김정인, 이우진 (경북대학교 컴퓨터학부)
  • 학회/저널: KCC 2025
  • 발행일: 2025-06-20
  • DOI: N/A
  • 주요 연구 내용: 최신 LLM인 GPT-4.1을 대상으로 경쟁 프로그래밍(CP) 문제 해결 시, 제로샷 프롬프팅 환경에서 테스트케이스(TC) 정보를 제공하는 것이 코드 생성 정확도에 미치는 영향을 분석함. 문제 정의만 제공한 경우, 문제 정의와 TC를 함께 제공한 경우, 입출력 정보와 TC만 제공한 경우로 나누어 실험을 설계하고 결과를 비교함.
  • 주요 결과 및 결론: TC 정보 추가가 전반적인 코드 생성 정확도 향상으로 이어지지 않았으며, 특히 문제 난이도가 높을수록 성능이 저하되는 경향을 보였음. 또한, GPT-4.1은 TC를 생성하고 검증하는 능력에도 명확한 한계를 보였음.
  • 기여점: LLM의 코드 생성 과정에서 TC 정보가 항상 긍정적인 영향을 미치는 것은 아니라는 점을 실험적으로 밝힘. 이는 LLM이 개발자처럼 TC를 통해 문제의 요구사항이나 잠재적 오류를 추론하는 단계에 이르지 못했음을 시사하며, LLM 활용 시 TC 포함 전략에 신중한 접근이 필요함을 제기함.

OPENFACE 3.0: A Lightweight Multitask System for Comprehensive Facial Behavior Analysis

· 약 6분
Jiewen Hu
Carnegie Mellon University
Leena Mathur
Carnegie Mellon University
Paul Pu Liang
Massachusetts Institute of Technology
Louis-Philippe Morency
Carnegie Mellon University

논문 정보

  • 제목: OPENFACE 3.0: A Lightweight Multitask System for Comprehensive Facial Behavior Analysis
  • 저자: Jiewen Hu (Carnegie Mellon University), Leena Mathur (Carnegie Mellon University), Paul Pu Liang (Massachusetts Institute of Technology), Louis-Philippe Morency (Carnegie Mellon University)
  • 학회/저널: arXiv (v1)
  • 발행일: 2025-06-03
  • DOI: N/A (arXiv submission)
  • 주요 연구 내용: 본 논문은 네 가지 핵심 안면 분석 작업(랜드마크 감지, 표정 단위(AU) 감지, 시선 추정, 감정 인식)을 동시에 수행하는 경량화된 통합 모델 OpenFace 3.0을 제안함. 다중 작업 학습(Multi-Task Learning, MTL) 아키텍처를 사용하여 파라미터를 공유함으로써 효율성을 극대화함.
  • 주요 결과 및 결론: OpenFace 3.0은 이전 버전(OpenFace 2.0) 및 타 툴킷 대비 예측 성능, 추론 속도, 메모리 효율성에서 상당한 개선을 보임. 특히 다중 작업 학습을 통해 정면이 아닌 각도의 얼굴(angled faces) 인식 성능이 SOTA 모델을 능가하는 강력한 일반화 성능을 입증함.
  • 기여점: 단일 모델로 4가지 안면 분석 작업을 실시간으로 처리할 수 있는 고성능 오픈소스 툴킷을 제공. 또한, 서로 다른 작업(예: 시선 추정 데이터)의 특징 공유가 다른 작업(예: 감정 인식)의 성능, 특히 비정면 얼굴에서의 성능을 향상시킬 수 있음을 보임.

Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability

· 약 5분
Mengliang He
Jiayi Zeng
Yankai Jiang
Wei Zhang
Zeming Liu
Xiaoming Shi
Aimin Zhou

논문 정보

  • 제목: Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability
  • 저자: Mengliang He (East China Normal University), Jiayi Zeng (East China Normal University), Yankai Jiang (Shanghai AI Lab), Wei Zhang (East China Normal University), Zeming Liu (Beihang University), Xiaoming Shi (East China Normal University), Aimin Zhou (East China Normal University)
  • 학회/저널: arXiv (v1)
  • 발행일: 2025-06-02
  • DOI: (arXiv:2506.02073)
  • 주요 연구 내용: 기존 LLM 코드 생성 벤치마크가 순서도(flowchart)를 간과하고 있다는 문제를 지적. 15개 프로그래밍 언어, 3가지 순서도 유형(코드, UML, 의사코드)에 걸친 총 16,866개의 순서도를 포함하는 'Flow2Code'라는 새로운 벤치마크 데이터셋을 구축.
  • 주요 결과 및 결론: 13개의 최신 멀티모달 LLM(MLLM)을 평가한 결과, 현재 모델들이 순서도를 완벽하게 코드로 변환하지 못하며, 특히 의사코드(pseudocode) 순서도에서 성능 저하가 큼을 발견. 또한, 지도 미세조정(Supervised Fine-Tuning)이 모델 성능 향상에 크게 기여함을 확인함.
  • 기여점: 순서도 기반 코드 생성이라는 새로운 연구 방향을 제시. 해당 작업을 위한 포괄적인 벤치마크(Flow2Code)를 공개하고, 현재 MLLM의 한계를 명확히 식별하며, 성능 향상을 위한 미세조정의 효과를 입증함.

Small Language Models are the Future of Agentic AI

· 약 8분
Peter Belcak
NVIDIA 연구원
Greg Heinrich
Saurav Muralidharan
Shizhe Diao

논문 정보

  • 제목: Small Language Models are the Future of Agentic AI
  • 저자: Peter Belcak, Greg Heinrich, Saurav Muralidharan, Shizhe Diao, Yonggan Fu, Xin Dong, Yingyan Celine Lin, Pavlo Molchanov (Georgia Institute of Technology, NVIDIA Research)
  • 학회/저널: arXiv preprint
  • 발행일: 2025-06-02
  • DOI: 제공되지 않음
  • 주요 연구 내용: 에이전트 AI 시스템의 대부분 작업이 반복적이고 범위가 한정되어 있어, 범용 LLM보다는 특정 작업에 특화된 SLM이 더 적합하다고 주장함. SLM이 충분한 성능을 갖추고 있으며(V1), 운영상 더 적합하고(V2), 경제적으로 필연적인 선택(V3)임을 다양한 근거를 통해 설명함.
  • 주요 결과 및 결론: 최신 SLM들은 이미 LLM에 필적하는 성능을 보이며 추론 비용, 미세조정, 엣지 배포 등에서 상당한 이점을 가짐. 따라서 에이전트 시스템은 SLM을 기본으로 사용하고 필요할 때만 LLM을 호출하는 이기종(heterogeneous) 시스템으로 발전해야 하며, 이를 위한 LLM-to-SLM 변환 알고리즘을 제안함.
  • 기여점: 에이전트 AI 분야에서 LLM 중심 패러다임에 대한 비판적 관점을 제시하고, SLM의 효용성과 경제성을 강조하여 지속 가능하고 책임감 있는 AI 배포의 필요성에 대한 논의를 촉발함. 또한, 기존 LLM 기반 에이전트를 SLM 기반으로 전환할 수 있는 구체적인 알고리즘을 제공함.

Al Adoption for Collaboration: Factors Influencing Inclusive Learning Adoption in Higher Education

· 약 5분
IBRAHIM YOUSSEF ALYOUSSEF
AMR MOHAMMED DRWISH
FATIMAH ADEL ALBAKHEET
RAFDAN ALHAJHOJ

논문 정보

  • 제목: Al Adoption for Collaboration: Factors Influencing Inclusive Learning Adoption in Higher Education
  • 저자: IBRAHIM YOUSSEF ALYOUSSEFD 외 4명 (King Faisal University)
  • 학회/저널: IEEE Access
  • 발행일: 2025-05-07
  • DOI: 10.1109/ACCESS.2025.3567656
  • 주요 연구 내용: 기술 수용 모델(TAM)을 확장하여 '인식된 AI 출력 품질', '신뢰', '친숙도', '교육 서비스 품질', '참여 효능감' 등의 변수가 AI 기술 수용에 미치는 영향을 탐구함. 사우디아라비아의 King Faisal University 학생 443명을 대상으로 설문조사를 실시하고, 구조 방정식 모델링(SEM)을 통해 가설을 검증함.
  • 주요 결과 및 결론: '인식된 사용 용이성'과 '인식된 유용성'이 '행동 의도'에, 그리고 '행동 의도'가 실제 'AI 채택'에 긍정적인 영향을 미치는 것을 확인함. 특히 '참여 효능감'이 사용 용이성과 유용성 인식에 큰 영향을 주었으나, 'AI 출력 품질'은 '유용성'에 유의미한 영향을 미치지 않음.
  • 기여점: 고등 교육의 포용적, 협력적 학습 환경에서 AI 채택에 영향을 미치는 요인들을 실증적으로 분석함. 개발도상국 상황에서의 데이터를 제공하고, AI 기술의 효과적인 통합을 위한 실질적인 교육 전략을 제안하여 기존 TAM 연구를 확장함.