Skip to main content

One post tagged with "Benchmark"

벤치마크 - 모델이나 시스템의 성능을 평가하기 위한 표준 테스트 데이터셋 또는 기준

View All Tags

Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability

· 5 min read
Mengliang He
Jiayi Zeng
Yankai Jiang
Wei Zhang
Zeming Liu
Xiaoming Shi
Aimin Zhou

논문 정보

  • 제목: Flow2Code: Evaluating Large Language Models for Flowchart-based Code Generation Capability
  • 저자: Mengliang He (East China Normal University), Jiayi Zeng (East China Normal University), Yankai Jiang (Shanghai AI Lab), Wei Zhang (East China Normal University), Zeming Liu (Beihang University), Xiaoming Shi (East China Normal University), Aimin Zhou (East China Normal University)
  • 학회/저널: arXiv (v1)
  • 발행일: 2025-06-02
  • DOI: (arXiv:2506.02073)
  • 주요 연구 내용: 기존 LLM 코드 생성 벤치마크가 순서도(flowchart)를 간과하고 있다는 문제를 지적. 15개 프로그래밍 언어, 3가지 순서도 유형(코드, UML, 의사코드)에 걸친 총 16,866개의 순서도를 포함하는 'Flow2Code'라는 새로운 벤치마크 데이터셋을 구축.
  • 주요 결과 및 결론: 13개의 최신 멀티모달 LLM(MLLM)을 평가한 결과, 현재 모델들이 순서도를 완벽하게 코드로 변환하지 못하며, 특히 의사코드(pseudocode) 순서도에서 성능 저하가 큼을 발견. 또한, 지도 미세조정(Supervised Fine-Tuning)이 모델 성능 향상에 크게 기여함을 확인함.
  • 기여점: 순서도 기반 코드 생성이라는 새로운 연구 방향을 제시. 해당 작업을 위한 포괄적인 벤치마크(Flow2Code)를 공개하고, 현재 MLLM의 한계를 명확히 식별하며, 성능 향상을 위한 미세조정의 효과를 입증함.