Skip to main content

생분해성 섬유 인장강도 및 신율 예측 모델 개발: 데이터 불균형 및 측정 오차 고려

· 6 min read
경북대학교 컴퓨터학부
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 박사과정생
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 박사
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 담당교수

논문 정보

  • 제목 (Title): 데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발 (The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error)
  • 저자 (Authors) 및 소속 (Affiliations): 박세찬, 김덕엽, 서강복, 이우진 (경북대학교 컴퓨터학부)
  • 교신 저자 (Corresponding Author): 이우진 (woojin@knu.ac.kr)
  • 학회 또는 저널명 (Conference or Journal Name): 정보처리학회논문지/소프트웨어 및 데이터 공학 (KIPS Trans. Softw. and Data Eng.)
  • 볼륨 및 호 (Volume and Issue): 제11권 제12호
  • 제출일 또는 발행일 (Submission or Publication Date): 2022년 12월
  • 초록 (Abstract): 최근 노동 집약적인 섬유 산업에서는 인공지능(AI)을 도입하여 공정 비용을 절감하고 품질을 최적화하려는 시도가 늘고 있다. 그러나 섬유 방사 공정은 데이터 수집 비용이 크고 체계적인 관리 시스템이 부재하여 축적된 데이터의 양이 매우 적으며, 방사 목적에 따라 특정 공정 변수만 변경하여 데이터를 수집하기 때문에 데이터 분포가 특정 구간에 편중되는 불균형 문제가 발생한다. 또한 물성 측정 환경의 차이로 인해 동일한 조건에서 방사된 샘플 간에도 측정값에 오차가 존재한다. 이러한 데이터 특성을 고려하지 않고 AI 모델을 학습시킬 경우, 과적합이나 성능 저하 문제가 발생할 수 있다. 따라서 본 논문에서는 방사 공정 데이터의 특성을 고려한 맞춤형 이상치 처리 기법과 데이터 증강 기법을 제안하고, 이를 통해 인장 강신도 예측 모델의 성능을 개선하고자 한다.
  • 주요 연구 내용 (Main Research Content/Methodology):
    • 생분해성 섬유(PLA) 방사 공정 데이터의 특성(데이터 부족, 불균형, 측정 오차)을 분석하고 이를 해결하기 위한 맞춤형 데이터 처리 기법을 제안함.
    • 이상치 처리 기법 제안: 전체 데이터를 대상으로 이상치를 탐지하는 대신, 동일한 방사 조건을 가진 데이터들을 하나의 클러스터로 묶어 각 클러스터의 평균값으로부터 일정 거리 이상 떨어진 데이터를 이상치로 판단하는 기법을 제안함. 이 방식은 전체 데이터의 불균형 문제에 영향을 받지 않고 각 조건 내에서의 실제 측정 오류를 효과적으로 탐지할 수 있음.
    • 복합 데이터 증강 기법 제안: 각 공정 변수와 예측 물성 간의 상관계수와 데이터 불균형 정도를 종합적으로 고려하여 데이터 증강의 우선순위와 증강 비율을 결정하는 기법을 제안함. 상관계수가 높고 불균형이 심한 변수의 소수 구간 데이터를 더 높은 비율로 증강하는 방식임.
    • 제안된 데이터 처리 기법들의 효과를 검증하기 위해 Polynomial, KNN, MLP 모델을 사용하여 성능을 비교 평가함.
  • 주요 결과 및 결론 (Key Findings and Conclusion):
    • 제안한 이상치 처리와 데이터 증강을 모두 적용했을 때 모든 모델에서 성능이 가장 크게 개선됨.
    • MLP 모델 기준으로, 주 예측 물성인 인장 강도의 경우 제안 기법 적용 후 평균절대오차(MAE)가 약 27%, 평균제곱오차(MSE)가 약 43% 감소했고, 결정계수는 0.479에서 0.789로 크게 향상됨.
    • 공정관리 허용오차 내 예측 비율도 85.4%에서 92.4%로 증가하여 현장에서 요구하는 정확도에 더 부합하게 됨.
    • 결론적으로 섬유 방사 공정 데이터의 특성을 고려한 맞춤형 데이터 처리 기법이 인장 강신도 예측 모델의 성능을 효과적으로 개선할 수 있음을 입증함.
  • 기여점 (Contributions):
    • 데이터 불균형 문제에 영향을 받지 않고 각 조건 내에서의 실제 측정 오류를 효과적으로 탐지하는 새로운 이상치 처리 기법을 제안함.
    • 상관계수와 불균형 정도를 종합적으로 고려하여 데이터 증강의 우선순위와 증강 비율을 결정하는 복합 데이터 증강 기법을 제안함.
    • 실제 산업 데이터(생분해성 섬유 방사 공정)의 고유한 특성을 분석하고, 이를 데이터 전처리 과정에 반영하는 것이 AI 모델의 성능 향상에 매우 중요함을 실증적으로 보임.
  • DOI (Digital Object Identifier): 제공되지 않음.
  • 기타 식별 가능한 정보:
    • 연구 분야: 데이터 사이언스, 인공지능 응용, 섬유 공학
    • 데이터셋: 816개의 생분해성 섬유(PLA) 방사 공정 데이터 (55개 공정 변수, 2개 물성: 인장 강도, 인장 신도)

요약

서론 (Introduction)

최근 노동 집약적인 섬유 산업에서는 인공지능(AI)을 도입하여 공정 비용을 절감하고 품질을 최적화하려는 시도가 늘고 있다. 그러나 섬유 방사 공정은 다음과 같은 데이터 관련 문제점을 안고 있다.

  1. 데이터 부족: 데이터 수집 비용이 크고 체계적인 관리 시스템이 부재하여 축적된 데이터의 양이 매우 적다.
  2. 데이터 불균형: 방사 목적에 따라 특정 공정 변수만 변경하여 데이터를 수집하기 때문에 데이터 분포가 특정 구간에 편중되는 불균형 문제가 발생한다.
  3. 측정 오차: 물성 측정 환경의 차이로 인해 동일한 조건에서 방사된 샘플 간에도 측정값에 오차가 존재한다.

이러한 데이터 특성을 고려하지 않고 AI 모델을 학습시킬 경우, 과적합이나 성능 저하 문제가 발생할 수 있다. 따라서 본 논문에서는 방사 공정 데이터의 특성을 고려한 맞춤형 이상치 처리 기법데이터 증강 기법을 제안하고, 이를 통해 인장 강신도 예측 모델의 성능을 개선하고자 한다.

데이터 및 제안 기법

1. 생분해성 섬유 방사 공정 데이터

본 연구에서는 총 816개의 생분해성 섬유(PLA) 방사 공정 데이터를 활용했다. 데이터는 55개의 방사 공정 변수와 2개의 예측 대상 물성(인장 강도, 인장 신도)으로 구성된다. 이 중 인장 강신도에 주로 영향을 미치는 6개의 핵심 공정 변수(스핀빔 온도, 롤러 속도/온도, 권취 속도, 연신비 등)를 분석에 사용했다. 데이터의 특징 중 하나는 한 번의 공정 구동 시 최대 4개의 샘플을 수집하여 동일한 방사 조건에 대해 여러 개의 데이터가 존재한다는 점이다.

2. 방사 공정 데이터 특성을 고려한 이상치 처리

  • 기존 기법의 한계: 박스 플롯이나 클러스터링 기반(CBLOF) 이상치 처리 기법은 데이터 불균형 때문에 정상적인 소수 구간 데이터를 이상치로 잘못 판단하여 제거하는 문제가 있었다.
  • 제안 기법: 전체 데이터를 대상으로 이상치를 탐지하는 대신, 동일한 방사 조건을 가진 데이터들을 하나의 클러스터로 묶는다. 그리고 각 클러스터의 평균값으로부터 일정 거리 이상 떨어진 데이터를 이상치로 판단한다. 이 방식은 전체 데이터의 불균형 문제에 영향을 받지 않고 각 조건 내에서의 실제 측정 오류를 효과적으로 탐지할 수 있다.
  • 실험 결과: 실험을 통해 인장 강도는 거리 기준 0.4, 인장 신도는 4.5일 때 모델 성능이 가장 우수했으며, 기존 기법들과 달리 데이터의 전체적인 분포를 해치지 않으면서 이상치를 효과적으로 제거함을 확인했다.

3. 상관계수와 불균형을 고려한 복합 데이터 증강

  • 기존 기법의 한계: 랜덤 오버샘플링(ROS)이나 SMOTE 같은 일반적인 기법은 특정 변수의 불균형을 해소하는 과정에서 다른 변수의 불균형을 오히려 악화시키거나, 소수 구간 내에 존재하는 세부적인 불균형을 해결하지 못하는 문제가 있었다.
  • 제안 기법: **'각 공정 변수와 예측 물성 간의 상관계수'**와 **'데이터 불균형 정도'**를 종합적으로 고려하여 데이터 증강의 우선순위와 증강 비율을 결정하는 복합 데이터 증강 기법을 제안했다. 예를 들어, 상관계수가 높고 불균형이 심한 변수의 소수 구간 데이터를 더 높은 비율로 증강하는 방식이다.
  • 실험 결과: 제안 기법은 기존 기법들과 비교했을 때, 전체 변수에서 데이터 불균형을 효과적으로 완화했으며, 특히 소수 구간 내의 데이터 불균형 비율을 크게 개선했다 (기존 7:1 → 제안 3:2).

모델 적용 및 성능 평가

제안한 데이터 처리 기법의 효과를 검증하기 위해 원본 데이터, 이상치 처리 데이터, 이상치 처리 및 데이터 증강을 모두 적용한 데이터를 각각 Polynomial, KNN, MLP 모델에 학습시켜 성능을 비교했다.

  • 성능 개선: 모든 모델에서 제안한 이상치 처리와 데이터 증강을 모두 적용했을 때 결정계수(R-square)와 오차(MAE, MSE)가 가장 크게 개선되었다.
  • 구체적 결과 (MLP 모델 기준): 주 예측 물성인 인장 강도의 경우, 제안 기법 적용 후 평균절대오차(MAE)가 약 27%, 평균제곱오차(MSE)가 약 43% 감소했다. 결정계수는 0.479에서 0.789로 크게 향상되었고, 공정관리 허용오차 내 예측 비율도 85.4%에서 92.4%로 증가했다. 이는 예측 오차가 감소하고 모델의 설명력이 높아졌으며, 현장에서 요구하는 정확도에 더 부합하게 되었음을 의미한다.

결론 (Conclusion)

본 논문은 생분해성 섬유 방사 공정 데이터가 가진 부족, 불균형, 오차 문제를 해결하기 위한 맞춤형 데이터 처리 기법을 제안했다. 제안한 이상치 처리 및 복합 데이터 증강 기법은 기존 기법들보다 방사 공정 데이터에 더 적합하며, 이를 적용했을 때 인장 강신도 예측 모델의 성능이 크게 향상됨을 실험적으로 입증했다. 이 연구는 AI 모델 개발 시 데이터 특성을 고려한 맞춤형 전처리 기법의 적용이 모델 성능 개선에 매우 중요하다는 점을 보여준다.