Skip to main content

데이터 변동률 기반 회귀 체인을 사용한 생분해성 섬유 원사 물성 예측 모델 개선

· 4 min read
김덕엽
경북대학교 컴퓨터학부 박사과정생
류영교
경북대학교 학부연구생
강보권
경북대학교 학부연구생
김태환
경북대학교
이우진
경북대학교 컴퓨터학부 전임교수

논문 정보

  • 제목: 데이터 변동률 기반 회귀 체인을 사용한 생분해성 섬유 원사 물성 예측 모델 개선 (Improving biodegradable fiber yarn property prediction model using data change rate-based regression chain)
  • 저자: 김덕엽, 류영교, 강보권, 김태환, 이우진 (경북대학교 IT대학 컴퓨터학부)
  • 학회/저널: 2024 한국소프트웨어종합학술대회 논문집
  • 발행일: 2024-12
  • DOI: 제공되지 않음
  • 주요 연구 내용: 본 연구는 데이터 수집 및 분포가 불균형한 생분해성 섬유 방사 데이터의 물성 예측 정확도를 높이기 위한 방법을 제안함. 기존의 상관 분석은 신뢰성이 떨어지므로, 방사 공정 데이터에 따른 물성 데이터의 변동률을 계산하고 변동률 간의 상관관계를 분석하여 물성 간 종속성을 평가함. 이 평가 결과를 바탕으로 회귀 체인(Regression Chain)을 구성하여 예측 모델을 개선함.
  • 주요 결과 및 결론: 데이터 변동률 기반 분석 결과, 인장강도는 인장신도와 강한 종속성을 보였으며(상관계수 0.73), 이는 기존 상관 분석 결과와 다름. 이 결과를 바탕으로 인장신도를 예측하여 인장강도 예측 모델의 입력으로 사용하는 회귀 체인을 적용했을 때, 기존 모델 대비 MAE는 13%, MSE는 20%, R²는 5% 향상된 성능을 보임.
  • 기여점: 불균형한 산업 데이터에서 기존 상관 분석의 한계를 지적하고, 데이터 변동률이라는 새로운 기준으로 물성 간 종속성을 더 신뢰성 있게 평가하는 방법을 제시함. 이는 국한적인 상황에서 회귀 체인 모델을 적용하여 예측 성능을 향상시킬 수 있음을 실험적으로 입증함.

요약

초록

생분해성 섬유 원사의 물성들은 서로 종속적인 관계를 가질 수 있어, 회귀 체인을 활용하면 예측 성능을 높일 수 있다. 하지만 섬유 방사 데이터는 분포가 불균형하여 일반적인 상관 분석 결과의 신뢰도가 낮고, 잘못된 종속성 평가는 오히려 오류 전파를 일으켜 성능을 저하시킬 수 있다. 본 논문은 데이터 변동률을 통해 물성 간 종속성을 평가하고 이를 회귀 체인에 적용하여 물성 예측 모델을 개선하는 방법을 제안하며, 그 효과를 검증한다.

서론

생분해성 섬유의 다양한 물성들(인장강신도, 열적 특성 등) 사이에는 종속성이 존재할 수 있으며, 이를 예측 모델의 학습 데이터로 활용하는 기법이 회귀 체인이다. 그러나 섬유 방사 데이터는 특정 목표 물성 위주로 수집되어 분포가 불균형하기 때문에, 일반적인 상관 분석으로는 종속성을 잘못 평가할 위험이 크다. 잘못된 종속성 기반의 회귀 체인은 예측 오류를 다음 단계로 전파시켜 모델 성능을 오히려 저하시킬 수 있으므로, 신뢰성 있는 종속성 평가 방법이 필요하다.

배경

Figure 1

  • 회귀 체인(Regression Chain): 다수의 회귀 모델을 체인 형태로 연결하여 레이블(물성) 간의 종속성을 학습에 반영하는 다중 레이블 모델이다. 각 모델은 이전 순서 모델의 예측 결과를 추가적인 학습 데이터로 활용한다. 논문의 Figure 1은 회귀 체인의 학습 및 예측 과정을 보여준다.
  • 데이터 변동률(Data Change Rate): 특정 기준에 따른 데이터의 변화량 비율로, 주로 시계열 데이터에서 유사한 패턴을 탐색하는 데 사용된다. 본 논문에서는 이전 데이터 대비 변화율을 계산하는 방식을 사용했다.

모델 아키텍처 / 방법론

  • 핵심 방법: 기존의 물성 데이터 간 직접적인 상관 분석 대신, 특정 공정 변수(고뎃 롤러1 속도)를 기준으로 정렬된 물성 데이터의 변동률을 계산하고, 이 변동률 간의 상관 분석을 통해 물성 간 종속성을 평가한다. 이후 평가된 종속성을 기반으로 단일 회귀 체인을 구성하여 목표 물성(인장강도) 예측 모델의 성능을 개선한다. Figure 2
  • 주요 구성 요소:
    1. 데이터 변동률 계산: 변동성이 크고 분포가 균형적인 고뎃 롤러1 속도 데이터를 기준으로 6개 물성 데이터의 변동률을 각각 계산한다.
    2. 종속성 재평가: 계산된 6개 물성의 데이터 변동률 간 피어슨 상관계수를 분석하여 종속 관계를 재평가한다.
    3. 회귀 체인 적용 및 검증: 인장강도를 예측 대상으로, 다른 5개 물성을 각각 단일 체인으로 연결하여 모델을 생성하고 성능을 비교한다. 논문의 Figure 2는 이 검증 과정을 도식화한 것이다.
  • 수식: 이전 데이터 대비 변동률은 다음 수식으로 계산된다. Δ dn=(dndn1)/dn1\Delta~d*{n}=(d*{n}-d*{n-1})/d*{n-1}

실험 결과

  • 주요 데이터셋: 1개의 원료 데이터, 9개의 방사 공정 데이터, 6개의 물성 데이터로 구성된 1,998개의 생분해성 섬유 데이터셋을 사용했다. 검증은 5-fold 교차 검증으로 수행되었다.
  • 핵심 성능 지표: MAE(Mean Absolute Error), MSE(Mean Squared Error), R²(결정계수)를 사용하여 모델 성능을 평가했다.
  • 비교 결과:
    • 기존 상관 분석에서는 인장강도와 열응력-평균온도의 상관관계가 0.38로 가장 높았다.
    • 데이터 변동률 기반 상관 분석에서는 인장강도와 인장신도의 상관관계가 0.73으로 매우 높게 나타나, 종속성 평가 결과가 달라졌다.
    • 성능 개선: 변동률 분석에 기반하여 인장신도를 체인으로 적용한 인장강도 예측 모델은 기존 모델 대비 R²가 0.785에서 0.826으로 약 5% 향상되었으며, MAE와 MSE도 각각 13%, 20% 개선되었다. 반면, 기존 상관 분석 기반으로 열응력-평균온도를 적용했을 때는 성능이 오히려 소폭 하락했다.

결론

본 연구는 불균형한 데이터 환경에서 회귀 체인의 성능 저하 문제를 해결하기 위해 데이터 변동률을 이용한 새로운 종속성 평가 방법을 제안했다. 주요 물성인 인장강도 예측 실험을 통해, 제안한 방법이 기존 상관 분석보다 더 정확하게 데이터 간의 관계를 파악하고, 이를 통해 회귀 모델의 예측 성능을 효과적으로 향상시킬 수 있음을 입증했다.