본문으로 건너뛰기

생분해성 섬유 방사 공정 데이터 특성을 고려한 물성 예측 모델 개발

· 약 6분
경북대학교 컴퓨터학부
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 박사과정생
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 박사
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 담당교수

논문 정보

  • 제목 (Title): 생분해성 섬유 방사 공정 데이터 특성을 고려한 물성 예측 모델 개발 (The Development of Property Prediction Model in Consideration of Biodegradable Fiber Spinning Process Data Characteristics)
  • 저자 (Authors) 및 소속 (Affiliations): 박세찬, 김덕엽, 서강복, 이우진 (경북대학교 컴퓨터학부)
  • 학회 또는 저널명 (Conference or Journal Name): ASK 2022 학술발표대회 논문집 (29권 1호)
  • 제출일 또는 발행일 (Submission or Publication Date): 2022년
  • 초록 (Abstract): 최근 노동 집약적인 성격의 섬유 산업에서는 AI를 통해 공정에 들어가는 시간과 비용을 줄이고 품질을 최적화하려는 시도를 하고 있다. 그러나 섬유 방사 공정은 데이터 수집에 필요한 비용이 크고 체계적인 데이터 처리 시스템이 부족하여 축적된 데이터양이 적다. 또 방사 목적에 따라 특정 변수 위주의 조합에 대한 데이터만을 우선적으로 수집하여 데이터 불균형이 발생하며, 물성 측정환경 차이로 인해 동일 방사조건에서 수집된 샘플 간에도 오차가 존재한다. 이러한 데이터 특성들을 고려하지 않고 AI 모델에 활용할 경우 과적합과 성능 저하 등의 문제가 발생할 수 있다. 따라서 본 논문에서는 물성 단위 및 허용오차를 고려한 이상치 처리 기법과 데이터 불균형 정도 및 물성과의 상관성을 고려한 오버샘플링 기법을 물성 예측 모델에 적용한다. 두 기법들을 모델에 적용한 결과 그렇지 않은 모델에 비해 물성 예측 오차와 방사 공정 데이터에 대한 모델의 적합도가 개선됨을 보인다.
  • 주요 연구 내용 (Main Research Content/Methodology):
    • 섬유 방사 공정 데이터가 가지는 적은 데이터양, 데이터 불균형, 동일 조건 샘플 간 오차 등의 문제점을 해결하여 물성 예측 AI 모델의 성능을 개선하고자 함.
    • 이상치 처리 기법 제안: 전체 데이터 분포가 아닌, '동일 방사 조건'을 가진 데이터들을 하나의 군집으로 간주함. 각 군집 내에서 평균값과 개별 샘플 값의 거리를 계산하여, 사전에 정의된 기준(공정 관리 허용오차 등을 고려한 0.4)을 초과하는 데이터를 이상치로 판단하고 제거하는 기법을 적용함. 이는 데이터 불균형 문제에 영향을 받지 않고 측정 오류 등으로 인한 이상치를 효과적으로 처리할 수 있음.
    • 오버샘플링 기법 제안: 회귀 문제에서의 다변수 데이터 불균형을 해결하기 위해, 각 공정 변수의 불균형 정도와 예측 대상 물성(인장강도)과의 상관계수를 동시에 고려함. 상관성이 높고 불균형이 심한 변수의 소수 구간 데이터를 더 많이 증강하는 방식으로 균형을 맞춤.
    • 제안된 데이터 처리 기법들의 효과를 검증하기 위해 MLP(Multi-Layer Perceptron) 모델을 사용하여 물성 예측 성능을 비교 평가함.
  • 주요 결과 및 결론 (Key Findings and Conclusion):
    • 제안한 이상치 처리 및 오버샘플링 기법을 적용한 데이터로 학습한 모델이 모든 평가지표에서 가장 우수한 성능을 보임.
    • 기본 데이터 대비 최종 처리된 데이터를 사용했을 때, 평균절대오차(MAE)는 0.165에서 0.120으로 약 27% 감소했고, 평균제곱오차(MSE)는 0.047에서 0.027로 약 43% 감소하여 예측 정확도가 향상됨.
    • 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 조정된 결정계수(Adjusted R²)는 0.479에서 0.789로 크게 개선되어, 모델의 데이터 적합도가 현저히 높아짐을 확인.
    • 결론적으로 섬유 방사 공정 데이터의 특성을 고려한 맞춤형 데이터 전처리 기법이 물성 예측 모델의 성능을 효과적으로 개선할 수 있음을 입증함.
  • 기여점 (Contributions):
    • 적은 양의 불균형한 데이터셋에서 '동일 조건 군집'이라는 도메인 특성을 활용하여 이상치를 효과적으로 탐지하는 새로운 처리 기법을 제안함.
    • 분류 문제에 주로 사용되던 오버샘플링을 다변수 회귀 문제에 맞게 변형하여, 변수별 불균형 정도와 목표값과의 상관성을 함께 고려하는 균형 잡힌 데이터 증강 전략을 제시함.
    • 실제 산업 데이터(섬유 방사 공정)의 고유한 특성을 분석하고, 이를 데이터 전처리 과정에 반영하는 것이 AI 모델의 성능 향상에 매우 중요함을 실증적으로 보임.
  • DOI (Digital Object Identifier): 제공되지 않음.
  • 기타 식별 가능한 정보:
    • 연구 분야: 데이터 사이언스, 인공지능 응용, 섬유 공학
    • 데이터셋: 816개의 생분해성 섬유 방사 공정 데이터 (55개 공정 변수, 1개 물성)

요약

서론 (Introduction)

최근 섬유 산업은 공정 자동화 및 품질 최적화를 위해 AI 기술 도입을 시도한다. 그러나 AI 모델의 성능은 데이터의 양과 질에 크게 좌우되는데, 섬유 방사 분야는 데이터 확보에 여러 어려움이 있다. 데이터 수집에 많은 시간과 비용이 소요되어 축적된 데이터 양이 적고, 특정 목적의 실험 데이터만 주로 수집되어 변수 분포가 불균형하며, 동일한 공정 조건에서도 측정 환경 차이 등으로 샘플 간 오차가 발생한다. 이러한 데이터 특성을 고려하지 않고 모델을 개발하면 과적합이나 성능 저하 문제가 발생할 수 있다. 따라서 본 논문에서는 섬유 방사 공정 데이터의 특성을 반영한 맞춤형 이상치 처리 및 오버샘플링 기법을 제안하고, 이를 통해 물성 예측 모델의 성능이 개선됨을 보이고자 한다.

기존 섬유 산업 연구는 주로 통계적 분석이나 수학적 모델링에 의존했으나, 이는 복잡한 비선형 관계를 다루기 어렵다는 한계가 있다. AI를 적용한 초기 연구도 있었지만, 30개 정도의 매우 적은 데이터를 사용하여 모델의 신뢰성을 확보하기 어려웠다. 이처럼 AI 적용이 더딘 이유는 충분한 양의 데이터를 확보하기 어렵기 때문이다.

데이터 처리 관점에서, 일반적인 이상치 탐지 기법은 데이터 불균형 시 소수 구간 데이터를 이상치로 오판할 수 있다. 또한, 대부분의 오버샘플링 기법은 분류 문제의 클래스 불균형을 다루기 위해 설계되어, 연속적인 변수의 불균형을 다루는 본 연구의 회귀 문제에 직접 적용하기 어렵다.

제안 기법: 데이터 특성을 고려한 처리 기법

1. 예측 물성 및 허용오차를 고려한 이상치 처리

생분해성 섬유 방사 공정 데이터는 동일한 방사 조건에 대해 여러 개(주로 4개)의 샘플을 갖는 특징이 있다. 본 연구는 이 특징을 활용하여 전체 데이터를 동일 방사 조건별로 군집화했다. 그 후, 각 군집 내에서 물성(인장강도)의 평균을 계산하고, 개별 샘플 값이 평균으로부터 일정 거리 이상 떨어져 있으면 이상치로 분류했다. 이 방식은 전체 데이터의 불균형 분포에 영향을 받지 않고 각 조건 내에서의 측정 오류나 공정 오류로 인한 이상치를 효과적으로 식별할 수 있다. 산업 현장의 공정 관리 허용오차(0.3)와 데이터 분포를 고려하여, 이상치 판단 거리 기준은 0.4로 설정했다.

2. 불균형 정도와 상관계수를 고려한 오버샘플링

이상치 처리 후에도 여전히 존재하는 데이터 부족 및 불균형 문제를 해결하기 위해 오버샘플링을 적용했다. 여러 공정 변수에서 동시에 불균형이 나타나므로, 특정 변수의 불균형을 완화하는 과정이 다른 변수의 불균형을 심화시키지 않도록 신중한 접근이 필요하다. 따라서, 각 주요 공정 변수의 데이터 불균형 정도와 예측 목표인 인장강도와의 상관계수를 함께 고려하여 오버샘플링 가중치를 결정했다. 예를 들어, 강도와 상관계수가 크고 데이터 불균형이 심한 '롤러1 속도'와 '롤러2 온도'의 소수 구간 데이터는 3배로 증강하고, 상대적으로 영향이 적은 변수들은 2배로 증강하는 차등적 방식을 사용했다.

실험 및 결과

제안한 기법의 효과를 검증하기 위해 (1)기본 데이터, (2)이상치 처리 데이터, (3)이상치 처리 및 오버샘플링 적용 데이터 세 가지에 대해 MLP(Multi-Layer Perceptron) 모델을 학습시키고 성능을 비교했다.

성능 평가 결과, 제안한 두 기법을 모두 적용했을 때 가장 좋은 성능을 보였다. 조정된 결정계수는 0.479에서 0.789로 크게 상승하여 모델이 데이터를 훨씬 더 잘 설명하게 되었음을 의미한다. 또한, 테스트 데이터에 대한 평균절대오차는 0.165에서 0.120으로, 평균제곱오차는 0.047에서 0.027로 감소하여 실제 예측 오차가 크게 줄었음을 확인했다. 이는 기존 0.150.2 수준의 예측 오차를 0.10.15 수준으로 개선한 결과이다.

결론 (Conclusion)

본 논문에서는 섬유 방사 공정 데이터가 가진 적은 양, 불균형, 샘플 간 오차라는 특성을 고려한 이상치 처리와 오버샘플링 기법을 제안했다. 제안한 기법들을 적용한 결과, 물성 예측 모델의 예측 오차는 약 27%(MAE 기준) 감소했고, 데이터에 대한 적합도(결정계수)는 0.5 미만에서 약 0.8 수준으로 크게 개선되었다. 이는 예측 모델의 정확성과 신뢰도가 모두 향상되었음을 의미한다. 이처럼 AI 모델 개발 시 대상 데이터의 고유한 특성을 파악하고 그에 맞는 적절한 데이터 처리 기법을 적용하는 것이 모델 성능 개선에 결정적인 역할을 할 수 있다.