Skip to main content

차분 테스트를 이용한 내광성 등급 예측 모델 성능 향상

· 5 min read
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 석사과정생
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 박사
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 박사과정생
경북대학교 컴퓨터학부 소프트웨어테스팅연구실 담당교수

논문 정보

  • 제목 (Title): 차분 테스트를 이용한 내광성 등급 예측 모델 성능 향상
  • 저자 (Authors) 및 소속 (Affiliations):
    • 이대규 (경북대학교 IT대학 컴퓨터학부)
    • 서강복 (경북대학교 IT대학 컴퓨터학부)
    • 김덕엽 (경북대학교 IT대학 컴퓨터학부)
    • 이우진 (경북대학교 IT대학 컴퓨터학부)
  • 학회 또는 저널명 (Conference or Journal Name): 2024 한국컴퓨터종합학술대회 (KCC 2024)
  • 제출일 또는 발행일 (Submission or Publication Date): 2024년 6월
  • 키워드 (Keywords): 차분 테스트, 내광성 등급, 예측 모델, 성능 향상, 섬유, 색상 변화, 머신러닝, 앙상블
  • 초록 (Abstract): 최근 섬유 산업에서는 개발 비용을 줄이고 고객 요구를 충족시키기 위해 내광성 예측 모델 개발이 활발히 이루어지고 있다. 하지만 기존 모델들은 산업 현장에서 요구하는 염료와 조제의 종류 및 양을 기반으로 예측하지 않아 적용이 어렵고, 주로 사용된 인공 신경망(ANN) 모델은 은닉층의 구조에 따라 성능이 저하되는 단점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 소프트웨어 테스트 기법 중 하나인 차분 테스트의 개념을 응용하여 모델 성능을 향상시키는 방법을 제안한다. 구체적으로, 여러 예측 모델을 학습시킨 후, 특정 정확도 기준을 넘는 모델들을 대상으로 과반수가 예측에 실패한 데이터를 '학습 저해 요소' 또는 이상치로 간주하여 제거한다. 이렇게 정제된 데이터로 모델을 재학습시킨 결과, 각 예측 모델의 성능이 유의미하게 향상됨을 확인했다.

  • 주요 연구 내용 (Main Research Content/Methodology):

    • 차분 테스트 기법을 활용한 다수 모델의 예측 실패 데이터 이상치 제거 방법론 개발
    • LSTM, RF-MLP 앙상블, AutoML 모델을 활용한 앙상블 기반 이상치 탐지
    • 정제된 데이터를 활용한 모델 재학습 및 성능 향상 효과 검증
    • 소프트웨어 공학의 차분 테스트 개념을 머신러닝 모델 성능 향상에 창의적 적용
  • 주요 결과 및 결론 (Key Findings and Conclusion):

    • 제안된 차분 테스트 기반 데이터 정제 기법으로 모든 모델에서 성능 향상 달성
    • LSTM 모델: 10% 성능 향상, RF-MLP 앙상블: 3% 성능 향상, AutoML: 1% 성능 향상
    • 평균 4.6%의 성능 향상으로 제안 기법의 효과성 입증
    • 제거된 데이터는 주로 공정상의 데이터 오기입일 가능성이 높아 이상치 제거의 타당성 확인
  • 기여점 (Contributions):

    • 소프트웨어 공학의 차분 테스트 개념을 머신러닝 모델의 데이터 정제 및 성능 향상 문제에 창의적으로 적용
    • 앙상블 기반의 이상치 탐지 및 제거를 통해 실질적인 모델 성능 개선 달성
    • 특정 모델이 예측에 실패하는 데이터의 특성을 분석하여 제안 기법의 타당성 뒷받침
  • DOI (Digital Object Identifier): KCC 2024 학회 발표 논문

  • 기타 식별 가능한 정보:

    • 연구 분야: 섬유 공학, 머신러닝, 품질 관리, 데이터 분석
    • 학회: 2024 한국컴퓨터종합학술대회 (KCC 2024)

요약

주요 연구 내용 (Main Research Content/Methodology)

본 연구는 데이터의 양이 부족하고, 육안 판정의 주관성 및 데이터 오기입 등으로 인해 신뢰도가 낮은 데이터가 포함될 수 있는 섬유 내광성 등급 예측 문제에서 모델 성능을 향상시키기 위한 방법론을 제시한다.

문제 정의

  • 섬유 산업 현장의 데이터는 체계적인 수집 시스템이 부재하여 데이터의 양이 부족하고, 이상치가 포함될 가능성이 높다.
  • 내광성 등급은 국제 표준인 육안 판정에 의존하므로, 측정자 간의 주관적 오류가 내포되어 데이터의 신뢰성을 저하시킨다.
  • 기존 ANN 기반 모델은 현장 적용성 및 구조적 성능 저하의 문제가 있다.

제안 방법론 (차분 테스트 기반 이상치 제거)

본 연구는 소프트웨어 테스팅에서 여러 구현체의 동작 차이를 비교하여 결함을 찾는 차분 테스트의 아이디어를 데이터 정제에 적용한다.

  1. 다수 모델 학습: 각기 다른 특성을 가진 3개의 모델(LSTM, RF-MLP 앙상블, AutoML)을 전체 데이터셋으로 학습시킨다.
  2. 예측 실패 데이터 식별: 학습된 모델들을 사용하여 전체 데이터를 예측하고, 과반수(2개 이상)의 모델이 정확한 예측에 실패한 데이터를 식별한다. 본 연구에서는 이러한 데이터를 모델 학습을 저해하는 요소로 가정한다.
  3. 데이터셋 정제: 식별된 예측 실패 데이터(이상치)를 원본 데이터셋에서 제거한다.
  4. 모델 재학습: 정제된 데이터셋을 사용하여 각 모델을 재학습시켜 최종 모델을 완성한다.

(그림 1) 차분 테스트를 이용한 모델 향상 기법

여러 모델을 통해 예측을 수행하고, 다수 모델에서 부정확하게 예측된 데이터를 추출(제거)하여 모델을 재학습시키는 과정을 도식화했다.

주요 결과 및 결론 (Key Findings and Conclusion)

제안된 차분 테스트 기반 데이터 정제 및 재학습 기법을 적용한 결과, 모든 모델에서 성능 향상이 관찰되었다.

성능 향상 결과

  • AutoML 모델: 1% 성능 향상
  • RF-MLP 앙상블 모델: 3% 성능 향상
  • LSTM 모델: 10% 성능 향상
  • 평균: 4.6%의 성능 향상

결과 분석

  • 제거된 데이터는 주로 LSTM 모델이 예측에 크게 실패한 데이터였다.
  • LSTM이 시간 순서대로 진행되는 염색 공정 데이터 처리에 특화된 모델임을 고려할 때, 해당 데이터들은 공정 중 발생한 데이터 오기입일 가능성이 높다고 판단된다.
  • 이러한 잠재적 오류 데이터를 이상치로 간주하고 제거함으로써 각 모델의 예측 정확도를 효과적으로 높일 수 있었다.

결론

본 연구는 데이터가 제한적이고 노이즈가 많은 환경에서, 차분 테스트의 원리를 응용하여 다수 모델의 예측 결과를 종합함으로써 데이터셋의 신뢰도를 높이고 예측 모델의 성능을 향상시키는 효과적인 기법을 제안했다. 이 기법은 향후 산업 현장에서 제품 생산의 효율성을 높이는 데 기여할 것으로 기대된다.

기여점 (Contributions)

  1. 소프트웨어 공학의 차분 테스트 개념을 머신러닝 모델의 데이터 정제 및 성능 향상 문제에 창의적으로 적용: 기존 소프트웨어 테스팅 분야의 차분 테스트 아이디어를 머신러닝 모델의 성능 향상에 적용하여 새로운 접근 방법을 제시하였다.

  2. 앙상블 기반의 이상치 탐지 및 제거를 통한 실질적인 모델 성능 개선: 데이터의 양이 부족하고 품질이 보장되지 않는 현실적인 산업 데이터 환경에서, 여러 모델의 예측 결과를 종합하여 효과적으로 이상치를 탐지하고 제거함으로써 모델 성능을 개선하였다.

  3. 제안 기법의 타당성 입증: 특정 모델(LSTM)이 예측에 실패하는 데이터의 특성을 분석하여, 제거된 데이터가 실제 공정상의 오류일 가능성을 제시함으로써 제안 기법의 타당성을 뒷받침하였다.