Skip to main content

3 posts tagged with "Outlier"

이상치 처리

View All Tags

차분 테스트를 이용한 내광성 등급 예측 모델 성능 향상

· 4 min read
이대규
경북대학교 컴퓨터학부 석사과정생
서강복
경북대학교 컴퓨터학부 박사
김덕엽
경북대학교 컴퓨터학부 박사과정생
이우진
경북대학교 컴퓨터학부 전임교수

논문 정보

  • 제목: Performance Improvement of Lightfastness Grade Prediction Model using Differential Testing
  • 저자: 이대규, 서강복, 김덕엽, 이우진 (경북대학교 컴퓨터학부)
  • 학회/저널: 2024 한국컴퓨터종합학술대회 논문집
  • 발행일: 2024-06-26
  • DOI: 제공되지 않음
  • 주요 연구 내용: 산업 현장의 요구사항을 반영한 내광성 등급 예측 모델의 성능 저하 문제를 해결하기 위해 차분 테스트 기법을 응용한 데이터 정제 방법을 제안함. 다수의 머신러닝 모델(LSTM, RF-MLP, AutoML)을 학습시킨 후, 일정 기준 이상의 정확도를 보이는 모델들 중 과반수가 예측에 실패한 데이터를 이상치로 간주하여 제거하고, 정제된 데이터로 모델을 재학습시켜 성능을 향상시킴.
  • 주요 결과 및 결론: 제안된 기법을 적용한 결과, AutoML 모델은 1%, RF-MLP 앙상블 모델은 3%, LSTM 모델은 10%의 성능 향상을 보여 평균 4.6%의 정확도 상승을 확인함. 특히 LSTM 모델에서 예측 실패율이 높았던 데이터가 주로 제거되었는데, 이는 염색 공정의 순서상 발생한 데이터 오기입일 가능성이 높으며, 이를 이상치로 판단하여 제거한 것이 성능 향상의 주요 원인으로 분석됨.
  • 기여점: 데이터의 양이 부족하고 신뢰성이 낮은 산업 데이터 환경에서 모델의 성능을 향상시키기 위한 실용적인 접근법을 제시함. 여러 모델의 예측 결과를 교차 검증하는 차분 테스트의 아이디어를 활용하여 학습을 저해하는 이상치를 효과적으로 식별하고 제거함으로써, 추가 데이터 확보 없이 예측 정확도를 높이는 방법을 제안함.

섬유의 변퇴색 기준 판정 내광성 등급 기반 이상치 처리 기법

· 4 min read
이대규
경북대학교 컴퓨터학부 석사과정생
서강복
경북대학교 컴퓨터학부 박사
김덕엽
경북대학교 컴퓨터학부 박사과정생
이우진
경북대학교 컴퓨터학부 전임교수

논문 정보

  • 제목: 섬유의 변퇴색 기준 판정 내광성 등급 기반 이상치 처리 기법 (Outlier Processing Techniques Based on Colorfastness Rating Determination Based on Change in Color of Textile)
  • 저자: 이대규, 서강복, 김덕엽, 이우진 (경북대학교 IT대학 컴퓨터학부)
  • 학회/저널: 2023 한국컴퓨터종합학술대회
  • 발행일: 2023-06-21
  • DOI: 제공되지 않음
  • 주요 연구 내용: 본 연구는 섬유 염색 공정 데이터에서 내광성 등급 예측 모델의 성능을 향상시키기 위한 이상치 처리 기법을 제안함. 제안된 기법은 기기으로 측정한 변퇴색(ΔEF\Delta E_F) 기반의 내광성 등급과 현장에서 수집된 내광성 등급을 비교해 두 등급 간의 차이가 특정 임계값을 초과하는 데이터를 이상치로 간주하고 제거하는 방식임.
  • 주요 결과 및 결론: 수집된 내광성 등급과 변퇴색 기준 등급 간의 차이가 1.5를 초과하는 데이터를 이상치로 제거했을 때, 예측 모델의 정확도가 0.94953으로 가장 높게 나타남. 이는 원본 데이터(0.86301)나 일반적인 이상치 처리 기법(Z-score: 0.91359, IQR: 0.87477)을 적용했을 때보다 우수한 성능임.
  • 기여점: 노동집약적인 섬유 산업 분야의 데이터가 갖는 비정규 분포 특성을 고려한 도메인 특화 이상치 처리 기법을 제안함. 이를 통해 데이터의 신뢰성을 높이고 머신러닝 모델의 예측 정확도를 향상시켜, 제품 생산 효율성 증대에 기여할 수 있는 실용적인 방법론을 제시함.

데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발

· 5 min read
Se-Chan Park
연구원
김덕엽
경북대학교 컴퓨터학부 박사과정생
서강복
경북대학교 컴퓨터학부 박사
이우진
경북대학교 컴퓨터학부 전임교수

논문 정보

  • 제목: The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error
  • 저자: 박세찬, 김덕엽, 서강복, 이우진 (경북대학교 컴퓨터학부)
  • 학회/저널: KIPS Transactions on Software and Data Engineering (정보처리학회논문지/소프트웨어 및 데이터 공학)
  • 발행일: 2022-12-01
  • DOI: 10.3745/KTSDE.2022.11.12.489
  • 주요 연구 내용: 섬유 방사 공정 데이터의 특성(적은 양, 불균형, 샘플 간 오차)을 고려하여, 동일 방사 조건 클러스터 내 평균과의 거리를 기준으로 이상치를 처리하는 기법을 제안함. 또한, 여러 공정 변수와 예측 물성 간 상관계수 및 데이터 불균형 정도를 종합적으로 고려한 복합 데이터 증강 기법을 제안함.
  • 주요 결과 및 결론: 제안한 이상치 처리 및 데이터 증강 기법을 적용했을 때, 기존 기법들(박스 플롯, CBLOF, ROS, SMOTE)보다 데이터 손실이 적고 불균형을 효과적으로 완화함. MLP 모델 기준, 인장 강도 예측에서 평균절대오차(MAE)는 약 27% 감소하고 조정된 결정계수(R2R^2)는 0.5 미만에서 약 0.8 수준으로 크게 개선됨.
  • 기여점: 데이터 수집이 어려운 섬유 산업에서 발생하는 데이터 부족, 불균형, 측정 오차 문제를 해결하기 위한 맞춤형 데이터 전처리 기법을 제안함. 이를 통해 AI 예측 모델의 성능과 신뢰도를 향상시켜 공정 비용 절감 및 품질 최적화에 기여할 수 있는 실용적 방안을 제시.