3 posts tagged with "Data imbalance"

데이터 불균형 - 클래스 간 샘플 수의 심한 차이로 인한 학습 문제

View All Tags

Automated machine learning for fabric quality prediction: a comparative analysis

July 23, 2024 · 5 min read

Ahmet Metin

Turgay Tugay Bilgin

논문 정보

제목: Automated machine learning for fabric quality prediction: a comparative analysis
저자: Ahmet Metin (Bursa Technical University), Turgay Tugay Bilgin (Bursa Technical University)
학회/저널: PeerJ Computer Science
발행일: 2024-07-23
DOI: 10.7717/peerj-cs.2188
주요 연구 내용: 7개의 오픈소스 AutoML(FLAML, AutoViML, EvalML, AutoGluon, H2OAutoML, PyCaret, TPOT) 기술을 비교하여 직물 품질 데이터의 불균형 문제를 해결하고, 계산 효율성과 예측 정확성 간의 최적 균형점을 찾는 방법론을 제시. IoT 센서와 ERP 시스템에서 수집된 데이터를 활용하여 품질 예측 모델을 자동화함.
주요 결과 및 결론: EvalML이 평균 절대 오차(MAE)에서 2.8282로 가장 우수한 성능을 보였고, AutoGluon은 평균 절대 백분율 오차(MAPE), 평균 제곱근 오차(RMSE), 결정 계수( $R^2$ )에서 각각 1.0444, 21.129, 0.964로 가장 나은 성능을 기록함. 그러나 AutoGluon은 추론 시간이 길다는 단점이 있어, 정확성과 계산 효율성 간의 상충 관계를 확인함.
기여점: 섬유 산업에서 AutoML 적용에 대한 실용적인 가이드를 제공하고 Industry 4.0 기술을 활용한 직물 품질 예측 향상 로드맵을 제시. 예측 정확성과 계산 효율성 간의 균형점 탐색의 중요성을 강조하고, 모델 해석을 위한 특징 중요도(feature importance) 분석의 유용성을 입증함.

데이터 불균형과 측정 오차를 고려한 생분해성 섬유 인장 강신도 예측 모델 개발

December 1, 2022 · 5 min read

Se-Chan Park

김덕엽

경북대학교 컴퓨터학부 박사과정생

서강복

경북대학교 컴퓨터학부 박사

이우진

경북대학교 컴퓨터학부 전임교수

논문 정보

제목: The Development of Biodegradable Fiber Tensile Tenacity and Elongation Prediction Model Considering Data Imbalance and Measurement Error
저자: 박세찬, 김덕엽, 서강복, 이우진 (경북대학교 컴퓨터학부)
학회/저널: KIPS Transactions on Software and Data Engineering (정보처리학회논문지/소프트웨어 및 데이터 공학)
발행일: 2022-12-01
DOI: 10.3745/KTSDE.2022.11.12.489
주요 연구 내용: 섬유 방사 공정 데이터의 특성(적은 양, 불균형, 샘플 간 오차)을 고려하여, 동일 방사 조건 클러스터 내 평균과의 거리를 기준으로 이상치를 처리하는 기법을 제안함. 또한, 여러 공정 변수와 예측 물성 간 상관계수 및 데이터 불균형 정도를 종합적으로 고려한 복합 데이터 증강 기법을 제안함.
주요 결과 및 결론: 제안한 이상치 처리 및 데이터 증강 기법을 적용했을 때, 기존 기법들(박스 플롯, CBLOF, ROS, SMOTE)보다 데이터 손실이 적고 불균형을 효과적으로 완화함. MLP 모델 기준, 인장 강도 예측에서 평균절대오차(MAE)는 약 27% 감소하고 조정된 결정계수( $R^2$ )는 0.5 미만에서 약 0.8 수준으로 크게 개선됨.
기여점: 데이터 수집이 어려운 섬유 산업에서 발생하는 데이터 부족, 불균형, 측정 오차 문제를 해결하기 위한 맞춤형 데이터 전처리 기법을 제안함. 이를 통해 AI 예측 모델의 성능과 신뢰도를 향상시켜 공정 비용 절감 및 품질 최적화에 기여할 수 있는 실용적 방안을 제시.

Analysing an imbalanced stroke prediction dataset using machine learning techniques

January 1, 2022 · 5 min read

Viswapriya Subramaniyam Elangovan

Rajeswari Devarajan

Osamah I. Khalaf

Mhd Saeed Sharif

Wael Elmedany

논문 정보

제목: Analysing an Imbalanced Stroke Prediction Dataset Using Machine Learning Techniques
저자: Viswapriya Subramaniyam Elangovan (SRM Institute of Science and Technology), Rajeswari Devarajan (SRM Institute of Science and Technology), Osamah I. Khalaf (Al-Nahrain University), Mhd Saeed Sharif (UEL University), Wael Elmedany (University of Bahrain)
학회/저널: KIJOMS
발행일: 2022-01-01
DOI: DOI 링크 없음
주요 연구 내용: Kaggle의 공개 뇌졸중 예측 데이터셋은 소수 클래스(뇌졸중 환자)가 매우 적은 불균형 문제를 가짐. 이 문제를 해결하기 위해 SMOTE와 Adasyn 같은 오버샘플링 기법을 적용하여 데이터셋의 균형을 맞추고, 제안하는 하이브리드 신경망-랜덤 포레스트(NN-RF) 모델의 성능을 평가함.
주요 결과 및 결론: 제안된 NN-RF 모델은 Adasyn 오버샘플링 기법을 적용했을 때 가장 높은 성능을 보였음. F1-score 75%, 정확도 84%, AUC 86%를 달성하여 다른 벤치마킹 알고리즘(DT, LR, NN, RF)보다 우수한 예측 성능을 입증함.
기여점: 데이터 불균형 문제를 해결하기 위한 오버샘플링 기법의 효과를 검증함. 또한, 기존 단일 모델들의 한계를 극복하기 위해 신경망과 랜덤 포레스트를 결합한 하이브리드 모델을 제안하고 그 우수성을 실험적으로 증명함.

논문 정보​

논문 정보​

논문 정보​

논문 정보

논문 정보

논문 정보