Skip to main content

스태킹 앙상블을 활용한 생분해성 섬유 원사 물성 예측 모델의 확장 - REJECTED

섬유 물성 예측 AI로써의 Stacking Ensemble과 다른 단일 및 Ensemble 모델들 간 비교 단일 모델, 간단한 Ensemble, 복잡한 Ensemble, Regression Chain, Stacking Ensemble 간 성능 비교

  • 섬유 물성 예측의 특이점
    • 변수들의 복잡한 상호작용
      • 어떤 변수가 진짜 중요한 지 모델이 판단하기 어려움
    • 비선형적 관계
      • 간단한 패턴이 아니기에 간단한 모델로 예측이 어려움
    • 숨겨진 요인이나 노이즈
      • 동일한 조건에서도 결과가 달라지는 현상을 설명하기 어려움
  • 스태킹이 다른 모델들보다 유리할 것 같은 이유
    • 단일 모델
      • 하나의 장점만이 도드라지게 나와 과적합 되기 쉬움(Linear Regression은 비선형 관계를 파악하지 못하고, Dicision Tree의 경우 노이즈에 민감히 반응)
      • 특정 상황에서 어떤 기본 모델이 강한지 메타 모델이 파악하여 상황에 맞게 강점을 조합하여 이종(Heterogeneous) 모델간 단점을 강점으로 보완할 수 있음
    • 앙상블 모델
      • Random Foreset와 XGBoost는 앙상블이나 같은 종류 모델을 조합한 것이기에 편향될 수 있음
      • 이종 모델간 결합으로 서로 다른 관점의 예측을 종합해 단일 종류 앙상블 모델로 찾을 수 없는 고차원적 패턴을 발견할 수 있음
    • 회귀 체인
      • 회귀 체인은 순서 의존성과 오류 전파의 문제가 있는데 이를 파악 및 해결하기 위해 최적의 조합을 알기 어려움
      • 스태킹은 각 물성을 독립적으로 예츠하는 모델들을 기반으로 할 수 있어 하나의 예측이 다른 예측을 오염시키는 일방통행의 구조가 아닌 두 예측값을 상호 참조하여 더 안정적인 최종 결론을 내리게끔 활용할 수 있음
Model GroupAdvantagesLimitationsExamples
Simple Single간단하고 해석 용이복잡한 비선형성, 변수 상호작용, 노이즈에 취약Linear Regression, Dicision Tree, Support Vector Machine
(Simple / Advanced) Ensemble단일 모델보다 안정적한 가지 관점으로 문제를 해석Simple: Random Forest(Bagging), Gradient Boosting(Boosting) Advanced: XGBoost, LightGBM, CatBoost
Regression Chain타겟 변수 간 관계 모델링예측 순서에 의존적이며 오류 전파 될 위험이 있음
Stacking Ensemble다른 모델의 강점만을 조합모델 구조가 복잡하고 학습 시간이 오래 걸림
  • 강신도를 기반으로 2 Cycle(전체 물성으로 시도 시 시간적 여유가 없음)
  • 성능 척도
    • R2R^2(결정계수): 모델이 데이터의 분산을 얼마나 잘 설명하는가
    • MAE(평균 절대 오차): 실제값과 예측값의 차이의 절댓값 평균
    • MSE(평균 제곱 오차): 오차의 제곱을 평균한 값
    • Toleance Accuracy: (실제값예측값임계값)(|실제값-예측값|\leq임계값)을 만족하는 데이터 비율
  • 분석 방법
    • CSV 데이터 시각화 후 해석
    • SHAP
      • Bar Plot
      • Summary Plot
      • Waterfall Plot
      • Dependence Plot
      • Force Plot
      • Heatmap Plot
  • 모든 공정변수를 넣고 진행 가장 타겟이 되는 공정변수 자체가 고뎃 롤러 1, 2의 속도인데 이를 제거해서 성능이 높게 나온 것으로 판단
    • 공정 변수
      • 융용지수
      • 데니어
      • 스핀빔 온도
      • 매니폴드 온도
      • 고뎃 롤러 1 속도
      • 고뎃 롤러 1 온도
      • 고뎃 롤러 2 속도
      • 고뎃 롤러 2 온도
      • 연신비
      • 와인더 속도
    • 물성
      • 인장강도
      • 인장신도
      • 열응력-평균온도
      • 열응력-평균강도
      • 사불균제도
      • 고분자 결정화도
      • 열분해온도
      • 용융온도
      • 유리전이온도
  • 연구 질문
    • 모델링 접근법에 따른 계층적 성능 분석 섬유 물성 예측 문제에서 개별 물성을 독립적으로 예측하는 단일/앙상블 모델, 물성 간의 의존성을 순차적으로 반영하는 회귀 체인, 계층적 구조로 예측을 결합하는 스태킹 앙상블 간 예측 성능의 유의미한 향상이 관찰되는가?
  • 연구 방법
    1. 계층적 비교 실험
      1. 비교 모델군 정의 위 표 참고
      2. 성능 평가 모든 모델군에 대해 5-fold Cross Validation으로 R2R^2, MAE, MSE 등 성능 지표 측정 및 비교
    2. 산업적 실효성 및 통계적 유의성, 과적합 여부 검증
      1. 후보 모델 선정 가장 우수한 모델들을 후보로 선정
      2. 실효성 평가 후보 모델들의 허용 오차 정확도 비교
      3. 통계적 검증 스태킹과 대표 모델 간 Paired t-test를 수행해 통계적 유의성 증명
        1. 정량적 검증 훈련 및 테스트 성능 비교 교차 검증 점수 안정성: R2R^2와 같은 성능 점수들의 표준편차 확인
        2. 정성적 검증 Learning curve 분석: 훈련 데이터 양을 점진적으로 늘려 성능과 검증 세트 성능 변화를 시각화, 두 곡선이 수렴할 경우 과적합 없이 일반화 되었음을 시사
    3. XAI를 통한 공학적 타당성 검증
      1. 최종 모델 해석 최종적으로 가장 우수하다고 검증된 모델에 SHAP 분석 적용
      2. 핵심 변수 식별 핵심 변수를 식별하여 주요 공정 변수들 간 순위 파악
      3. 인과관계 분석 및 검증 SHAP Dependence Plot 등을 활용하여 핵심 변수와 물성 간 관계를 시각화 해 이 결과가 실제 섬유 공학 이론과 일치하는지 고찰

Memo

  • REJECTED.