스태킹 앙상블을 활용한 생분해성 섬유 원사 물성 예측 모델의 확장 - REJECTED
섬유 물성 예측 AI로써의 Stacking Ensemble과 다른 단일 및 Ensemble 모델들 간 비교 단일 모델, 간단한 Ensemble, 복잡한 Ensemble, Regression Chain, Stacking Ensemble 간 성능 비교
- 섬유 물성 예측의 특이점
- 변수들의 복잡한 상호작용
- 어떤 변수가 진짜 중요한 지 모델이 판단하기 어려움
- 비선형적 관계
- 간단한 패턴이 아니기에 간단한 모델로 예측이 어려움
- 숨겨진 요인이나 노이즈
- 동일한 조건에서도 결과가 달라지는 현상을 설명하기 어려움
- 변수들의 복잡한 상호작용
- 스태킹이 다른 모델들보다 유리할 것 같은 이유
- 단일 모델
- 하나의 장점만이 도드라지게 나와 과적합 되기 쉬움(Linear Regression은 비선형 관계를 파악하지 못하고, Dicision Tree의 경우 노이즈에 민감히 반응)
- 특정 상황에서 어떤 기본 모델이 강한지 메타 모델이 파악하여 상황에 맞게 강점을 조합하여 이종(Heterogeneous) 모델간 단점을 강점으로 보완할 수 있음
- 앙상블 모델
- Random Foreset와 XGBoost는 앙상블이나 같은 종류 모델을 조합한 것이기에 편향될 수 있음
- 이종 모델간 결합으로 서로 다른 관점의 예측을 종합해 단일 종류 앙상블 모델로 찾을 수 없는 고차원적 패턴을 발견할 수 있음
- 회귀 체인
- 회귀 체인은 순서 의존성과 오류 전파의 문제가 있는데 이를 파악 및 해결하기 위해 최적의 조합을 알기 어려움
- 스태킹은 각 물성을 독립적으로 예츠하는 모델들을 기반으로 할 수 있어 하나의 예측이 다른 예측을 오염시키는 일방통행의 구조가 아닌 두 예측값을 상호 참조하여 더 안정적인 최종 결론을 내리게끔 활용할 수 있음
- 단일 모델
| Model Group | Advantages | Limitations | Examples |
|---|---|---|---|
| Simple Single | 간단하고 해석 용이 | 복잡한 비선형성, 변수 상호작용, 노이즈에 취약 | Linear Regression, Dicision Tree, Support Vector Machine |
| (Simple / Advanced) Ensemble | 단일 모델보다 안정적 | 한 가지 관점으로 문제를 해석 | Simple: Random Forest(Bagging), Gradient Boosting(Boosting) Advanced: XGBoost, LightGBM, CatBoost |
| Regression Chain | 타겟 변수 간 관계 모델링 | 예측 순서에 의존적이며 오류 전파 될 위험이 있음 | |
| Stacking Ensemble | 다른 모델의 강점만을 조합 | 모델 구조가 복잡하고 학습 시간이 오래 걸림 |
- 강신도를 기반으로 2 Cycle(전체 물성으로 시도 시 시간적 여유가 없음)
- 성능 척도
- (결정계수): 모델이 데이터의 분산을 얼마나 잘 설명하는가
- MAE(평균 절대 오차): 실제값과 예측값의 차이의 절댓값 평균
- MSE(평균 제곱 오차): 오차의 제곱을 평균한 값
- Toleance Accuracy: 을 만족하는 데이터 비율
- 분석 방법
- CSV 데이터 시각화 후 해석
- SHAP
- Bar Plot
- Summary Plot
- Waterfall Plot
- Dependence Plot
- Force Plot
- Heatmap Plot
- 모든 공정변수를 넣고 진행
가장 타겟이 되는 공정변수 자체가 고뎃 롤러 1, 2의 속도인데 이를 제거해서 성능이 높게 나온 것으로 판단
- 공정 변수
- 융용지수
- 데니어
- 스핀빔 온도
- 매니폴드 온도
- 고뎃 롤러 1 속도
- 고뎃 롤러 1 온도
- 고뎃 롤러 2 속도
- 고뎃 롤러 2 온도
- 연신비
- 와인더 속도
- 물성
- 인장강도
- 인장신도
- 열응력-평균온도
- 열응력-평균강도
- 사불균제도
- 고분자 결정화도
- 열분해온도
- 용융온도
- 유리전이온도
- 공정 변수
- 연구 질문
- 모델링 접근법에 따른 계층적 성능 분석 섬유 물성 예측 문제에서 개별 물성을 독립적으로 예측하는 단일/앙상블 모델, 물성 간의 의존성을 순차적으로 반영하는 회귀 체인, 계층적 구조로 예측을 결합하는 스태킹 앙상블 간 예측 성능의 유의미한 향상이 관찰되는가?
- 연구 방법
- 계층적 비교 실험
- 비교 모델군 정의 위 표 참고
- 성능 평가 모든 모델군에 대해 5-fold Cross Validation으로 , MAE, MSE 등 성능 지표 측정 및 비교
- 산업적 실효성 및 통계적 유의성, 과적합 여부 검증
- 후보 모델 선정 가장 우수한 모델들을 후보로 선정
- 실효성 평가 후보 모델들의 허용 오차 정확도 비교
- 통계적 검증
스태킹과 대표 모델 간 Paired t-test를 수행해 통계적 유의성 증명
- 정량적 검증 훈련 및 테스트 성능 비교 교차 검증 점수 안정성: 와 같은 성능 점수들의 표준편차 확인
- 정성적 검증 Learning curve 분석: 훈련 데이터 양을 점진적으로 늘려 성능과 검증 세트 성능 변화를 시각화, 두 곡선이 수렴할 경우 과적합 없이 일반화 되었음을 시사
- XAI를 통한 공학적 타당성 검증
- 최종 모델 해석 최종적으로 가장 우수하다고 검증된 모델에 SHAP 분석 적용
- 핵심 변수 식별 핵심 변수를 식별하여 주요 공정 변수들 간 순위 파악
- 인과관계 분석 및 검증 SHAP Dependence Plot 등을 활용하여 핵심 변수와 물성 간 관계를 시각화 해 이 결과가 실제 섬유 공학 이론과 일치하는지 고찰
- 계층적 비교 실험
Memo
- REJECTED.