생분해성 섬유 방사 레시피 최적해 탐색을 위한 회귀 체인 활용

역설계 프레임워크을 생성하여 파레토 프론트를 도출하여, 설계자에게 다양한 최적 선택지를 제공할 수 있는 방법론 모색

전략
- 회귀 체인 구축: 물성 간 순서를 정해 체인을 구축
- 최적화 결합: 유전 알고리즘(GA), 베이지안 최적화(BO)의 적합도 함수로 사용
- 탐색: 최적화 알고리즘이 공정 변수(X)를 탐색할 때, 회귀 체인은 각 후보들에 대해 순차적으로 예측하여 다중 목표에 얼마나 근접했는지 평가
기대효과
- 물성 간 Trade-off 관계를 고려한 최적해 도출
- 파레토 프론트 도출로 다양한 최적 선택지 제공
연구 질문
1. [예측 성능 비교] 생분해성 섬유의 다중 물성을 예측함에 있어, 회귀 체인 모델이 개별 물성을 독립적으로 예측하는 모델이나 전통적인 다변량 회귀 모델(MVR) 대비 얼마나 우수한 예측 정확도를 보이는가?
2. [물성 간 상호작용 규명] 회귀 체인의 체인 순서와 특성 중요도 분석을 통해 어떤 방사 공정 변수가 어떤 방사 공정 변수가 어떤 물성에 가장 큰 영향을 미치는지, 물성 간의 상호 의존성이 레시피 최적화에 어떤 제약 조건으로 작용하는 지 규명할 수 있는가?
3. [모델의 강건성 및 일반화] 학습된 회귀 체인 모델이 데이터 노이즈나 일부 데이터 누락에도 안정적인 예측을 제공하는가? 또 학습에 사용되지 않은 새로운 MI의 PLA나 스케일업 공정에도 일반화된 예측 성능을 보일 수 있는가?
왜 역설계 모델이 다중 목표여야 하는지
- 물성 간 Trade-off: 섬유의 주요 물성은 독립적이지 않으며, 대부분 서로 상충 관계이다.
  - 강도 & 생분해성: 인장강도를 높이기 위해 분자 구조를 더 촘촘하고 안정적인 결정형으로 만들어야 한다. 하지만 이는 생분해성(데이터에 없음)을 저하시킨다.
  - 강도 & 신도: 강도를 높이게 될 경우 신도가 저하하고, 신도를 높이게 될 경우 강도가 저하되게 되는데, 어느 정도의 강도와 신도를 보장하는 섬유를 생산할 때에 이전의 단일 목표로는 한계가 있다.
  - 신도 & 안정성: 신도를 높일 경우 특정 용도에 유리해지나, 공정 안정성이나 열적 안정성이 저하된다.
- 섬유의 쓸모
  - 위 예시에서 강도와 신도처럼 상충될 때 다차원적인 성공 영역 내에서 최적 레시피를 찾는 것이 바람직하다.
  - 다중 목표 역설계의 경우 최적의 타협점(Pareto Optimal Solution)을 제시할 수 있다.
왜 단일 역설계 모델이 아니라 역설게 프레임워크인지
1. One to Many
  - 역설계 모델은 동일한 목표 물성을 달성하는 여러 개의 레시피가 존재할 수 있다.
2. 파레토 프론트 도출
  - 단일 역설계 모델은 본질적으로 하나의 정답을 출력하도록 설계되어 있어 파레토프론트를 생성하는 데 적합하지 않다.
  - 최적화 알고리즘의 출력물, 비지배 솔루션 집합인 파레토 프론트로 다양한 최적 선택지를 제공할 수 있다.
3. 물리적 제약 조건 및 강건성 확보
  - 프레임워크 방식 채택으로 인해 물리적 제약 조건을 최전화 알고리즘의 탐색 범위로 설정 가능하다.
  - 가장 성능이 뛰어난 정방향 모델을 Fitness Function으로 활용하여 탐색된 해의 신뢰도가 높다.
파레토 프론트를 어떻게 추천할 것인지
1. 생성
  - Fitness Function으로 회귀 체인, 다변량 회귀 모델, 개별 물성을 사용한다. 이중 회귀 체인, 다변량 회귀 모델의 경우 물성 간 상호 의존성을 학습한다.
  - GA나 BO를 통해 공정 변수의 수많은 조합을 탐색한다.
  - 탐색된 각 레시피(X) 후보는 Fitness Function에 입력되어, 다중 물성 값(Y)을 예측받고, 이 예측값을 바탕으로 적합도를 평가한다.
  - 과정이 끝날 경우 비지배 솔루션의 집합인 파레토 프론트가 도출된다. 각 집합의 정점은 $(x, y)$ 로 나타나며 $x=$ 레시피, $y=$ 예측 물성 쌍을 갖는다.
2. 시각화
  - 도출된 파레토 프론트는 다차원 데이터다. 직관적 이해를 위해, Figure를 위해 시각화가 필수적이다.
    - $4^+$ $4^{+}$ Objective: 4차원 이상의 다차원 관계는 Parallel Coordinate Plot(PCP)를 사용하여 시각화한다.
      - PCP는 각 축을 물성으로 놓고, 각 레시피가 이 축들을 어떻게 통과하는 지의 선으로 시각화한다.
      - Trade-off를 파악하기 유용하다.
    - $3$ Objective: 3D Scatter Plot이나 Bubble Chart를 통해 파레토 프론트를 시각화한다. PCP도 추가적으로 사용한다.
    - $2$ Objective: 2D Scatter Plot으로 파레토 프론트를 시각화한다. PCP도 추가적으로 사용한다.
3. 상호작용
  - 목표 기반 필터링
    - 물성 당 최소 요구 스펙을 입력받는다.
  - 동적 하이라이팅
    - 사용자가 PCP에서 선을 선택할 경우 해당 정점들을 하이라이팅한다. 이를 통해 다차원 관계를 입체적으로 탐색 가능해진다.
  - 솔루션 상세 정보
    - 특정 정점을 선택할 경우 추천 레시피와 예측 물성의 상세 수치를 제시한다.
4. 의사결정 지원
  - 대표 솔루션 군집화
    - 파레토 프론트의점들을 클러스터링 알고리즘얼 통해 분석하여 여러 대표 전략을 자동으로 분류해 제시한다.
  - 가중치 기반 추천
    - 각 물성의 가중치를 입력하여 가장 높은 호용 점수를 갖는 레시피를 제시한다.
  - 강건성 분석
    - 모델 민감도 분석을 통하여 현실적으로 안정적인 최적해를 추천할 수 있다.
실험
- 설계
  - 학습 세트, 검증 세트(70%)
    - RC, MVR, 독립 모델 학습 및 검증한다.
    - 가장 성능이 우수하고, 강건하다고 판명된 모델을 선택한다.
  - 최종 검증 세트(30%)
    - 파레토 프론트의 신뢰도를 검증하기 위한 정답 데이터이다.
    - 학습과 모델 선정에서 격리되어야 한다.
- 검증
  1. 모델 구축
  2. 파레토 프론트 예측
  3. 최종 검증 세트와 예측된 파레토 프론트의 값들을 동시에 표현
- 해석
  - 파레토 프론트가 최종 검증 세트와 유사한 경우 프레임워크 신뢰도가 높다.
  - 파레토 프론트가 최종 검증 세트보다 터무니없이 차이가 날 경우 가짜 최적해를 찾거나, 진짜 최적해를 찾지 못한다,
체크리스트
- 독창성
  - Materials Infomatics(재료 정보학) 분야에서 다중 목표 최적화를 위해 회귀 체인을 역설계 Fitness Function으로 활용한다.
  - 다중 출력 모델이 물성 간 상관관계를 다루는 데 그치지 않고 명시적 순차적 의존성을 모델링한다.
  - 단순 예측을 넘어 체인 순서 잧를 분석 변수로 활용해 어떤 물성이 지배적인 물성인지 도출한다.
- 엄밀성
  - 독립 모델, MVR, RC의 비교 대상을 제시한다.
  - 데이터 노이즈, 누락 상황, 새로운 MI, 스케일업 상황을 가정해 강건성과 일반화 성능을 테스트하여 가능성을 검증한다.
  - RQ 1, 2, 3이 성능 검증, 메커니즘 분석, 실용성 검증의 흐름을 가져 논리적이다.
- 명확성
  - 물성 간 Trade-off와 실제 섬유를 사용하기 위한 최소 요구 사항 만족이라는 문제를 제시하여 다중 물성 역설계 프레임워크가 필요함을 제시한다.
  - 최소 요구 사항 이상을 만족하는 최적해 집합을 아웃풋으로 제시한다.
- 영향력
  - 재료 정보학출력 변수 간 의존성을 다루는 방법론을 제시한다.
  - 도출된 파레토 프론트는 실제 생분해성 섬유 R&D 과정에서 리소스 소비를 줄인다.
- 한계점
  - 데이터 의존성
  - 체인 순서의 모호성
  - 이산적 변수 처리
  - 물성, 공정 변수 데이터의 부재