The emergent role of explainable artificial intelligence in the materials sciences
논문 정보
- 제목: The emergent role of explainable artificial intelligence in the materials sciences
- 저자: Tommy Liu (School of Computing, Australian National University), Amanda S. Barnard (School of Computing, Australian National University)
- 학회/저널: Cell Reports Physical Science
- 발행일: 2023-10-18
- DOI: 10.1016/j.xcrp.2023.101630
- 주요 연구 내용: 본 논문은 설명가능 인공지능(XAI)의 현황을 검토하고, 재료 정보학 워크플로우를 보강할 수 있는 도구로서 XAI 방법론(내재적, 사후, 데이터-프로세스)을 분류하여 제시함. 특히 재료 과학 분야에서 활용되는 복잡한 블랙박스 모델을 해석하기 위해 모델에 구애받지 않는 사후 분석 기법인 SHAP(Shapley additive explanations)의 중요성을 강조함.
- 주요 결과 및 결론: XAI는 재료 과학에서 머신러닝 예측을 실제 전략으로 전환하는 데 있어 신뢰성 구축, 인과관계 이해에 필수적임. 특히 섀플리 값(Shapley values)과 같은 XAI 기법의 도입은 모델을 개선하고, 실험 설계를 안내하며, 머신러닝 예측에 기반한 투자 결정을 정당화함으로써 재료 발견을 가속화할 수 있음.
- 기여점: 재료 과학자들을 위한 XAI 활용 실용 가이드를 제공하며 물리 과학 분야와 가장 관련성이 높은 방법들을 조명함. 복잡한 머신러닝 예측과 과학적 이해 사이의 간극을 메우고, 재료 정보학에서 모델 검증과 과학적 방법의 가속화에 있어 XAI의 역할을 제시함.
요약
초록
합리적인 머신러닝과 창의적인 재료 과학의 결합은 새로운 재료를 발견, 설계, 스크리닝하는 강력한 방법인 재료 정보학을 탄생시켰다. 그러나 유망한 예측에서 실용적인 전략으로 나아가기 위해서는 구조-물성 관계를 넘어, 머신러닝 모델이 어떻게 특정 구조적 특징을 사용해 목표 물성을 예측하는지 이해하는 것이 중요하다. 설명가능 인공지능(XAI)은 통계에 기반한 컴퓨터 과학의 신흥 분야로, 데이터, 모델, 애플리케이션 결정의 결과를 이해하기 위한 분석 도구나 불필요한 변수와 중요한 특징을 구별하여 모델을 개선하는 방법으로 사용될 수 있다. 이 논문은 XAI의 최신 기술을 개괄하고 물리 과학에 가장 유용한 방법들을 강조하며, 특히 심층 신경망과 거대 언어 모델의 사용이 증가함에 따라 그 중요성이 커질 XAI 방법의 특성에 초점을 맞춘다.
서론
머신러닝(ML)은 과학적 발견을 가속화하고 있지만, 신경망과 같은 많은 고급 알고리즘은 입력 특징이 목표 레이블과 어떻게 관련되는지에 대한 통찰을 제공하지 않는 블랙박스로 작동한다. 이러한 투명성 부족은 재료 정보학(MI) 분야에서 ML의 추가적인 도입을 막는 중요한 장애물이다. 설명가능 인공지능(XAI)은 모델이 어떻게 작동하는지 이해하고 그 결과를 실제 응용으로 변환할 수 있는 통찰을 제공하는 강력하고 재현 가능한 기법을 통해 이러한 문제를 해결하기 위해 등장했다.
배경
XAI 분야에서는 해석가능성(Interpretability)과 설명가능성(Explainability)이라는 두 가지 핵심 개념이 사용된다. 해석가능성은 인간이 이해할 수 있는 용어로 의미를 제공하는 능력으로, 주로 단순하고 가정이 명확한 통계 모델의 특성과 관련된다. 반면 설명가능성은 인간과 의사결정자(모델) 사이에 정확하고 이해하기 쉬운 인터페이스를 제공하는 것을 목표로 하는 더 넓은 개념이다. XAI는 모델의 신뢰성(Trustworthiness), 인과성(Causality), 전이성(Transferability), 확신(Confidence)과 같은 인간 중심의 고려사항을 보장하는 데 매우 중요하다.
모델 아키텍처 / 방법론
이 논문은 특정 모델을 제안하기보다 XAI 방법론을 체계적으로 분류하고 설명한다. 논문의 Figure 2에서 제시된 바와 같이, XAI 기법은 ML 파이프라인의 각 단계에 적용될 수 있다.
-
핵심 구조/방법: XAI 기법은 크게 세 가지로 분류된다.
- 내재적으로 해석 가능한 모델 (Intrinsically Interpretable Models): 결정 트리나 선형 회귀와 같이 내부 구조가 투명하여 의사결정 과정을 쉽게 이해할 수 있는 모델. 예를 들어, 선형 회귀 모델은 형태로 각 입력 변수가 결과에 미치는 영향을 명확히 보여준다.
- 사후 설명 (Post-Hoc Explanations): 이미 훈련된 복잡한 모델을 외부에서 분석하여 출력이 어떻게 생성되었는지에 대한 유용한 근사치를 제공하는 기법. 이 방법들은 모델에 구애받지 않아(model-agnostic) 어떤 ML 워크플로우에도 편리하게 통합될 수 있다.
- 해석 가능한 데이터-프로세스 기법 (Interpretable Data-Process Techniques): 데이터 자체를 변환하거나 전처리하는 과정에 해석 가능한 기법을 적용하는 방법으로, 차원 축소나 데이터 보간 등이 포함된다.
-
주요 구성 요소: Table 1에서 소개된 주요 사후 설명 기법들은 다음과 같다.
- 순열 중요도 (Permutation Importance): 특정 피처를 무작위로 섞었을 때 모델 성능이 얼마나 감소하는지를 측정하여 피처의 중요도를 계산한다.
- 전역/지역 대리 모델 (Global/Local Surrogates): 복잡한 모델의 전체 또는 특정 영역의 예측을 모방하는 더 단순하고 해석 가능한 모델(예: 선형 회귀)을 학습시킨다.
- 반사실적 설명 (Counterfactual Explanations): "예측 결과를 바꾸기 위해 필요한 최소한의 입력 변화는 무엇인가?"라는 질문에 답하며, 인간 친화적인 설명을 제공한다.
- 섀플리 값 (Shapley Values): 협력 게임 이론에서 비롯된 개념으로, 각 피처가 특정 예측에 기여한 정도를 공정하게 분배하여 계산한다. SHAP(Shapley Additive Explanations) 프레임워크를 통해 널리 활용된다.
실험 결과
본 논문은 자체 실험 대신 XAI가 재료 과학 분야에서 어떻게 활용되는지에 대한 사례를 제시한다.
- 주요 데이터셋: 특정 데이터셋에 국한되지 않고, 의약품 연구(화합물 활성 예측), 다공성 재료(연료 로딩 최적화), 페로브스카이트 태양전지 등 다양한 재료 과학 하위 분야의 응용 사례를 다룬다.
- 핵심 성능 지표: XAI, 특히 SHAP 분석은 모델 예측에 가장 큰 영향을 미치는 핵심 요인을 식별하는 데 사용된다. 예를 들어, 페로브스카이트 태양전지 연구에서 SHAP 분석을 통해 페로브스카이트 층의 양이온 대 음이온 비율과 어닐링 온도가 전력 변환 효율(PCE)에 가장 크게 기여함을 밝혔다. 논문의 Figure 3, 4에 제시된 Force Plot은 SHAP 분석의 대표적인 시각화 도구로, 각 피처의 기여도를 직관적으로 보여준다.
- 비교 결과: XAI는 다양한 모델과 방법론을 비교하는 데 유용하다. 예를 들어, 테이블 형태 데이터에서는 복잡한 심층 신경망(DNN)보다 트리 기반 모델(예: XGBoost)이 종종 더 나은 성능을 보이며 해석하기도 용이하다고 언급한다. 또한, SHAP은 LIME과 같은 다른 지역 설명 기법보다 이론적으로 더 견고한 특성을 가진다고 비교한다.
결론
XAI 분야는 아직 초기 단계에 있지만 재료 정보학(MI)의 발전에 매우 중요하다. 재료 과학 연구는 데이터 획득 비용이 높기 때문에, XAI를 활용하여 불필요한 데이터를 제거하고 모델을 정교화하며, 향후 수집할 데이터를 결정하는 등 실험 설계를 효율적으로 이끌 수 있다. 저자들은 향후 XMI(Explainable Materials Informatics)라는 하위 분야가 등장할 것을 예측하며, SHAP과 같은 사후 분석 기법을 워크플로우에 통합함으로써 복잡한 ML 예측을 의미 있고 신뢰할 수 있는 과학적 통찰로 전환하여 재료 발견을 더욱 가속화할 것이라고 전망한다.