전문가칼럼 : 국내외 전문가의 신기술 및 활용 사례 연구를 통해 더 많은 지식과 경험을 배워보세요.

인공지능 응용 전산유체역학 고도화(2) Data-driven 기법

작성자: 전준구 교수 | Mar 11, 2025 4:23:39 AM

1. Data-driven 기법의 중요성

 

이번 칼럼에서는 CFD 고도화를 위한 data-driven ML (DDML) 기법들의 개요와 대표적인 예시에 대해 소개하고자 한다. Data-driven 기법은 말 그대로 참 값 혹은 참 값으로 가정할 수 있는 데이터(오차를 포함할 수 있음)를 활용하여 인공지능 모델을 학습시킨다. (본 칼럼에서는 인공지능과 기계학습을 구분하지 않겠다.)

 

우리가 상상하는 멋진 인공지능 종사자들은 고도화된 모델 개발을 위해 수학 공부에 머리를 싸매고 유려하게 코딩을 하고 있지만, 실상 인공지능 혹은 데이터 사이언스 산업에서 모델 개발에 투자되는 시간은 생각보다 적다. 대부분의 시간은 데이터를 모으고 처리하는 말 그대로 데이터 수집 업무에 할애된다.

 

오픈소스 형태의 인공지능 모델을 활용할 경우, 과정해서 표현하자면 노이즈가 적은 데이터를 모으고 관리하는 것이 인공지능 모델의 정확도를 높이는데 전부이다. 1편에서 소개한 physics-informed ML (PIML)의 등장은 그렇기 때문에 더욱더 각광을 받고 있다. 가장 많은 시간을 할애하는 데이터 수집 과정을 생략 혹은 획기적으로 축소할 수 있기 때문이다.

 

그렇기 때문에 특히 학생들에게는 data-driven 기법이 마치 구식 기술처럼 느껴질 수 있다. 필자도 physics-informed ML에 관심이 많고 활발하게 연구를 수행 중이지만, data-driven ML의 중요성을 3가지 이유로 강조하고 싶다.

 

(1) PIML의 제한된 활용 가능 분야

(2) DDML의 뛰어난 잠재력

(3) 강화 학습에서의 DDML 활용성

 

먼저 우리의 기대와 다르게 PIML의 활용 분야는 꽤 한정적이다. PIML도 많은 정의와 범주가 있지만, 일반적으로는 방정식 형태의 물리 지식을 인공지능 모델 디자인에 활용한 경우를 의미한다. 계산하고 싶은 대상에 관한 방정식을 우리가 수학적/물리적으로 사전에 알고 있을 때 이를 인공지능 모델 디자인에 활용하는 것이다.

 

현상에 대한 지배 방적으로 손실 함수를 구성하는 physics-informed neural networks (PINNs)과 universal approximation theorem이라는 수학적 정의를 아키텍처 디자인에 활용한 deep operator networks (DeepONet)가 그 대표적인 예시이다 [1,2]. 그러나 이는 다시 말하면 우리가 사전에 풀고자 하는 문제 혹은 함수에 대한 사전 물리 지식이 존재해야 함을 의미한다. 여기서 (1)PINL의 제한된 활용 가능 분야 문제가 발생한다.

 

Computational fluid dynamics (CFD)와 같은 역학 분야에서는 이러한 물리 지식이 당연하게 느껴질 수 있겠지만 [3,4], 재료와 바이오 같은 많은 공학 분야에서는 상황이 다를 수 있다. 심지어 CFD에서도 이상 유동, 난류 그리고 연소와 같이 더 복잡한 유동에 대해서는 인간이 가진 물리 지식의 한계가 존재한다.

 

이는 (2)DDML의 뛰어난 잠재력과 연결된다. 인공지능의 장점은 인간이 해결하지 못한 고차원 비선형성 문제를 매우 효과적으로 근사하여 해결한다는 것이다 [2]. 만약 인공지능 모델링이 인간의 물리 지식에 과도하게 의존될 경우, 그 잠재력을 제한할 수 있다. 실제로 최근 산업적 활용이 급격하게 증가한 자연어와 이미지 인공지능 분야 역시 DDML에 분류된다.   

 

마지막으로 (3)강화 학습에서의 활용성의 경우, 강화 학습은 지도학습과 비지도 학습과 구분되게, 사전에 구축된 데이터가 아닌 에이전트(agent)와 환경(environment)의 행동(action) 상호작용을 통해 정책(policy)이 학습된다.

 

이는 대부분의 경우 인간이 최적 정책(optimal policy)에 대한 참 값을 모르기 때문이다. 참 값에 대한 물리 지식 존재 자체가 어려운 강화학습도 DDAI로 분류된다 [5]. 강화 학습의 기초와 유체역학 활용 사례에 대해 관심 있는 독자는 필자의 유튜브 영상을 참조하길 바란다. (https://www.youtube.com/ watch?v=a-RbmqFmGA0).

 

이러한 3가지 이유로 우리는 data-driven 인공지능 기술을 고도화하고 그 활용성을 고민해야 한다. 물론 최근 DDML과 PIML의 경계가 모호해지고 있으나, 각 범주의 정의와 대표 사례를 이해하는 것은 향후 연구에 큰 도움이 된다. 필자가 인공지능 강의를 해오면서 가장 많이 들었던 질문은 (특히 공학 분야분들에게) "그래도 결국 인공지능은 블랙박스 아닌가요?"이다.

 

설명 가능한 AI 등 많은 연구들이 인공지능 기술의 신뢰성을 입증하고자 노력하고 있지만, 여전히 이 질문에 대한 의견은 분분하다. 우리는 DDML을 신뢰하고 사용할 수 있을까? 정말 블랙박스인 걸까? 2장에서는 이에 대한 객관적 사실과 필자의 견해를 밝히고자 한다. 그전에 우선 인공지능의 원리를 이해해야 한다 (그렇지 않으면 정말 블랙박스다!). 인공신경망(articial neural network)를 기준으로 인공지능의 원리를 간단히 소개하고자 한다. 

 

 

2. 인공신경망과 universal approximation theorem

 

 

우리는 학부 때 데이터 사이언스의 시작이라 할 수 있는 선형회귀(linear regression)에 대해 배웠다. 그림1(좌)의 파란 점과 같이 우리가 변수 x에 대한 변수 y의 데이터를 수집하였다고 생각해 보자. (변수가 하나인 가장 단순한 조건이다). 집의 면적에 따른 월세 가격일 수도, 중량에 따른 소고기 가격일 수도 있다. 그런데 우리는 모든 x 값에 따른 y 값 데이터를 얻을 수 없기에, 수집한 데이터 사이에 누락된 혹은 바깥 범위 x 에서의 y 값을 예측하고 싶다.   

 

 😥 미리 보기는 여기까지!
내용을 이어서 보고 싶다면,
아래 정보를 입력해 주세요.