A Feasibility Study on Applying Large Language Model Techniques to Grey-Box Modeling for Model Predictive Control

Taehun Yeo; Jeonghun Seo; Chanhyuk Mo; Jaewan Joe

doi:10.7836/kses.2026.46.3.237

Preview

Journal of the Korean Solar Energy Society. 30 June 2026. 237-250
https://doi.org/10.7836/kses.2026.46.3.237

A Feasibility Study on Applying Large Language Model Techniques to Grey-Box Modeling for Model Predictive Control

모델기반 예측제어를 위한 Grey-box 모델링의 LLM 기법 적용 가능성 검토 연구

Taehun Yeo¹

Jeonghun Seo¹

Chanhyuk Mo²

Jaewan Joe³^*

여 태훈¹

서 정훈¹

모 찬혁²

조 재완³^*

¹Master’s Student, Department of Smartcity Engineering, Inha University

²Undergraduate Student, Department of Data Science, Inha University

³Associate Professor, Department of Smartcity Engineering, Inha University

¹인하대학교 스마트시티공학과, 석사과정

²인하대학교 데이터 사이언스학과, 학사과정

³인하대학교 스마트시티공학과, 부교수

^{*Corresponding Author}

License (open-access, http://creativecommons.org/licenses/by-nc/4.0/):

This is an Open-Access article distributed under the terms of the Creative Commons Attribution NonCommercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

This study investigates the applicability of large language model (LLM) assistance to control-oriented grey box thermal modeling for future model predictive control (MPC) applications. Three modeling methods are compared under identical measured data conditions comprising a hand-coded RC grey box, an AI-generated RC grey box, and an AI-generated ANN black box. The experiments used measured sensor data obtained at 15 min intervals from four building zones and considered the official L1-L4 information levels. The performance was evaluated using the root mean squared error (RMSE) and the coefficient of variation of the root mean square (CVRMSE) for both one-step prediction and 24-h recursive rollout prediction. The results showed that the performance of the AI-generated RC grey box was more consistent across zones and information levels than the AI-generated ANN black box. Meanwhile, the artificial neural network (ANN) remained competitive in some cases but showed larger variability. These findings indicate that LLM assistance can support structured and reproducible grey-box workflow development without the need to replace conventional engineering modeling.

Keywords

grey-box model

large language model

artificial neural network

building thermal modeling

model predictive control

prediction accuracy

키워드

그레이박스 모델

대규모 언어모델

인공신경망

건물 열모델링

모델기반 예측제어

예측 정확도

MAIN

1. 서 론
1.1 연구 배경과 문제 정의
1.2 MPC 적용을 위한 예측모델의 요구조건
2. 선행연구 검토 및 연구 공백
2.1 MPC와 control-oriented building model
2.2 Grey-box 모델링 연구 동향
2.3 ANN 및 데이터 기반 예측 연구 동향
2.4 Physics-informed 및 LLM 보조 연구
2.5 연구 공백과 본 연구의 위치
3. 연구 프레임 및 방법론
3.1 전체 연구 프레임
3.2 세 가지 모델링 방법
3.3 RC 기반 Grey-box 모델의 구조
3.4 ANN 모델의 구조와 특성
3.5 정보 수준(Level) 설계
3.6 평가 지표와 비교 기준
4. 실험 설계
4.1 존 단위 데이터셋 구성
4.2 입력·출력 정의와 학습·테스트 프로토콜
4.3 재현성 및 실행 환경
5. 결과 및 논의
5.1 One-step 예측 결과
5.2 24시간 recursive rollout 예측 결과
5.3 정보 수준(Level) 효과 해석
5.4 MPC 적용성 관점의 해석
6. 결 론
6.1 연구의 요약
6.2 연구의 한계
6.3 향후 연구

기호 및 약어 설명

AI : Artificial intelligence

ANN : Artificial neural network

HVAC : Heating, ventilation, and air conditioning

LLM : Large language model

MPC : Model predictive control

RC : Resistance-capacitance network

RMSE : Root mean square error

CVRMSE : Coefficient of variation of the RMSE

Troom : Indoor air temperature

Tenv : Envelope temperature

Tout : Outdoor air temperature

Tcor : Adjacent-zone or corridor temperature

Qsol : Solar heat gain input

Qahu : Cooling input from HVAC system

Lgt : Lighting-related internal gain

Qint : Internal heat gain

1. 서 론

1.1 연구 배경과 문제 정의

건물은 외기온도, 일사, 재실, 내부발열 등 다양한 외란의 영향을 지속적으로 받기 때문에, 설계 시점의 정적 성능만으로 실제 운영 성능을 충분히 설명하기 어렵다. 이에 따라 실시간 또는 준실시간 운영 최적화를 지원할 수 있는 예측 기반 기법의 중요성이 커지고 있다¹⁾.

국가과학기술지식정보서비스(NTIS)에서 “건물” AND “에너지” AND “모델”을 검색어로 적용한 연도별 국가연구개발과제 건수는 2003년 2건에서 2019년 110건으로 증가하였고, 이후에도 2021년 138건, 2023년 138건, 2025년 139건 수준을 유지하고 있다²⁾. 이는 건물 에너지 관리와 모델링 연구에 대한 관심과 지원이 지속되고 있음을 보여준다.

모델기반 예측제어(MPC)는 미래 거동을 예측하고 제약조건과 목적함수를 함께 고려하여 현재의 제어입력을 결정하는 대표적 제어기법이다. 건물은 열관성이 크고 외란의 영향이 뚜렷하므로 MPC 적용성이 높지만, 실제 성능은 내부 예측모델의 품질에 크게 좌우된다^3,4).

1.2 MPC 적용을 위한 예측모델의 요구조건

MPC용 예측모델은 예측 정확도뿐 아니라 계산 효율, 물리적 해석 가능성, 재현성을 함께 확보해야 한다⁴⁾. 건물 열모델링은 white-box, grey-box, black-box로 구분되며, 이 중 RC 네트워크 기반의 저차 상태공간 grey-box 모델은 물리 구조와 데이터 기반 추정을 결합할 수 있어 MPC 연구에서 널리 활용되어 왔다^5,6,7).

그러나 grey-box 모델은 상태변수 및 입력변수 정의, 구조 설정, 파라미터 추정 코드 작성 등에서 여전히 연구자의 수작업 의존도가 높다⁷⁾. 최근 대규모 언어모델(LLM)은 코드 생성, 문서화, 실험 자동화 보조 등에서 활용 가능성을 보이고 있으나^8,9,10), 건물 열모델링에서는 물리 구조와 재현성 제약이 주어진 조건에서 제어 지향형 modeling workflow를 얼마나 일관되게 지원할 수 있는지가 중요하다.

이에 본 연구는 hand-coded RC grey-box, AI-generated RC grey-box, AI-generated ANN black-box를 동일한 실측 데이터 조건에서 비교하고, 공식 비교 범위를 L1-L4 정보 수준으로 한정하여 one-step prediction과 24-hour recursive rollout prediction을 함께 평가하였다. 이를 통해 LLM의 역할을 공학적 모델링의 대체가 아니라 control-oriented grey-box modeling workflow 지원 가능성의 관점에서 검토하고자 한다.

2. 선행연구 검토 및 연구 공백

2.1 MPC와 control-oriented building model

제어 지향 건물 모델은 단순 시뮬레이션용 모델과 달리 미래 응답 예측, 반복 계산 효율, 제약조건 반영 가능성을 함께 만족해야 한다. Drgoňa et al.³⁾, Killian and Kozek⁴⁾은 건물용 MPC의 실제 적용성을 좌우하는 요소로 예측모델의 구조, 계산 복잡도, 제약조건 처리 가능성을 공통적으로 강조하였다. 이러한 논의는 물리적 의미를 유지하면서도 계산 부담이 낮은 축약 모델의 필요성을 보여준다.

2.2 Grey-box 모델링 연구 동향

Grey-box 모델은 건물 열거동을 저차의 물리 구조로 표현하고, 미지의 파라미터를 실측 데이터로 식별하는 접근이다. Bacher and Madsen⁵⁾, Harb et al.⁶⁾, Li et al.⁷⁾은 RC 기반 grey-box 모델이 해석 가능성, 계산 효율, 낮은 데이터 요구량 측면에서 제어 연구에 적합함을 보여주었다. 다만 구조 선정, 입력변수 구성, 파라미터 추정 과정은 여전히 연구자의 경험과 수작업에 크게 의존한다.

2.3 ANN 및 데이터 기반 예측 연구 동향

ANN을 포함한 데이터 기반 모델은 복잡한 비선형 관계를 유연하게 학습할 수 있어 건물 에너지 예측에 널리 활용되어 왔다. Zhao and Magoulès¹¹⁾, Amasyali and El-Gohary¹²⁾, Bourdeau et al.¹³⁾은 이러한 접근의 활용 가능성을 보여주었으나, 해석 가능성이 낮고 입력 분포 변화와 데이터 길이에 민감하다는 점에서 MPC와 같은 제어 지향 응용에는 한계가 있다.

2.4 Physics-informed 및 LLM 보조 연구

최근에는 물리 정보와 데이터 기반 학습을 결합하는 physics-informed 또는 hybrid 접근이 제시되고 있다¹⁴⁾. 한편 Zheng et al.⁸⁾, O’Brien⁹⁾, Eger et al.¹⁰⁾은 LLM이 코드 생성, 실험 자동화, 문서화 지원 등 연구 보조 도구로 활용될 수 있음을 보여주었다. 그러나 건물 열모델링에서 LLM을 MPC 적용성과 연결하여 비교·검증한 연구는 아직 제한적이다.

2.5 연구 공백과 본 연구의 위치

기존 연구를 종합하면 세 가지 공백이 있다. 첫째, LLM을 활용한 건물 열모델링을 MPC 관점에서 정량적으로 비교한 연구가 부족하다. 둘째, hand-coded RC grey-box, AI-generated RC grey-box, AI-generated ANN black-box를 동일한 실측 데이터와 동일한 분할 조건에서 직접 비교한 연구가 드물다. 셋째, 정보 수준 변화와 장기 recursive rollout prediction까지 포함한 비교도 제한적이다.

이에 본 연구는 세 가지 모델링 방법을 동일한 실측 데이터 조건에서 비교하고, 공식 비교 범위를 L1-L4 정보 수준으로 한정하여 one-step prediction과 24-hour recursive rollout prediction을 함께 평가하였다. 이를 통해 LLM의 역할을 단순 자동화가 아니라 control-oriented building modeling workflow 지원의 관점에서 검토하고자 한다.

3. 연구 프레임 및 방법론

3.1 전체 연구 프레임

본 연구는 동일한 실측 존 단위 시계열 데이터를 기반으로 hand-coded RC grey-box, AI-generated RC grey-box, AI-generated ANN black-box의 세 가지 모델링 방법을 비교하였으며, 이를 Fig. 1에 나타내었다. 모든 비교는 동일한 공식 학습·검증 구간 조건에서 수행하였으며, 비교 범위는 L1-L4 정보 수준으로 한정하였다. 각 zone × Level 조합에 대해 AI-generated RC와 ANN을 생성하고, 이를 hand-coded RC grey-box와 함께 비교하였다. 성능 평가는 one-step prediction과 24-hour recursive rollout prediction으로 구분하여 수행하였으며, RMSE와 CVRMSE를 사용하여 정확도와 일관성을 함께 검토하였다. 또한 실험 결과는 코드, 하이퍼파라미터, 실행 환경, 로그, 프롬프트 요약을 포함하는 재현 가능한 패키지 형태로 정리하였다.

https://cdn.apub.kr/journalsite/sites/kses/2026-046-03/N0600460318/images/kses_2026_463_237_F1.jpg

Fig. 1

Overall comparison framework of the three modeling methods

3.2 세 가지 모델링 방법

본 연구의 비교 대상은 세 가지이다. 첫째, hand-coded RC grey-box는 연구자가 직접 RC 구조와 상태공간 표현을 구성한 기준선(reference baseline)이다. 둘째, AI-generated RC grey-box는 동일한 물리 계열 안에서 LLM 보조를 통해 구조화와 코드 생성을 수행한 모델이다. 셋째, AI-generated ANN black-box는 구조적 제약 없이 데이터로부터 실내온도를 직접 예측하는 비교군이다. 따라서 본 연구는 수작업 기반 물리 모델링, AI가 지원한 물리 모델링, AI가 생성한 black-box 예측기를 동일 조건에서 함께 비교하는 데 목적이 있다.

3.3 RC 기반 Grey-box 모델의 구조

본 연구의 RC grey-box 계열은 건물 열거동을 저차의 물리 기반 상태공간 구조로 표현하는 control-oriented thermal model로 구성하였다. 대표 상태는 외피 온도 $T_{e n v}$ 와 실내 공기 온도 $T_{r o o m}$ 이며, 주요 외생 입력은 외기온도 $T_{o u t}$ , 일사 입력 $Q_{s o l}$ , 인접 공간 온도 $T_{c o r}$ , 냉방 입력 $Q_{a h u}$ , 조명 부하 $L g t$ , 내부 발열 $Q_{i n t}$ 이다. 모델은 일반적으로 다음과 같은 이산 상태공간 형태로 표현된다.

(1)

x (k + 1) = A_{d} x (k) + B_{d} u (k)

(2)

y (k) = C_{d} x (k) + D_{d} u (k)

여기서 상태벡터와 입력벡터는 각각 다음과 같이 정의할 수 있다.

(3)

x (k) = [T_{e n v} (k) T_{r o o m} (k)]^{T}

(4)

u (k) = [T_{o u t} (k) Q_{s o l} (k) T_{c o r} (k) Q_{a h u} (k) L g t (k) Q_{i n t} (k)]^{T}

또한 본 연구에서는 출력 $y (k)$ 를 실내온도 $T_{r o o m} (k)$ 로 설정하였다. Hand-coded RC grey-box와 AI-generated RC grey-box는 모두 이러한 RC/state-space family 안에서 구성하였으며, hand-coded RC grey-box는 2R2C lumped RC thermal model, 즉 2-state state-space model로 구현하였다. 파라미터 추정은 MATLAB fmincon 기반 최적화로 수행하였다.

3.4 ANN 모델의 구조와 특성

본 연구의 AI-generated ANN black-box는 실내온도를 직접 추정하는 data-driven predictor로 구성하였다. 이 모델은 물리 기반 상태공간 구조를 명시적으로 사용하지 않고, 이전 시점의 실내온도와 해당 시점의 외생 입력으로부터 현재 시점의 실내온도를 직접 예측하는 direct one-step prediction 방식으로 구현하였다. 본 연구에서는 multilayer perceptron (MLP) 구조를 사용하였으며, 은닉층은 (32,16), 활성화 함수는 ReLU, 학습 알고리즘은 Adam으로 설정하였다. 또한 초기값의 재현성을 위해 random seed는 42로 고정하였다. 입력은 정보 수준별 외생 변수와 이전 시점의 실내온도 $T_{r o o m} (k - 1)$ , 출력은 현재 시점의 실내온도 $T_{r o o m} (k)$ 로 정의하였다. 이 모델은 높은 표현력을 가지지만 구조적 해석 가능성은 제한적이므로, 본 연구에서는 one-step prediction뿐 아니라 24-hour recursive rollout prediction에서도 함께 평가하였다.

3.5 정보 수준(Level) 설계

본 연구에서는 입력 정보의 양과 구성에 따른 모델 반응을 비교하기 위해 정보 수준(Level) 체계를 적용하였다. 공식 비교 범위는 L1-L4로 한정하였으며, 각 Level은 이전 수준의 입력 구성을 유지한 상태에서 추가 정보를 단계적으로 포함하도록 정의하였다. L1은 시간 정보, 실내온도, 외기온도, 일사 입력을 포함하는 기본 수준이며, L2는 여기에 인접 공간 온도 $T_{c o r}$ 를 추가한 수준이다. L3는 L2에 냉방 입력 $Q_{a h u}$ 를 포함하고, L4는 다시 조명 부하 $L g t$ 와 내부 발열 $Q_{i n t}$ 를 추가한 수준으로 정의하였다. 이러한 설계를 통해 본 연구는 입력 정보 확장에 대한 성능 민감도와 zone 및 정보 수준 전반에서의 일관성을 함께 검토하고자 하였다.

3.6 평가 지표와 비교 기준

본 연구의 평가는 one-step prediction과 24-hour recursive rollout prediction의 두 수준에서 수행하였다. One-step prediction은 주어진 시점의 입력과 이전 실내온도를 이용하여 다음 시점의 실내온도를 예측하는 방식이며, 24-hour recursive rollout prediction은 예측값이 다음 시점 입력으로 다시 사용되는 장기 horizon 평가 방식이다. 성능 평가는 RMSE와 CVRMSE를 기본 지표로 사용하였다. 또한 단순 평균 오차만으로 모델의 적합성을 판단하지 않고, zone 및 정보 수준 전반에서의 일관성과 변동성을 함께 고려하였다. 이를 위해 각 모델링 방법에 대해 평균 RMSE 및 평균 CVRMSE와 함께 조건 간 성능 분산을 비교하고, zone × Level 조합에서 상대적으로 더 우수한 성능을 보인 경우의 수를 win count로 정리하여 해석에 반영하였다.

4. 실험 설계

4.1 존 단위 데이터셋 구성

본 연구는 Pro office, Lab office, Conference room, Architectural office의 네 개 존에서 취득한 실측 시계열 데이터를 사용하였다. 측정에는 Graphtec GL840-SDM, Tanita TC-310, Govee H5074가 사용되었다. Graphtec GL840-SDM은 입력 전압 범위 20 mV–100 V에서 ±0.1%의 정확도를 가지며, Tanita TC-310은 온도 –10 ~ 60℃와 흑구온도 0 ~ 60℃에서 각각 ±0.1℃, 상대습도 0 ~ 100% 범위에서 30 – 90% 구간 ±3%, 그 외 구간 ±5%의 정확도를 제공한다. Govee H5074는 온도 –20 ~ 60℃에서 ±0.3℃, 습도 0 ~ 99% RH에서 ±3% RH의 정확도를 가지며, 약 80 m의 블루투스 통신 거리와 2초 간격의 데이터 갱신 주기를 제공한다. 모든 존 데이터는 15분 간격으로 정리하였고, 학습 및 검증은 전 존 공통으로 first-half train / second-half test 규칙을 적용하였다. 또한 외기온도 $T_{o u t}$ 와 일사 입력 $Q_{s o l}$ 은 기상청 ASOS 고정 데이터에서 취득하였다. 각 존의 용도, 기하 정보, 측정 기간, 전체 샘플 수, 학습/검증 샘플 수는 Table 1에 정리하였다.

Architectural office 데이터는 두 개의 비연속 주말 측정 구간으로 구성되었으며, 본 연구에서는 이를 하나의 연속 시계열로 단순 연결하지 않았다. 공식 학습·검증 구간 설정에 따라 첫 번째 주말 구간을 학습에, 두 번째 주말 구간을 검증에 사용하였으며, 검증 구간의 시작점은 해당 구간의 관측 초기값을 기준으로 설정하였다.

Table 1

Dataset specification of the four measured zones

Item	Pro office	Lab office	Conference room	Architectural office
Function	Professor office	Laboratory office	Conference room	Department office
Area (m²)	24.0	27.0	27.0	27.0
Volume (m³)	48.0	67.5	74.25	74.25
Height (m)	2.0	2.5	2.75	2.75
Measurement period	2022.07.01 ~ 2022.07.20	2023.07.09 ~ 2023.07.19	2025.07.11 ~ 2025.07.14	2025.06.28 ~ 2025.06.29 2025.07.05 ~ 2025.07.06
Total samples	1,920	1,054	384	384
Train / Test samples	960 / 960	527 / 527	192 / 192	192 / 192

4.2 입력·출력 정의와 학습·테스트 프로토콜

본 연구의 출력 변수는 모든 모델링 방법에서 공통적으로 실내온도 $T_{r o o m}$ 으로 설정하였다. 입력 변수는 정보 수준(Level)에 따라 단계적으로 구성하였으며, 공식 비교 범위는 L1–L4로 한정하였다. 각 Level은 이전 수준의 입력 구성을 유지한 상태에서 추가 정보를 포함하도록 정의하였으며, 세부 구성은 Table 2에 정리하였다.

모든 AI-generated RC grey-box 및 AI-generated ANN black-box 실험은 존별 공식 학습·검증 구간을 그대로 사용하는 동일한 조건에서 수행하였다. 각 존에 대해 first-half train / second-half test 규칙을 공통적으로 적용하고, 동일한 학습·검증 구간에서 zone × Level 조합별 모델을 생성하였다. Hand-coded RC grey-box는 연구자가 직접 구성한 reference baseline으로 사용하였으며, L1–L4에 1:1로 대응되는 level-matched baseline이 아니라 zone별 hand-coded thermal modeling workflow에 따라 구성된 모델이다. 기본적으로 $T_{o u t}$ , $Q_{s o l}$ , $T_{c o r}$ 를 사용하고, zone 및 데이터 가용성에 따라 $Q_{a h u}$ , $L g t$ , $Q_{i n t}$ 를 포함하였다.

성능 평가는 one-step prediction과 24-hour recursive rollout prediction으로 구분하였다. One-step prediction은 다음 시점 실내온도를 직접 예측하는 방식이며, 24-hour recursive rollout prediction은 예측값을 다음 시점 입력에 순차적으로 반영하는 방식이다.

Table 2

Definition of the official L1–L4 information levels and input variable configurations

Level	Included input variables	Description
L1	Time, Troom, Tout, Qsol	Indoor temperature, outdoor temperature, and solar input
L2	Time, Troom, Tout, Qsol, Tcor	L1 plus adjacent-zone or corridor temperature
L3	Time, Troom, Tout, Qsol, Tcor, Qahu	L2 plus HVAC cooling input
L4	Time, Troom, Tout, Qsol, Tcor, Qahu, Lgt, Qint	L3 plus lighting and internal heat gains

4.3 재현성 및 실행 환경

본 연구에서는 실행 환경과 결과 저장 형식을 고정하여 재현성을 확보하였다. AI 상호작용은 ChatGPT (GPT-5.4 Thinking) 웹 인터페이스 기반 대화형 환경에서 수행하였으며, 모든 AI 실험은 공식 학습·검증 구간과 정보 수준 정의를 유지하도록 하였다. 각 실험 결과는 실행 코드, helper 파일, 하이퍼파라미터, random seed, 실행 환경 정보, 실행 로그, 프롬프트 요약을 포함하는 재현 가능한 패키지 형태로 정리하였다. 대표 프롬프트 구조는 Fig. 2에 제시하였다.

https://cdn.apub.kr/journalsite/sites/kses/2026-046-03/N0600460318/images/kses_2026_463_237_F2.jpg

Fig. 2

Representative prompt excerpt and package components used in the AI-assisted experiments

5. 결과 및 논의

5.1 One-step 예측 결과

L1–L4 공식 비교 범위에서 one-step prediction 결과를 비교한 결과, AI-generated RC grey-box는 전반적으로 AI-generated ANN black-box보다 더 낮은 오차와 더 작은 변동성을 보였다. 특히 Lab office와 Architectural office에서는 대부분의 Level에서 RC grey-box가 더 안정적인 성능을 나타냈으며, Conference room에서는 ANN의 오차 변동이 더 크게 나타났다. 반면 Pro office의 일부 Level에서는 ANN이 비슷하거나 더 낮은 오차를 보이기도 하였다. 이러한 결과는 Table 3에 정리하였다.

따라서 one-step prediction 결과는 AI-generated RC grey-box가 모든 조건에서 절대적으로 우수함을 의미하지는 않지만, zone 및 정보 수준 전반에서 상대적으로 더 일관된 성능을 보였음을 시사한다. 또한 hand-coded RC grey-box와 비교하면, AI-generated RC grey-box는 일부 존에서 기준선 대비 경쟁력 있는 성능을 보였으며, 동일한 control-oriented RC family 안에서 AI 보조 기반 구조화와 코드 생성의 가능성을 보여주었다.

Table 3

One-step prediction performance by zone, information level, and modeling method

Zone	Level	Hand-coded RC grey-box	AI-generated RC grey-box	AI-generated ANN black-box
Pro office	L1	RMSE/CVRMSE 1.232 / 4.131	0.248 / 0.831	0.305 / 1.021
	L2		0.248 / 0.830	0.327 / 1.095
	L3		0.300 / 1.005	0.254 / 0.853
	L4		0.290 / 0.970	0.259 / 0.868
Lab office	L1	RMSE/CVRMSE 0.535 / 2.072	0.336 / 1.302	0.457 / 1.770
	L2		0.336 / 1.302	0.408 / 1.579
	L3		0.260 / 1.008	0.324 / 1.253
	L4		0.267 / 1.035	0.382 / 1.481
Conference room	L1	RMSE/CVRMSE 0.633 / 2.599	0.727 / 2.990	0.836 / 3.435
	L2		0.727 / 2.990	2.340 / 9.616
	L3		0.406 / 1.669	0.777 / 3.194
	L4		0.576 / 2.366	2.329 / 9.572
Architectural office	L1	RMSE/CVRMSE 0.739 / 2.995	0.583 / 2.363	0.928 / 3.763
	L2		0.582 / 2.360	0.805 / 3.263
	L3		0.358 / 1.450	0.871 / 3.531
	L4		0.380 / 1.539	0.627 / 2.543

5.2 24시간 recursive rollout 예측 결과

24-hour recursive rollout prediction에서는 모든 모델에서 one-step prediction보다 오차가 증가하는 경향이 나타났다. 그럼에도 불구하고 AI-generated RC grey-box는 전반적으로 AI-generated ANN black-box보다 더 안정적인 결과를 유지하였다. 특히 Lab office와 Architectural office에서는 대부분의 Level에서 RC grey-box가 더 낮은 오차를 보였고, Conference room과 Pro office에서는 일부 조합에서 ANN이 경쟁력 있는 결과를 보이기도 하였다.

이러한 결과는 장기 horizon에서도 AI-generated RC grey-box가 전반적으로 더 안정적인 예측 거동을 보였음을 시사한다. 다만 일부 조건에서 ANN이 더 우수한 경우도 존재하므로, 특정 모델의 절대적 우월성보다 zone 및 정보 수준 전반에서의 상대적 일관성에 주목하는 것이 타당하다.

Hand-coded RC grey-box는 zone-level reference baseline으로 사용되었으며, Table 4의 24-hour recursive rollout comparison은 동일한 L1–L4 information-level protocol에서 구성된 AI-generated RC grey-box와 AI-generated ANN black-box의 장기 예측 거동 비교로 범위를 한정하였다.

Table 4

24-hour recursive rollout prediction performance by zone, information level, and AI-generated modeling method

Zone	Level	AI-generated RC grey-box	AI-generated ANN black-box
Pro office	L1	1.923 / 6.444	2.285 / 7.659
	L2	1.849 / 6.198	2.095 / 7.022
	L3	2.298 / 7.703	1.109 / 3.718
	L4	2.189 / 7.338	1.277 / 4.280
Lab office	L1	2.201 / 8.522	2.976 / 11.525
	L2	2.180 / 8.441	2.221 / 8.600
	L3	0.672 / 2.602	0.881 / 3.412
	L4	0.703 / 2.724	0.923 / 3.575
Conference room	L1	3.650 / 15.001	2.884 / 11.855
	L2	3.654 / 15.020	3.994 / 16.417
	L3	1.345 / 5.526	1.246 / 5.122
	L4	2.024 / 8.320	3.301 / 13.568
Architectural office	L1	1.714 / 6.949	3.863 / 15.665
	L2	1.829 / 7.417	2.585 / 10.484
	L3	0.773 / 3.135	1.391 / 5.641
	L4	0.824 / 3.341	1.277 / 5.180

5.3 정보 수준(Level) 효과 해석

정보 수준 효과는 one-step prediction과 24-hour recursive rollout prediction 모두에서 모델링 방법에 따라 다르게 나타났다. AI-generated RC grey-box는 전반적으로 L1–L4에 대해 비교적 완만한 성능 변화를 보였으며, 특히 Lab office와 Architectural office에서 보다 안정적인 경향이 확인되었다. 반면 AI-generated ANN black-box는 일부 조건에서 우수한 결과를 보였으나, zone과 Level 변화에 따라 성능 편차가 더 크게 나타났다.

예를 들어 Conference room에서는 L2와 L4에서 ANN의 오차가 크게 증가하였으며, 이는 입력 정보가 제한된 조건, 해당 존의 열적 거동 특성, 학습 구간과 검증 구간 사이의 조건 차이와 함께, Pro office나 Lab office에 비해 상대적으로 짧은 데이터 길이의 영향 가능성도 함께 고려할 수 있다. Table 1에서 보듯이 Conference room의 전체 샘플 수는 384개(train 192 / test 192)로 제한적이었으며, 이러한 점은 데이터 길이에 민감한 ANN 경로의 불안정성과도 관련될 수 있으며, 결과의 상세 내용은 Fig. 3에 나타내었다.

https://cdn.apub.kr/journalsite/sites/kses/2026-046-03/N0600460318/images/kses_2026_463_237_F3.jpg

Fig. 3

One-step&24-hour recursive rollout (CV)RMSE heatmaps by zone, modeling method, and information level

5.4 MPC 적용성 관점의 해석

본 연구의 목적은 가장 낮은 오차를 보인 모델을 단순히 선별하는 데 있지 않다. MPC 적용성의 관점에서 더 중요한 것은 예측 정확도와 함께 구조적 해석 가능성, 재현성, 상태공간화 가능성, 제약조건과의 연계 용이성을 함께 확보하는 것이다. 이러한 기준에서 볼 때, AI-generated RC grey-box는 hand-coded RC grey-box와 동일한 RC/state-space family 안에서 구성되면서도, AI 보조를 통해 구조화와 코드 생성을 수행하였다는 점에서 control-oriented modeling에 적합한 대안을 제시한다.

반면 AI-generated ANN black-box는 일부 조건에서 높은 예측 정확도를 보였으나, 구조적 해석 가능성이 제한되고 장기 horizon에서 성능 편차가 더 크게 나타났다. 따라서 본 연구 결과는 LLM의 가치가 단순한 black-box 예측기 생성보다, 물리 구조를 유지한 control-oriented modeling workflow 지원에서 더 크게 나타날 수 있음을 시사한다. 다만 본 연구는 4개 존 기반의 feasibility study이며, 실제 closed-loop MPC 성능까지 직접 입증한 것은 아니라는 점에서 이러한 해석은 가능성의 수준에서 이해할 필요가 있다.

6. 결 론

6.1 연구의 요약

본 연구는 대규모 언어모델(LLM) 지원이 제어 지향형 건물 열모델링 workflow를 어느 정도까지 지원할 수 있는지를 검토하기 위해, hand-coded RC grey-box, AI-generated RC grey-box, AI-generated ANN black-box의 세 가지 모델링 방법을 동일한 실측 데이터 조건에서 비교하였다. 실험은 네 개 존(Pro office, Lab office, Conference room, Architectural office)의 15분 간격 실측 시계열 데이터를 기반으로 수행하였으며, 공식 비교 범위는 L1–L4 정보 수준으로 한정하였다. 또한 성능 평가는 one-step prediction과 24-hour recursive rollout prediction으로 구분하여 수행하였다.

분석 결과, AI-generated RC grey-box는 전반적으로 AI-generated ANN black-box보다 더 낮은 오차와 더 작은 성능 변동성을 보였으며, 장기 horizon에서도 비교적 안정적인 예측 거동을 유지하였다. 다만 일부 zone과 Level에서는 ANN이 더 낮은 오차를 보이는 경우도 확인되었으므로, 본 연구 결과를 특정 모델의 절대적 우월성으로 해석하는 것은 적절하지 않다.

이러한 결과는 LLM이 기존의 공학적 모델링을 대체한다는 의미가 아니라, 물리 구조와 재현성 제약이 주어진 조건에서 control-oriented RC grey-box modeling workflow의 구조화, 코드 생성, 실험 패키징을 지원할 수 있음을 시사한다. 따라서 본 연구의 의의는 특정 모델의 우수성을 단정하는 데 있기보다, LLM 보조 기반 AI-generated RC grey-box가 제어 지향형 건물 열모델링의 실용적 가능성을 가질 수 있음을 정량 비교를 통해 제시한 데 있다.

6.2 연구의 한계

본 연구에는 몇 가지 한계가 있다. 첫째, 실험 대상이 4개 존의 실측 데이터에 한정되어 있어 건물 유형, 점유 패턴, 계절 조건의 다양성을 충분히 포괄하지 못하였다. 둘째, 본 연구는 one-step prediction과 24-hour recursive rollout prediction까지는 수행하였으나, 실제 closed-loop MPC 운전 성능을 직접 검증한 것은 아니다. 셋째, hand-coded RC grey-box는 zone별 reference baseline이고, AI-generated 두 모델은 L1–L4 정보 수준 민감도 실험이라는 점에서 비교 구조가 완전히 동일한 level-matched setting은 아니다. 넷째, LLM 활용에 따른 생산성 향상이나 모델링 시간 절감은 별도의 정량 지표로 직접 평가하지 않았다.

6.3 향후 연구

향후 연구에서는 더 다양한 건물과 존, 그리고 계절 조건을 포함한 확장 데이터셋을 구축하여 모델의 일반화 가능성과 robustness를 검증할 필요가 있다. 또한 one-step prediction과 24-hour recursive rollout prediction을 넘어, 더 긴 horizon의 multi-step prediction과 실제 closed-loop MPC validation으로 연구를 확장할 필요가 있다. 아울러 hand-coded RC grey-box와 AI-generated RC grey-box를 보다 엄격하게 대응시키는 비교 프레임을 설계하고, 프롬프트, 코드, 로그, 환경 정보의 공개 범위를 확대함으로써 재현성을 더욱 강화할 수 있다. 마지막으로, LLM 활용의 실질적 가치를 보다 직접적으로 평가하기 위해 모델 생성 시간, 수정 횟수, 재실행 용이성과 같은 productivity-oriented 지표를 포함한 정량 평가도 수행할 필요가 있다.

Acknowledgements

This work was supported by the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT) (RS-2026-25481686).

References

International Energy Agency, Buildings–Energy Efficiency 2025, 2025. https://www.iea.org/reports/energy-efficiency-2025/buildings. last accessed on the 23^rd March 2026.

National Science & Technology Information Service, Annual Project Count Search Results for “Building” AND “Energy” AND “Model” through 2025 (in Korean), 2026. https://www.ntis.go.kr/ThSearchProjectList.do. last accessed on the 23^rd March 2026.

Drgoňa, J., Arroyo, J., Cupeiro Figueroa, I., Blum, D., Arendt, K., Kim, D., Perarnau Ollé, E., Oravec, J., Wetter, M., Vrabie, D. L., and Helsen, L., All You Need to Know about Model Predictive Control for Buildings, Annual Reviews in Control, Vol. 50, pp. 190-232, 2020, https://doi.org/10.1016/j.arcontrol.2020.09.001.

10.1016/j.arcontrol.2020.09.001

Killian, M. and Kozek, M., Ten Questions Concerning Model Predictive Control for Energy Efficient Buildings, Building and Environment, Vol. 105, pp. 403-412, 2016, https://doi.org/10.1016/j.buildenv.2016.05.034.

10.1016/j.buildenv.2016.05.034

Bacher, P. and Madsen, H., Identifying Suitable Models for the Heat Dynamics of Buildings, Energy and Buildings, Vol. 43, No. 7, pp. 1511-1522, 2011, https://doi.org/10.1016/j.enbuild.2011.02.005.

10.1016/j.enbuild.2011.02.005

Harb, H., Boyanov, N., Hernandez, L., Streblow, R., and Muller, D., Development and Validation of Grey-Box Models for Forecasting the Thermal Response of Occupied Buildings, Energy and Buildings, Vol. 117, pp. 199-207, 2016, https://doi.org/10.1016/j.enbuild.2016.02.021.

10.1016/j.enbuild.2016.02.021

Li, Y., O’Neill, Z., Zhang, L., Chen, J., Im, P., and DeGraw, J., Grey-Box Modeling and Application for Building Energy Simulations–A Critical Review, Renewable and Sustainable Energy Reviews, Vol. 146, 111174, 2021, https://doi.org/10.1016/j.rser.2021.111174.

10.1016/j.rser.2021.111174

Zheng, Z., Ning, K., Wang, Y., Zhang, J., Zheng, D., Ye, M., and Chen, J., A Survey of Large Language Models for Code: Evolution, Benchmarking, and Future Trends, arXiv preprint arXiv:2311.10372, 2023, https://doi.org/10.48550/arXiv.2311.10372.

10.48550/arXiv.2311.10372

O’Brien, G., How Scientists Use Large Language Models to Program, Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems, Article 876, April–May 2025, Yokohama, Japan, https://doi.org/10.1145/3706598.3713668.

10.1145/3706598.3713668

Eger, S., Cao, Y., D’Souza, J., Geiger, A., Greisinger, C., Gross, S., Hou, Y., Krenn, B., Lauscher, A., Li, Y., Lin, C., Moosavi, N. S., Zhao, W., and Miller, T., Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation, arXiv preprint arXiv:2502.05151, 2025, https://doi.org/10.48550/arXiv.2502.05151.

10.48550/arXiv.2502.05151

Zhao, H.-X. and Magoules, F., A Review on the Prediction of Building Energy Consumption, Renewable and Sustainable Energy Reviews, Vol. 16, No. 6, pp. 3586-3592, 2012, https://doi.org/10.1016/j.rser.2012.02.049.

10.1016/j.rser.2012.02.049

Amasyali, K. and El-Gohary, N. M., A Review of Data-Driven Building Energy Consumption Prediction Studies, Renewable and Sustainable Energy Reviews, Vol. 81, No. 1, pp. 1192-1205, 2018, https://doi.org/10.1016/j.rser.2017.04.095.

10.1016/j.rser.2017.04.095

Bourdeau, M., Zhai, X.-Q., Nefzaoui, E., Guo, X., and Chatellier, P., Modeling and Forecasting Building Energy Consumption: A Review of Data-Driven Techniques, Sustainable Cities and Society, Vol. 48, 101533, 2019, https://doi.org/10.1016/j.scs.2019.101533.

10.1016/j.scs.2019.101533

Di Natale, L., Svetozarevic, B., Heer, P., and Jones, C. N., Physically Consistent Neural Networks for Building Thermal Modeling: Theory and Analysis, Applied Energy, Vol. 325, 119806, 2022, https://doi.org/10.1016/j.apenergy.2022.119806.

10.1016/j.apenergy.2022.119806

Journal of the Korean Solar Energy Society ISSN:1598-6411(Print) 2508-3562(Online) 한국태양에너지학회 논문집

Preview

A Feasibility Study on Applying Large Language Model Techniques to Grey-Box Modeling for Model Predictive Control

ABSTRACT

MAIN

Fig. 1

Overall comparison framework of the three modeling methods

(1)

(2)

(3)

(4)

Table 1

Dataset specification of the four measured zones

Table 2

Definition of the official L1–L4 information levels and input variable configurations

Fig. 2

Representative prompt excerpt and package components used in the AI-assisted experiments

Table 3

One-step prediction performance by zone, information level, and modeling method

Table 4

24-hour recursive rollout prediction performance by zone, information level, and AI-generated modeling method

Fig. 3

One-step&24-hour recursive rollout (CV)RMSE heatmaps by zone, modeling method, and information level

Acknowledgements

References