배터리식 전기차(BEV)는 이미 높은 에너지 효율을 갖추고 있지만, 강화 학습(RL)은 특히 듀얼 모터 구성에서 추가적인 최적화를 가능하게 하는 유망한 접근 방식으로 주목받고 있습니다. BMW 그룹은 데이터 기반 알고리즘을 활용해 토크 분배를 동적으로 최적화함으로써, 아직 발굴되지 않은 효율 잠재력을 끌어내기 위한 RL 기반 제어 전략을 탐구하고 있습니다. 이 소프트웨어 중심 접근법을 통해 차량 하드웨어를 변경하지 않고도 에너지 사용량을 최소화할 수 있습니다.
강화 학습(RL) 은 에이전트가 입력 데이터를 바탕으로 의사결정을 수행하는 인공지능 분야입니다. RL은 체스나 바둑과 같은 게임 응용 분야에서 출발해, 현재는 다양한 영역으로 적용 범위를 넓히고 있습니다. 에이전트는 환경의 현재 상태를 바탕으로 행동을 선택하며, 해당 행동은 다음 시간 단계에서 실행됩니다. 에이전트는 선택한 행동이 사전에 정의된 기준을 얼마나 잘 충족하는지를 나타내는 보상을 받습니다. 에이전트는 환경과의 수많은 상호작용을 통해 장기적인 보상을 극대화하는 정책을 학습합니다. RL 에이전트는 상태와 최적 행동 간의 관계가 매우 복잡한 경우에 특히 효과적입니다. 많은 시나리오에서 RL 시스템은 인간 전문가나 기존의 프로그래밍 기반 접근 방식보다 우수한 성능을 달성할 수 있습니다.
AI로 최적화된 듀얼 모터 전기차
BMW 그룹 연구 프로젝트의 일환으로, 전기차의 파워트레인 운용 전략에 RL 에이전트를 적용하고 있습니다. 해당 시나리오는 전륜 차축과 후륜 차축에 각각 하나씩, 총 두 개의 전동기를 탑재한 차량을 대상으로 합니다. 일반적인 주행 조건에서 운전자가 요구하는 총 휠 토크는 전륜 차축이나 후륜 차축에 설정하거나, 양쪽에 분배할 수 있습니다. 에이전트의 과제는 각 작동점에서 전기 파워트레인의 에너지 소비를 최소화하는 토크 분배를 결정하는 것입니다.
Python을 활용한 확장 가능하고 효율적인 RL 에이전트 배포
대부분의 인공지능(AI) 애플리케이션은 Python 프로그래밍 언어를 기반으로 구현됩니다. 다양한 검증된 RL 알고리즘(예: DDPG, TD3, SAC, PPO)이 오픈 소스 구현 형태로 제공됩니다(‘ 강화 학습(RL) ’ 참조). 또한 Python은 그래픽 처리 장치(GPU)의 병렬 처리를 손쉽게 지원해 에이전트 학습 속도를 크게 향상시킵니다. 개발 노력을 최소화하기 위해 이러한 기존 Python 구현을 재사용하는 것이 효과적입니다. 해당 알고리즘은 ARM 프로세서를 탑재한 소형 Linux 기반 산업용 컴퓨터에서 실행되어야 합니다. 이를 통해 다음과 같은 이점을 확보할 수 있습니다.
- 복잡한 개조나 추가적인 안전 조치 없이 차량에 하드웨어를 통합할 수 있습니다.
- 저전력 소비를 통해 차량 전기 네트워크에 가해지는 부하를 최소화할 수 있습니다.
- 부팅 시간이 짧아 데이터를 신속하게 생성할 수 있습니다.
따라서 최소한의 오버헤드로 간소화된 프로세스를 구현하는 것이 중요합니다.
학습 효율성
강력한 RL 에이전트를 개발하는 과정에서 중요한 과제는 상태 공간과 행동 공간을 적절히 정의하고, 보상 함수를 명확히 설계하는 것입니다. 본 프로젝트에서 상태는 차량 속도, 요구 토크, 배터리 전압, 조향각, 전동기의 다양한 온도 등 여러 신호로 구성됩니다. 행동은 차량 전기 모터 간의 원하는 백분율 기반 토크 분배를 나타내는 스칼라 값입니다. 보상은 강화 학습에서 보상이 최대화된다는 특성을 고려해, 전동기에 입력되는 전력의 음수 값으로 단순하게 정의됩니다. 기계적 출력 계산과 휠 토크 측정이 필요하지만, 양산 차량에서는 이 데이터가 직접 제공되지 않고 계산을 통해 산출되므로 전력 손실을 지표로 사용하는 방식은 의도적으로 제외했습니다. 계산된 값을 사용할 경우, 에이전트가 잠재적인 모델링 오류를 악용하는 방향으로 학습하여 결과의 품질이 저하될 수 있기 때문입니다. 학습 단계에서 확보한 대규모 훈련 데이터 세트에는 동일한 상태에서 서로 다른 행동을 선택하고, 그 결과로 상이한 보상이나 전력 소비 값을 생성하는 다수의 작동점이 포함되어 있습니다. RL 에이전트는 이러한 전력 소비의 차이를 식별하여 그에 맞춰 운용 전략을 조정할 수 있습니다. 이 접근 방식은 전력이 음수가 되는 회생 제동 단계에서도 적용할 수 있습니다.
타이어 손실을 포함한 전 구동계 에너지 소비 최적화
전력 소비를 보상으로 선택하면 타이어 손실을 포함한 구동 체인 전반에 걸쳐 소비가 최적화되는 추가적인 이점을 얻을 수 있습니다. 적절한 토크 분배를 선택하면 전동기를 유리한 작동점에서 구동할 수 있을 뿐만 아니라, 타이어 슬립을 줄여 에너지 손실을 더욱 감소시킬 수 있습니다. 완결성을 위해 덧붙이자면, RL 에이전트는 현재 작동점의 보상뿐 아니라 향후 보상의 누적치까지 함께 최적화할 수 있습니다. 최적 토크 분배의 맥락에서 이는 에너지 소비를 개별 시점이 아니라 전체 주행 궤적에 걸쳐 최소화할 수 있음을 의미합니다. 예를 들어, 에이전트는 초기 시간 단계에서의 전략적 토크 분배를 통해 전동기 온도를 효율적인 운전 범위 내로 유지하는 방법을 학습할 수 있습니다.
RTMaps를 활용한 실시간 제어용 RL 에이전트 배포
RL 에이전트 워크플로우는 dSPACE 계열사인 Intempora의 RTMaps 미들웨어를 사용해 구현됩니다. 이 미들웨어는 Python 코드를 신호 처리 파이프라인에 원활하게 통합할 수 있도록 Python 브릿지를 제공합니다. 이 프레임워크에서는 입력 인자(상태 및 보상)와 출력 인자(행동)가 정의되며, 이후 그래픽 인터페이스를 통해 다른 신호 블록과 연결할 수 있습니다. 코드 구조는 사전에 정의된 샘플링 속도로 핵심 함수를 실행하며, 표준 Python 라이브러리를 사용해 입력 데이터를 처리할 수 있도록 구성됩니다. 약간의 수정만으로도 기존 코드를 Python 브릿지에 통합할 수 있습니다. RL 에이전트는 상태와 보상 정보를 수신하고, 기반이 되는 신경망을 활용해 이에 대응하는 행동을 계산합니다. 반응성이 뛰어난 토크 분배 제어를 보장하기 위해 100Hz의 샘플링 속도를 선택했습니다. 동시에 시스템은 후속 분석과 보다 강력한 클라우드 기반 시스템에서의 학습을 용이하게 하기 위해 온보드 컴퓨터에 데이터를 기록합니다. 구동 제어 장치와의 통신은 RTMaps에서 지원하는 XCPoverCAN 프로토콜을 통해 설정됩니다. 이러한 통합은 제어 장치의 입력 및 출력 신호를 정의하는 구성 파일을 dSPACE Interface Manager를 사용해 생성함으로써 이루어집니다. 이 구성 파일은 이후 RTMaps 블록으로 컴파일되어 워크플로우에 직접 통합됩니다. 배포 단계에서는 임베디드 플랫폼용 RTMaps Runtime이 그래픽 사용자 인터페이스 없이 ARM 아키텍처에서 실행되도록 해 계산 오버헤드를 줄입니다. 이 워크플로우는 시스템 부팅 시 자동으로 시작되어 간소화된 운영 프로세스를 구현합니다.
실제 차량 시나리오에서의 RL 에이전트 검증
견고한 RL 에이전트를 개발하려면 대량의 학습 데이터가 필요합니다. 이에 따라 차량은 다양한 운전 조건에서 주행되며, 이 과정에서 상태, 행동, 보상이 이른바 리플레이 버퍼에 저장됩니다. 리플레이 버퍼를 기반으로 에이전트는 기반 신경망을 조정하는 오프폴리시 강화 학습 알고리즘을 사용해 학습됩니다. 완전히 학습된 에이전트는 이후 차량에 배포되어, 다양한 작동점에서 기존 운용 전략과 비교 평가됩니다. 측정 결과, 작동점에 따라 한 자릿수 초반 퍼센트 범위의 에너지 절감 효과가 확인되었습니다. 일부 작동 영역에서는 RL 기반 전략이 기존 접근법과 수렴하며, 기존 제어 방법론의 최적성을 입증했습니다. 에너지 절감 효과는 처음에는 미미해 보일 수 있으나, 비용이 많이 드는 하드웨어 변경 없이 소프트웨어 조정만으로 달성된다는 점을 고려하면 상당한 가치를 지닙니다. 이러한 개선은 이미 고도로 최적화된 시스템에서 효율 향상을 이끌어내며, 기존 방법으로는 확보하지 못했던 마지막 남은 잠재적 에너지 절감 여지를 겨냥한다는 점에서 특히 주목할 만합니다.
AI 기반 최적 토크 분배
결과는 RL 에이전트가 주행 요구, 배터리 전압, 전동기 온도 등 다수의 상태 변수 간에 존재하는 복잡한 상관관계를 효과적으로 식별해, 기존 제어 공학 방법론으로는 달성하기 어려운 방식으로 전력 소비를 최소화하는 최적의 토크 분배를 결정할 수 있음을 보여줍니다.
RL 에이전트의 결과는 다양한 구현 경로를 통해 양산 차량에 통합될 수 있습니다. 에이전트가 학습한 정책은 순수한 분석 툴로 활용될 수 있으며, 기존 제어 전략의 개선에 기여하는 복잡한 물리적 상관관계에 대한 통찰을 제공합니다. 이를 통해 개발 프로세스를 엔지니어 중심으로 유지하면서도 AI에서 도출된 인사이트를 효과적으로 활용할 수 있습니다. 또는 완전히 검증된 에이전트는 상태를 행동으로 매핑하는 결정론적 함수로서 차량 제어 유닛에 직접 배포될 수 있으며, 일관된 거동을 통해 AI 방법론을 사실상 임베디드 제품 구성 요소로 전환합니다. 이러한 결정론적 특성은 주어진 상태에 대해 에이전트가 동일한 제어 동작을 신뢰성 있게 생성하도록 보장해, 자동차 시스템에 요구되는 예측 가능성을 유지합니다.
차량 내 임베디드 AI 배포를 가능하게 하는 핵심 요소로서의 RTMaps
직관적인 RTMaps 미들웨어는 차량용 컴퓨터에서 이러한 에이전트를 성공적으로 구현하고, 다양한 데이터 신호와 스트림을 관리하는 데 핵심적인 역할을 했습니다. 이 플랫폼을 통해 기존 Python 알고리즘을 소폭의 수정만으로 활용할 수 있었습니다. 낮은 하드웨어 요구 사항 덕분에 차량 내 배포 비용을 최소화할 수 있었으며, 서로 다른 파워트레인 구성을 가진 추가 개발 차량으로의 확장도 용이해졌습니다. XCPoverCAN을 통한 차량과의 데이터 교환은 빠르고 안정적인 통신을 제공했습니다. 특히 프로젝트 초기에는 XCPoverCAN 및 XCPover-Ethernet 인터페이스가 아직 제공되지 않았으나, 요청 후 3개월 이내에 구현되어 프로젝트를 지연 없이 진행할 수 있었습니다.
다음 단계: 열 관리 시스템으로의 AI 제어 확장
RL 에이전트 접근 방식은 토크 분배를 넘어, 복잡한 물리적 관계가 얽힌 다양한 운용 전략으로 확장됩니다. 유망한 적용 분야 중 하나는 열 관리 시스템 제어로, 펌프, 플랩, 밸브, 팬과 같은 구성 요소를 최적으로 제어해 적정 온도를 유지하면서 에너지 소비를 최소화할 수 있습니다.
Benjamin Schläpfer 박사, BMW 그룹
저자 소개
Benjamin Schläpfer 박사는 독일 가르칭에 위치한 BMW 그룹 파워트레인 연구 부서에서 AI 엔지니어로 근무하고 있습니다.
dSPACE MAGAZINE, 2025년 12월 발행
강화 학습
강화 학습(RL)은 에이전트가 환경과의 시행착오적 상호작용을 통해 최적 정책을 학습하는 기계 학습 방법론입니다. 에이전트는 행동의 질을 나타내는 수치적 보상 신호를 받아, 누적 보상을 극대화하기 위해 의사결정 전략을 반복적으로 개선합니다. RL 알고리즘의 예시:
- Deep Deterministic Policy Gradient (DDPG)
- Twin Delayed DDPG (TD3)
- Soft Actor Critic (SAC)
- Proximal Policy Optimization (PPO)
각 알고리즘은 저마다 장단점을 지니고 있습니다. 적합한 알고리즘의 선택은 문제 설정, 보다 구체적으로는 상태, 행동, 보상 구조를 갖는 환경에 따라 달라집니다. 확립된 RL 알고리즘에 대한 우수하고 상세한 개요는 다음 소스에서 확인할 수 있습니다.
Spinning Up in Deep Reinforcement Learning(심층 강화학습 입문).
https://github.com/openai/spinningup
(Joshua Achiam, 2018)