강화학습 트레이딩 시스템 구축 가이드 - 하이퍼 파라미터 튜닝 사례

강화학습 기반 트레이딩 시스템 개발 과정에서 성능을 극대화하는 핵심 요소인 하이퍼 파라미터의 중요성을 알아봅니다.
Apr 13, 2025
강화학습 트레이딩 시스템 구축 가이드 - 하이퍼 파라미터 튜닝 사례

강화학습 기반 트레이딩 에이전트 개발 과정

강화학습은 아래와 같은 구조로 이루어져 있습니다.

reinforcement learning structure
강화학습의 구조

State/Action/Reward는 강화학습의 핵심 구성 요소들입니다. 이 요소를 어떻게 설계하느냐에 따라 성능이 크게 달라질 수 있으며, 심한 경우 학습이 되지 않을 수도 있습니다.

강화학습을 실제 트레이딩 환경에 적용할 때는 일반적으로 다음과 같은 프로세스를 거쳐 적용됩니다.

reinforcement laerning pipeline

  1. 필요한 데이터 수집

  2. 엔지니어링
    - State Engineering (+Feature Engineering)
    - Action Engineering
    - Reward Engineering

  3. 모델 학습, 튜닝, 평가
    - 강화학습 알고리즘 선정 및 학습 진행
    - 하이퍼 파라미터 튜닝
    - 성능 평가

  4. 배포 및 모니터링

특히 이 중에서도 강화학습 모델의 성능을 결정짓는 중요한 요소 중 하나가 바로 하이퍼 파라미터(Hyper-parameter)이며, 오늘은 그에 대해 이야기해보려고 합니다.

하이퍼 파라미터란

일반적으로 "파라미터(Parameter)"라고 하면 신경망의 가중치를 의미합니다. 신경망 가중치 외에도 학습을 위해 결정되어야 할 여러 변수들이 존재합니다. 이를 "하이퍼파라미터(Hyperparameter)"라고 부릅니다. 강화학습 기반 트레이딩 에이전트 개발 시에는 크게 세 가지로 구분할 수 있습니다.

  • Engineering 단계 하이퍼 파라미터
    (예: State 표현 방식 및 튜닝 변수, Reward 설계 기준 등)

  • Model Building 단계 뉴럴넷 관련 하이퍼 파라미터
    (예: 뉴럴넷 구조, layer의 수, 학습률 등)

  • Model Building 단계 강화학습 알고리즘 관련 하이퍼 파라미터
    (예: 탐험 비율, 할인율 등)
    (+ 생각하기에 따라 어떤 강화학습 알고리즘을 사용할 것인지도 하이퍼 파라미터로 볼 수 있음)

이 하이퍼 파라미터들은 잘못 결정될 경우 모델이 가진 잠재적인 성능을 온전히 발휘하지 못하게 될 수 있습니다.

random search
Bergstra, Bengio. 2012. "Random Search for Hyper-Parameter Optimization"

위 그림에서 볼 수 있듯이, 같은 모델 구조와 같은 데이터를 사용하더라도 하이퍼 파라미터의 차이에 따라 성능은 극적으로 달라질 수 있습니다. 어쩌면 하이퍼 파라미터를 잘 찾았으면 꽤 성능 좋은 모델이 나올 수도 있었을텐데, 그 파라미터를 찾지 못해 해당 구조 자체가 성능이 나오지 않는 것으로 생각하고 가설을 폐기해 버릴지도 모릅니다.

그럼 하이퍼 파라미터 튜닝을 잘 하려면 어떻게 해야할까요?

하이퍼 파라미터 튜닝과 중요도/민감도 분석

하이퍼파라미터 튜닝을 진행하면서 각 파라미터에 따른 성능 변화를 면밀히 살펴보면, 특정 파라미터가 특히 민감하게 작용하는 것을 발견할 수 있습니다. 모델을 설계할 때 설정한 가설과 아이디어가 실제로 맞다면, 그 내용에 따라 민감한 파라미터와 그렇지 않은 파라미터를 예상해보고 정말로 그런지 살펴볼 수도 있을 것입니다.

parameter relationship as slice plot

어떤 파라미터들은 크기가 작을수록 성능 향상에 도움이 될 수도 있습니다. 반대로 크기가 커질수록 성능 향상에 도움이 될 수도 있고, 적절한 범위 내에 위치하기만 한다면 그 값은 그리 중요하지 않을 수도 있습니다.

high-dimensional parameter relationships

또는 다른 파라미터들과 관계가 있어서, 어떤 파라미터의 값이 달라지면 다른 파라미터의 값도 달라져야 할 수도 있습니다. 가장 대표적인 것이 batch size 와 learning rate 의 관계일 것입니다.

따라서 개발 과정에서 설계된 구조와 가설에 맞추어 하이퍼 파라미터의 중요도와 민감도 분석을 다양하게 진행해 보는 것은 필수입니다. 민감도 분석을 통해 중요한 파라미터에 더 집중적으로 튜닝을 진행하면 효율적이고 효과적인 모델 최적화를 달성할 수 있습니다.

하이퍼 파라미터 최적화 - 시뮬레이션 실험

2024년 11월 1일부터 2025년 1월 31일까지의 약 3개월간 BTC/USDT 5분봉 데이터를 이용해 강화학습 모델을 학습시키고, 2025년 2월 1일부터 2월 9일까지의 데이터를 활용하여 모델을 검증했습니다. 이후 약 한 달간의 데이터를 통해 백테스트를 진행하여 성능을 확인했습니다.

하이퍼 파라미터 세트 #1

Backtest
OOS Backtest Result (1)

첫 번째 결과에서는 포지션 없이 상황을 지켜보는 경우는 거의 없고, 가능한 포지션을 열어둔 채로 트레이딩을 하고 있습니다. 승률은 50% 내외 수준인데 하루에 평균 10번씩 트레이드를 하며 작은 수익을 계속 쌓아가는 모습을 보여줍니다. 첫 2주간 변동성과 방향성이 없는 구간에서는 조금씩 손실이 발생하다가, 이후 변동성이 커진 2주 동안 20% 수준의 수익을 내는 모습입니다.

하이퍼 파라미터 세트 #2

Backtest
OOS Backtest Result (2)

두 번째 결과에서는 첫 번째와 반대로, 가능한 포지션을 열지 않고 정말 확실할 때 짧게 트레이딩하는 모습을 보여줍니다. 승률은 65% 전후로, 한 번에 비교적 더 큰 수익을 내는 모습입니다. 하지만 하루에 1~4회 정도 수준으로 거래 횟수가 적어서인지, 전체 수익은 10% 정도로 그치네요. 초반 2주간 방향성과 변동성이 없을 때에는 거래 자체를 하지 않아 리스크에 노출되지 않는 모습입니다.

결론

흥미롭게도, 완전히 동일한 데이터와 코드임에도 불구하고 하이퍼 파라미터 설정에 따라 트레이딩 에이전트의 행동 패턴이 완전히 달라졌습니다. 이를 통해 하이퍼파라미터의 중요성을 다시 한번 확인할 수 있었으며, 강화학습 기반 트레이딩 시스템 구축 시 철저한 하이퍼 파라미터 튜닝이 성공의 핵심 요소임을 확인할 수 있었습니다.

QMELLION 소개

QMELLION은 강화학습 기반의 트레이딩 알고리즘을 집중적으로 연구하고 있습니다. 관련 연구 내용과 성과는 본 블로그를 통해 공유드리겠습니다.

Share article