시스템 트레이딩의 진화, 강화학습 트레이더 개발 배경

금융 투자에 강화학습을 적용하는 것은 쉽지 않지만, 성공한다면 큰 효과를 기대할 수 있습니다. QMELLION 에서 강화학습 트레이더를 개발하게 된 배경을 공유드립니다.
Mar 13, 2025
시스템 트레이딩의 진화,
강화학습 트레이더 개발 배경

투자, 사람보다 AI가 잘할 수 있을까?

많은 사람들이 투자하면 워런 버핏처럼 장기적인 안목을 갖춘 가치투자자를 떠올립니다. 하지만 그와는 다르게 순간적인 판단력과 빠른 결정력으로 유명해진 전설적인 트레이더들, 예를 들어 제시 리버모어나 조지 소로스 같은 인물들도 있습니다. 이들은 뛰어난 직관과 경험을 바탕으로 단기적인 시장의 흐름을 탁월하게 읽어냈지만, 그들의 성공을 따라하는 일 또한 결코 쉽지 않습니다.

왜일까요? 사람의 직관은 종종 감정과 편견에 쉽게 흔들리기 때문입니다. 시장이 급변하면 두려움이나 욕심 같은 감정이 판단을 흐리게 할 수 있습니다. 또한, 사람은 무의식적으로 과거의 성공 경험을 과신하거나 최근의 실패를 과도하게 경계하기도 합니다.

그렇다면 데이터를 바탕으로 감정이나 편향 없이 냉철한 판단을 내릴 수 있는 인공지능(AI)은 어떨까요?

사람의 직관적 판단과는 달리, AI는 방대한 데이터를 빠르게 분석하고, 시장의 미세한 움직임을 감지하여 합리적인 결정을 내릴 수 있을 것입니다. 더 중요한 것은 AI는 피로를 느끼지 않고, 심리적 스트레스에도 영향을 받지 않으며, 24시간 내내 시장의 변화에 대응할 수 있다는 점입니다.

하지만 과연 이 모든 게 이론처럼 쉬운 일일까요? 

AI
사진: Unsplash의Steve Johnson

AI 와 강화학습, 강화학습과 투자

AI, 그 중에서도 특히 딥러닝은 보통 지도학습과 비지도학습, 강화학습으로 구분을 해왔습니다(요즈음에는 점차 경계없이 함께 사용되고 있는 추세이지만요). 특히 그 중 강화학습(Reinforcement Learning)이란 무엇일까요?

강화학습은 인공지능이 스스로 시행착오를 통해 점점 더 나은 결정을 학습해가는 방식을 의미합니다. 마치 사람이 자전거를 배울 때 넘어지고 다시 일어나기를 반복하면서 결국 균형을 잡게 되는 과정과 유사합니다.

강화학습의 핵심은 '보상(Reward)'과 '행동(Action)'이라는 두 가지 요소입니다. AI는 주어진 상황에서 어떤 행동을 선택하면 긍정적인 결과(보상)를 얻을 수 있는지를 끊임없이 실험하며 학습합니다. 예를 들어, 바둑에서 알파고는 수많은 수를 두어보며 어떤 수를 선택해야 승리라는 보상을 얻을 수 있는지를 반복적으로 학습했습니다. 결국 인간 챔피언을 뛰어넘는 능력을 갖추게 된 것이죠.

이러한 강화학습은 금융 시장의 투자에도 효과적으로 적용될 수 있습니다. AI는 시장 데이터를 바탕으로 다양한 투자 전략을 실험하고, 그 결과를 분석하여 수익이라는 '보상'을 극대화하는 전략을 찾아냅니다. 예를 들어, 주식 가격이 특정 패턴을 보일 때 언제 사고 팔아야 가장 좋은 결과를 얻을 수 있을지 스스로 판단하고, 이를 반복하며 더 뛰어난 전략을 구축해 나가는 것이죠.

기존의 정적인 모델 기반 투자 방식과 달리, 강화학습을 활용하면 시장 환경이 변하더라도 스스로 적응하며 전략을 빠르게 수정할 수 있다는 장점이 있습니다. 강화학습은 예측보다 최적화에 초점을 둡니다. 전통적인 퀀트 모델이 미래를 예측하려는 데 집중하는 반면, 강화학습을 활용한 투자는 반복적 행동과 보상 분석을 통해 어떤 행동이 가장 높은 수익을 낼 수 있는지 최적의 전략을 찾아갑니다. 이는 불확실성이 높은 금융 시장에서 특히 강력한 강점입니다.

하지만 이러한 장점에도 불구하고, 강화학습을 실제 투자에 적용하는 과정은 매우 까다롭습니다.

강화학습 기반 퀀트 트레이딩의 과제

트레이딩에 강화학습을 적용할 때 가장 큰 어려움 중 하나는 데이터의 불확실성과 노이즈입니다. 시장 데이터는 종종 비정상적이거나 예상치 못한 움직임을 보이며, 잘못된 데이터로 인해 알고리즘이 잘못된 학습을 할 가능성도 있습니다.

또한 과적합(overfitting)의 위험성도 존재합니다. 과거 데이터에 과도하게 최적화된 모델은 실제 시장에서는 오히려 성능이 떨어질 수 있습니다. 이러한 문제를 방지하기 위해 강화학습 알고리즘은 실시간으로 지속적인 검증과 업데이트를 거쳐야 합니다.

알고리즘이 내린 결정의 근거를 인간이 이해하기 어려운 문제도 있습니다. 전통적인 퀀트 모델은 투자 전략의 근거를 수학과 통계, 경제적 전문 지식 등으로 설명 가능합니다. 하지만 강화학습이 만들어낸 의사결정은 뉴럴넷을 통해 결과를 출력하기 때문에 인간이 그 결정을 이해하고 신뢰하기까지 상당한 노력이 필요합니다.

강화학습 트레이딩은 정말 효과가 있을까?

미국의 대표적인 프랍 트레이딩 회사인 르네상스 테크놀로지(Renaissance Technologies)는 오랜 기간 동안 뛰어난 수익률을 기록했습니다. 르네상스 테크놀로지의 창업자 짐 사이먼스는 수학자이자 교수였습니다. 동료 수학자 레너드 바움 등과 함께 투자에 활용될 수 있는 수학 모델을 개발하여 펀드에서 사용했습니다. 이 모델은 Hidden Markov Model(HMM)이라는 확률 모델로 알려져 있습니다.

이들이 강화학습을 사용한 것은 아니지만, Hidden Markov Model 을 투자에 활용하는 것과 강화학습을 투자에 활용하는 것에 일부 유사한 점은 있습니다. Hidden Markov Model 은 표면적으로 보이지 않는 미세한 상태의 변화를 감지해 숨겨진 상태의 확률을 계산하는 모델이며, Baum-Welch 알고리즘 또는 Viterbi 알고리즘 등을 풀어 Hidden Markov Model 을 계산합니다. 강화학습은 Markov Decision Process 라는 확률 모델을 풀기위한 알고리즘입니다. Markovian 한 상태 천이를 기본으로 하며, 인간이 쉽게 인지할 수 없는 미세한 패턴을 감지하고 이를 투자에 사용한다는 점에서 비슷한 점이 있습니다.

르네상스 테크놀로지가 Hidden Markov Model 을 사용해 지속적으로 큰 수익률을 올린 것 처럼, 요즘 시대에는 강화학습을 활용 가능하다면 트레이딩에 큰 효과를 볼 수 있을 것입니다. 지금도 전 세계적으로 많은 학자들과 투자 기관들이 강화학습을 기반으로 하는 트레이딩 알고리즘을 개발하려고 노력 중인 것으로 알려져 있습니다. 그 중 일부 기관은 전체 투자 프로세스의 일부 영역에 대해서 강화학습으로 운용하고 있다고 합니다.

research
사진: Unsplash의Scott Graham

QMELLION 소개

지금과 같이 엄청난 속도로 AI 기술이 발전해 나간다면, AI 및 강화학습은 트레이딩 분야에서도 중요하고 필수적인 전략적 수단으로 자리 잡게 될 것입니다.

QMELLION은 전통적인 트레이딩 알고리즘 뿐만 아니라 AI 및 강화학습 기반의 트레이딩 알고리즘을 연구하고 있습니다. 관련 연구 내용과 성과를 본 블로그를 통해 공유드리겠습니다.

Share article