본문 바로가기
퀀트 전략 기초

월스트리트 퀀트 투자의 법칙. 퀀트의 재료는 데이터

by TenMillionQuant 2022. 3. 21.

월스트리트의 퀀트 투자의 법칙 발췌

 

퀀트가 하는 거의 모든 일에는 데이터가 필요하다. 이를 위해, 데이터를 모으는 일부터 시작해야 한다. 이를 위해, 매일 거래소나 다른 곳에서 데이터베이스에 저장하는 일도 하지만, 데이터를 파는 회사에서 데이터를 사는 방법도 있다. 

 

데이터의 질은 2가지 측면에서 볼 수 있다. 

 

1. 데이터 자체에 오류가 없어야 한다. 

2. 지연 없이 시간을 딱 맞춰서 데이터가 들어와야 한다.  

 

데이터 클리닝

전략을 만들기 전 데이터가 적당한지 검사하고, 오류 발견시 수정해야 한다. 이것을 데이터 클리닝이라고 한다. 아무리 전략이 훌륭하더라도, 데이터가 쓰레기이면 좋은 성과를 보여주지 못한다. 즉, "Garbage In, Garbage Out"(쓰레기를 넣으면 쓰레기가 나온다) 이다. 

 

잘못된 데이터는 어떤 데이터일까?

 

1. 누락된 경우

예를 들어, A회사로부터 2000년부터 2017년까지 베트남 주식시장 데이터를 샀다고 하자. 데이터를 확인 해보니, 2017년 12월 13일 데이터가 없는경우, 바로 누락된 경우이다. 

 

2. 애초에 잘못된 경우

이보다 더 어려운 케이스는 말도 안되는 수자가 입력되었을 경우이다. 예를 들어, 앞의 예에서 가령 주식 B의 가격이 2017년 12월 13일 100,000,000 베트남동으로 입력되어 있다면? 원래는 1,000,000 베트남동으로 되어있어야 하는데 말이다. 이런 경우 찾기가 훨씬 까다롭다. 

 

이처럼 누락되거나 오류가 있을때, 보통 2가지 방법으로 고친다. 

 

1. 과거 데이터에서 가장 비슷한 사례를 찾아 넣는다 :  도너(Donor)

 

2. 기존 데이터로 퀀트 모델을 만든 후, 문제가 있는 데이터를 모델에서 예측한다. 

 

2번 방법은 오류가 있는 데이터 개수가 너무 많으면 채택될 수 없다. 

 

어떤 종류의 데이터가 있을까?

1. 자산가격 데이터

가장 기본이 되는 데이터이다. 퀀트 전략 분야에 따라 주식, 선물, 채권, 옵션 등의 시장거래 가격 데이터가 존재한다. 매일의 데이터나 주/월/분기/연/밀리세컨드(0.001초)단위의 가격이 있다. 

 

2. 자산 거래량 데이터

얼마만큼 사고 팔았는지 거래량의 크기를 보여준다. 자산가격 데이터와 다르며 가격 데이터 같은 출저에서 얻어온다. 자산에 따라 호가창(Limit Order Book)에서 더 정확한 수량 데이터를 확인가능하다.

 

3. 거시경제 데이터

투자를 글로벌 경제와 떼어놓고 생각하는 것은 불가능하다. 거시경제 데이터는 흔히 고용, 생산, 인플레이션, 소비 등의 데이터를 포함한다. 이 중 으뜸은 당연 고용 관련 데이터이다. 

 

4. 기업 재무 데이터

기업의 재무제표나 순이익 자료를 말하며 퀀트가 가장 오래전부터 사용해온 데이터 중 하나이다. 

 

5. 센티먼트 데이터(Sentiment Data)

의견을 모아 정리한 것이다. 전통 방식에서는 소비자에게 앞으로 얼마나 더 소비할 지 등을 물어 이를 점수화한 데이터를 사용하였으나 최근에는 여기에 특정 상품과 서비스, 브랜드에 관한 의견 등 상상을 초월하는 범위의 데이터를 포함하고 있다.

 

6. 대안 데이터(Alternative Data)

앞서 말하지 않은 상상 가능한 모든 데이터는 대안 데이터(Alternative Data)라고 봐도 된다. 여기에는 웹에서 모은 데이터, 신용카드 거래 데이터, 위성 데이터, 소비자 의견등이 모두 포함된다.

 

얼마전까지만 해도 퀀트는 대안 데이터를 제외한 데이터를 사용했으나, 최근에는 대안 데이터를 사용하기 시작했다. 

댓글