퀀트의 재료 과거 수익률을 측정하는 3가지 측면

자산 수익률 - 주식, 채권, 원자재 등의 수익률, 주식을 사서 보유하고만 있어도 얻는 수익률

투자 전략 수익률 - 어떤 특정한 날에 주식을 사고 또 어떤 특정한 날에 판다는 결정을 하면 상황에 따라 수익률은 변함

팩터의 수익률 - 팩터는 수익률을 결정하는 밑바닥에 있는 요소로서, 주식의 수익률에 영향을 주는 팩터 중 하나가 경제성장이라 한다면, 이때 경제성장이라는 팩터가 가져다주는 수익률은 그 주식의 수익률의 일부.

필드(현업)용어

알파: 팩터에 노출되어 얻는 수익률 외에 노출되지 않고 얻는 수익률. 만약 팩터가 시장지수 중 하나라면 시장지수에 노출되어 얻는 수익률 이외의 나머지를 뜻함.

베타: 팩터에 노출된 정도

시그널: 특정 형태로 가공한 각각의 팩터, 예상수익률을 예측

샤프지수: 위험률에 대한 수익률

변칙(Anomly): 효율적인 시장에 나타나는 것에서 벗어난 모든 것을 변칙이라 함.

정보지수: 벤치마크 수익률에 대한 수익률

계수 정보(ㅊ/IC): 시그널이 예측하는 예상수익률과 실제 수익률의 상관관계

변동성(Volatility): 전략의 수익률 표준편차

마켓 임팩트: 매수, 매도 행위로 시장가격 자체가 오르거나 내리도록 영향을 주는 것

슬리피지: 거래하려 한 가격과 실제로 거래가 이루어진 가격의 차이

거래 비용: 거래할 때마다 생기는 비용

백테스팅: 개발한 퀀트 전략을 시뮬레이션 상황에 접목해 어떤 결과를 낼 지 확인하는 과정

머신러닝이란?

과정을 통해 모델 정하기 → 모델 수식화 하기 → 모델 학습하기 → 모델 평가하기

  1. 손실함수: 모델의 수식화된 학습 목표 - 모델이 실제로 데이터를 바르게 표현했는지 혹은 얼마나 예측이 정확한지 수학적으로 표현한 것. 손실함수가 작을수록 모델이 정확하게 학습된 것. 손실함수의 결과값을 에러라고 함.
  • 산술 손실함수: 모델로 산술값을 예측할 때 데이터에 대한 예측값과 실제 관측값을 비교(최소제곱법)
  • 확률 손실함수: 모델로 항목이나 값에 대한 확률을 예측하는 경우에 사용(최대 가능도)
  • 랭킹 손실함수: 모델로 순서를 결정할 때 사용(모델이 예측해낸 결과값의 순서가 맞는지 판단)

모델 평가: 모델이 얼마나 좋은 성능을 보일지 평가하는 방법

일반화 - 학습 데이터뿐만 아니라 새로운 데이터가 들어왔을 때도 잘 작동하는지 측정

교차 검증: k겹 교차검증

Training과 validation의 차이 :

Training set의 목적

Training set(훈련 데이터)은 모델을 학습하는데 사용된다.

Training set으로 모델을 만든 뒤 동일한 데이터로 성능을 평가해보기도 하지만, 이는 cheating이 되기 때문에 유효한 평가는 아니다. 마치 모의고사와 동일한 수능 문제지를 만들어 대입 점수를 매기는 것과 같다.

Training set은 Test set이 아닌 나머지 데이터 set을 의미하기도 하며, Training set 내에서 또 다시 쪼갠 Validation set이 아닌 나머지 데이터 set을 의미하기도 한다. 문맥상 Test set과 구분하기 위해 사용되는지, Validation과 구분하기 위해 사용되는지를 확인해야 한다.

!https://blog.kakaocdn.net/dn/dVfds2/btqLkhbs7T4/U97igLNa0nSfvmBPn5BnbK/img.png

Training, validation and test set split

Validation set의 목적

Validation set(검정 데이터)은 training set으로 만들어진 모델의 성능을 측정하기 위해 사용된다. 일반적으로 어떤 모델이 가장 데이터에 적합한지 찾아내기 위해서 다양한 파라미터와 모델을 사용해보게 되며, 그 중 validation set으로 가장 성능이 좋았던 모델을 선택한다.

정확도: 모델이 데이터를 얼마나 정확하게 분류했는지에 대한 지표

정확도= 맞게 분류한 데이터 숫자/평가하는데 쓴 총 데이터 숫자

단점: 사막에 비가 올 확률

정밀도: 모델이 양성으로 평가한 데이터 중에서 실제로 양성인 것

정밀도= 참 양성(양성)/참 양성(양성)+거짓 양성(음성)

포괄성: 실제로 양성인 데이터 중에서 모델이 양성으로 평가한 것

포괄성= 참 양성(양성)/참 양성+거짓 음성(양성)

F(1)은 포괄성과 정밀도를 조합해서 사용

F(1)= 2 X 정밀도 X 포괄성/정밀도 + 포괄성

'인공지능(ML) > 금융공학(퀀트)' 카테고리의 다른 글

금융 알고리즘(Pandas)  (0) 2023.09.15
퀀트 코드  (0) 2023.09.15

+ Recent posts