기사 디렉토리
최근 ChatGPT가 인기를 끌고 있으며 NLP 학생들은 확실히 더 깊이 느낄 것입니다. NLP의 적용이 알려지고 활발히 전개되는 것은 좋은 일이지만, 적용 수준의 모든 적용 시나리오는 과거 영역에서 SOTA 모델로 지속적으로 극복해 온 과제입니다. 그러나 불행히도 최근 몇 년 동안 알고리즘 수준에서 단일 작업을 해결하는 혁신이 크게 느려졌지만 응용 프로그램 수준은 가속화되었습니다.
ps. 현재는 스카이넷이라는 단어가 정보에 나오지 않는데 으허허허허허허허허허허허허허허허허허허허허허허허허 그 당시 VR과 AR이 없던 시절에는 스카이넷에 대한 언급이 온통 산과 평야에 오고 있었습니다.
여기서 우리는 상대적으로 간단하고 일반적으로 사용되는 기계 학습 모델 SVM을 사용하여 타이밍을 돕고 초과 수익을 얻습니다.
양적 모델에 기계 학습 적용
기계 학습 정량화 애플리케이션 시나리오
블로거가 요약한 기계 학습 애플리케이션 및 양적 전략에는 다음 세 가지 시나리오가 있습니다.
- 승률이 50 이상인 정량적 전략을 세운다. 모델이 설명 가능하든 그렇지 않든 거래 횟수를 늘리면 포괄 소득이 이동 평균으로 이동하여 기대 초과 수익을 얻을 수 있다.
- 초과 수익을 얻을 수 있는 논리적 프레임워크에서 기계 학습 모델을 사용하여 세부 사항을 최적화하여 평균 기대 수익이 모델의 축복 아래 더 높은 수익으로 이동하도록 합니다.
- 가격 책정 모델에 따라 수정된 시장에서 초과 수익을 얻습니다.
그리고 각 시나리오는 서로 다른 정량화 아이디어에 해당하며 서로 다른 연구자의 지식 시스템에도 해당합니다.
- 첫 번째 유형은 충분한 전문성을 갖춘 엔지니어링 배경에 적합합니다.난이도는 "역사는 반복되지 않을 것"이라는 전제에 있습니다.시범 모델은 초과 수익을 얻을 수 있으며 초과 수익을 얻는 것도 확률이 높은 이벤트입니다.주로 높은- 주파수 거래
- 두 번째 유형은 프로그래밍 능력이 있는 금융인에게 적합하며 초과수익을 얻을 수 있는 논리적 사슬을 입증하는데 어려움이 있음
- 세 번째 유형은 프로그래밍 능력과 경험이 있는 금융인에게 적합하며, 어려움은 시장의 노이즈 정보를 식별 및 제거하거나 가격 책정 모델을 수정 및 최적화하는 데 있습니다.
정량적 모델의 효율성에 대한 생각
현재의 합의는 투자 작업의 복잡성이 기계 학습의 범위를 훨씬 뛰어넘기 때문에 일반적으로 기계 학습 모델을 사용하여 인위적으로 프레임된 논리적 프레임워크 내에서 최적화하는 것이 필요하다는 것입니다.
지금까지 공부한 후 많은 정량적 책과 전략을 읽었습니다.블로거는 몇 가지 생각을 공유하고 싶습니다.
- 사실 블로거와 같은 많은 학생들이 컴퓨터 과학에서 금융으로 편입했기 때문에 "정량화"는 우리에게 좋은 시작점입니다. 데이터 분석에 더 많이 기울일수록 우리에게 더 편안합니다. 그러나 인간 대 알고리즘:
- 인간의 장점은 소음을 제거하고, 요약하고, 책을 점점 덜 읽을 수 있다는 것입니다.
- 기계의 장점은 통계, 추론, 점점 더 두꺼워지는 책을 읽을 수 있는 능력입니다.
반세기 이상 발전해 온 계량경제 모델은 금융과 가격결정의 '결과 데이터'가 그 정보 구성에 있어서 혼란스럽고 무작위적이라는 것을 보여주었다. ", 알고리즘의 결과는 생각을 돕는 것과는 거리가 멀고 기껏해야 약간의 영감만 줄 수 있습니다. 동시에 "기능이 많을수록 좋다"하지 마십시오. 쓰레기 기능은 소음의 원인이며 기계는 스스로 필터링할 수 없습니다. 따라서 "인간"은 먼저 금융을 이해하고 논리를 가져야 하며 그 다음에는 "인간"이 되어야 합니다. " 알고리즘을 구성합니다.
- 튜닝 매개변수 외에도 기계 학습 모델 개선에는 일반적으로 두 가지 효과가 있습니다.
- 논리적 조사를 견딜 수 있는 인위적으로 구성된 특징 시퀀스
- 데이터 분석의 고유한 규칙에 따라 기능을 미리 제거하지 마십시오.
경험상 블로거들이 흔히 사용하는 랜덤 포레스트 모델처럼 매개변수를 조정하지 않고 특성과 데이터를 조정하는 것만으로 효과를 높이고 싶을 때 우선 이 특성을 편향된 분포 등으로 제거하지 마세요. 각 기능은 관점이기 때문에 일부 관점은 더 정확하지만 일부 관점은 명확하고 이상합니다. 그러나 모든 관점은 가치가 있으며, 이때 우리는 이러한 기능을 일치시키고 기능을 재가공하기 위해 적절한 관점을 구성하는 데 사람의 참여가 필요합니다. 기능이 덜 중요할수록 영감의 원천이 많을수록 개선의 여지가 더 커집니다! 미리 제거하면 큰 손실이 될 것입니다.
- 전문 지식의 차이는 세상을 다른 시각으로 바라보게 할 것입니다."배우는 사람이 인격이 된다"는 말처럼. 금융을 전공하는 학생들은 "위험 관리"를 최우선으로 생각하고 동시에 매우 강력한 "생존자 편향" 사건에 대해 거의 본능적으로 인식합니다! 그러나 내 관찰에 따르면 "이론적 평균"을 추구하기 위해 많은 정량적 전략이 데이터 이론에 의존하고 특별한 주의가 필요한 모델에 탐닉할 것입니다.
이 블로그는 계산을 위해 SVM 모델만 사용합니다.더 많은 기계 학습 모델은 https://blog.csdn.net/weixin_35757704/article/details/89280669 를 참조하십시오.
양적 타이밍에서 기계 학습 모델의 적용
교육 및 예측 프로세스
기계 학습을 사용하는 데는 일반적으로 다음 단계가 있습니다.
- 데이터 청소
- 트레이닝 세트와 테스트 세트 분할
- 학습 세트를 사용하여 모델의 안정성을 교차 검증합니다.
- 테스트 세트는 모델의 유효성을 판단합니다.
- 애플리케이션 모델 계산 및 백테스팅
따라서 시간을 다음 두 부분으로 나눕니다.
- 교육 및 테스트 데이터 시간: 2015-01-01 ~ 2020-01-01
- 애플리케이션 모델 계산 및 백테스트 시간: 2020-01-01 ~ 2023-01-01
교육 데이터 기능 구성
여기서 우리는 귀하의 편의를 위해 더 간단한 기능을 구성합니다.
- 지난 5일간 평균 이직률
- 지난 10일 동안의 평균 이직률
- 지난 5일 동안의 변화
- 지난 10일 동안의 변화
- MACD 지표 DIF 값
- MACD 지표 DEA 값
- MACD 값
- Aroon 지표(모멘텀 지표) DOWN 값
- 아룬지수 UP값
SVM 모델 및 계산
SVM 교육 및 예측
일반적으로 데이터를 얻은 후 최종 수입을 목표로 하는 모델은 주로 다음과 같은 교육 목표를 갖습니다.
- 미래 일정 기간 동안의 수익률을 직접 예측
- 미래 일정 기간 동안의 수입 범위 예측
기계 학습 모델의 제한된 성능으로 인해 궁극적인 목표가 일반적으로 수익률인 경우 "미래 일정 기간 동안의 수익 범위 예측"을 선택합니다.
따라서 다음 규칙에 따라 학습하고 예측합니다.
- 데이터의 70%는 훈련 세트로 사용하고 데이터의 30%는 테스트 세트로 사용합니다.
- [향후 5일 동안의 상승 및 하락]을 예측 목표로 삼고 동시에 데이터를 빈으로 나누고 다음과 같이 나눕니다.
- 수율 범위: [마이너스 무한대, -1]
- 수율 간격: [-1, 1]
- 수율 범위: [1, 양의 무한대]
- 훈련 세트에서 교차 검증을 10회 수행합니다.
- 테스트 세트는 혼동 행렬을 계산하고 시각화합니다.
위의 "교차 검증"은 과적합과 과소적합의 문제를 판단하기 위한 것으로, 많은 기사에서 좋지 않은 결과를 "과적합"이라고 비난하는 경향이 있지만 분명히 문제가 있습니다. 과적합 및 과소적합에 대해서는 https://blog.csdn.net/weixin_35757704/article/details/123931046 을 참조하십시오.
효과 측정
계산 과정은 다음과 같습니다.
- 2015년 1월 1일부터 2020년 1월 1일까지 ST가 아닌 모든 주식 수집
- 그런 다음 개별 주식의 주가 추세에 따라 위의 9가지 특성을 구성하십시오.
- 데이터의 70%는 훈련 세트로, 30%는 테스트 세트로
- 훈련 세트에 대해 10번의 교차 검증 수행
위의 학습 및 예측 규칙에 따라 다음과 같은 모델 결과를 얻습니다.
-
위의 계산 과정에 따라 계산하면 테스트 세트의 정확도는 0.4751입니다.
-
정규화 혼동 행렬은 다음과 같습니다.
-
10겹 교차 검증을 사용한 결과는 다음과 같습니다.
정확도 효과 | 0.492502 | 0.488092 | 0.478529 | 0.473529 | 0.485882 | 0.477647 | 0.477059 | 0.484118 | 0.480882 | 0.486176 |
---|
실제 사용에서 우리는 모델의 논리적 효과에 따라 판단할 것입니다: 모델이 긍정적인 수익을 예측하면 우리는 매수할 것이고, 모델이 부정적인 수익을 예측한다면 우리는 매도할 것입니다.
유효성 분석
- 교차 검증의 효과는 테스트 세트의 예측 효과와 유사하여 SVM 모델의 성능이 비교적 안정적임을 나타냅니다.
- SVM은 0, 1, 2 등의 범주는 범주 1로 거의 차이가 없을 것으로 예측하고 범주 자체에 상관없이 0과 2를 계산하는 정확도는 10%에 불과하다.
이 효과는 최적화, 조정 또는 주관적인 구조적 특징이 없기 때문에 누드 모델의 효과는 거의 동일한 효과입니다...