博客
【求职分享】
【笔试/面试】
一文读懂:强化模型如何运用交易?
Feb 02,2023
分享本文:
大家好,我是Lucy@FinTech社区,今天的文章将为大家介绍强化模型如何运用交易。欢迎添加以下微信,加入FinTech社区-机器学习群,提认知,攒人脉,求职招聘,投资有术!
什么是强化学习?
强化学习有以下几个要素:
-
agent
-
state
-
action
-
reward
-
env
简单来说,agent 根据定义的 state 做 action ,然后 action 和 env 交互得到 reward,然后新的 state 来,做新的 action。
用智能驾驶来举例子,就是:
-
汽车 看到
-
空旷的大路 (state)
-
加速(动作)
-
行驶5分钟没有出事故(env交互得到reward)
RL模型框架
RL模型框架基于stable baseline:框架把A2C、AECR等模型进行了二次封装给用户调用。
那么在做市的角度来看,我们就可以对动作,state,奖励这三块做设计。
动作:
挂单价格
挂单数量
撤单时间
state:
各种盘口因子,例如:买卖不平衡(买盘-卖盘)/(买盘+卖盘)、资金流(主买-主量)/成交
env:
我们做的动作赚了钱还是亏钱了
reward:
直接定义赚钱还是亏钱是不行的,但是奖励设计是机密,我提一点吧,是夏普这种收益风险调整比例。
我们注意因子主要是量价时三者的关系,即所谓高频界终极口诀 :
懂六同,得小同(意思是懂了六同,终于有资格成为小同的大客户了!)
-
同量比较价,同价比较量
-
同时比较价,同价比较量
-
同时比较量,同量比较时
这个口诀什么意思呢?
-
同量比较价:上1BTC成交量,价格变化20U,这1BTC成交量,价格变化了5U;
-
同量比较时:上1BTC成交量,花费了1S,这1BTC成交量,花费了15S
高频有个狭窄的定义,就是因子仅仅从分笔成交数据,和盘口数据中得到,我们可以看到数据的文件的含义:
-
bp: bidPrice
-
ap: askPrice
-
bv: bidVolume
-
av: askVolume
上述四个要素定义了盘口。
-
ld: lastDirection,即成交的主买还是主卖方向,主买的是,这笔交易是买方主动 taker 卖方成交
-
lv: lastVolume
-
lp: lastPrcie
上述三个要素定义了成交。
isu是把盘口和成交数据统一一张表的要素,定义了是盘口更新还是成交更新。