1.引言
在进行期货的量价分析时,很可能会遇到以下场景:我们想要知道PTA和黄金哪一种期货目前正处于价格高位,如果直接将两者的价格进行比较,由于量纲的差异,总是会得到PTA价格更高这一结论,但这并不是我们所期望的,我们更想要知道两个品种的价格相较于历史处在何种水平。
面临上述或类似情形时,我们需要借助数据标准化过程来完善分析流程。数据标准化是一种利用数学运算将原始数据映射到标准空间的方法,是数据预处理的关键一环,其意义在于去除了数据的量纲、量级等特征,使不同指标之间具备可比性。数据标准化的方法既有线性的(例如Min-Max,Z-score),也有非线性的(分位数法、取对数法),本文将对常见的标准化方法进行简单介绍。
2.数据标准化方法
所谓价格类因子,是指根据期货合约价格或合约收益率计算的技术指标。从数学角度而言,收益率本身是价格的二阶衍生,即收益率等于价格在时间上的变化率。然而,我们往往把在价格或收益率基础上简单计算得到的技术指标都称为价格的一阶因子。
2.1Min-Max标准化
其中
分别代表最大值和最小值。
Min-Max标准化的优点:a) 能将数据变换至区间[0,1];b) 计算公式复杂度低
Min-Max标准化的缺点:a) 当有新的数据加入时,需要重新计算序列的最大值和最小值,若最大值或最小值发生改变,则原先所有数据均需要进行更新;b) 容易受到离群值的影响
2.2 Z-score标准化
其中
Z-score标准化的优点:a) 当随机变量{Xi}1≤i≤n相互独立时,根据中心极限定理,可知服从标准正态分布;b) 适用于当数据的最大值最小值未知或者存在部分离群值的情况;c) 常用来评估单位风险的收益率;d) 可以直接得到与样本均值之间的大小关系Z-score标准化的缺点:当有新的数据加入时,需要重新计算样本的均值和标准差,并对yi进行更新
2.3 归一化标准
归一化标准化的优点:a) 能将数据变换至[0,1]区间,且有
b) 公式复杂度低
归一化标准化的缺点:要求所有Xi (i=1,2,……,n)均为正数
2.4 分位数标准化
分位数标准化是基于排序的标准化方法,对于多个因子组合而成的面板数据,第一步先在横截面上对因子值进行排序,第二步对每个排名的时间序列计算平均值,第三步对于某个横截面上的某一因子,赋予其所在横截面上的排名对应的值。(下图中行代表时间序列,列代表横截面)
分位数标准化的优点:a) 能反映数据在横截面上的顺序结构以及大小顺序的演变;b) 计算复杂度较低;c) 不易受到离群值的影响
分位数标准化的缺点:横截面上的不同指标最好要有相同的量纲,需要与其他标准化方法结合使用
3.总结
本文对常用的数据标准化方法进行了介绍,并分析了其优劣势,在实际应用中需要结合场景以及指标特征选用不同的标准化方法,例如符合正态性假设的数据可以优先使用Z-score标准化,若对各类指标有排序需求可以使用分位数标准化,若仅需快速的标准化处理,可以考虑使用Min-Max标准化方法。