2024年1月3日发(作者:上汽通用五菱召回)
第 33 卷 第 4 期
Vol . 3 3 No. 4
金融·投资
基于 GAMLSS 模型的高频流动性指标分布特征
刘 昊,陈浪南
(中山大学 岭南学院,广东 广州 510275)
[摘 要]利用 BCT 分布和非线性、非参数模型对股票的高频流动性指标进行了非线性和非参数拟合,并引入广义雨村信
息准则(GAIC)进行分布和模型结构的选择。实证结果表明,BCT 分布能有效地拟合高频流动性指标的高偏态和高峰度特征,该
分布下非参数立方样条回归在所有模型结构中拟合优度最好。通过增加有效的解释变量和选择合理的回归形式,GAMLSS 模型
能够不断提高对高频流动性指标分布的拟合程度。
[关键词]高频流动性指标; BCT 分布; GMALSS 模型; 非参数立方样条回归; GAIC 准则
[中图分类号]F832.5 [文献标识码] A [文章编号] 1007- 9556(2011)04- 0025- 09
Non-parametric and Non-linear Analysis of Stock Liquidity with
High Frequency Data in China on GAMLSS Model
LIU Hao, CHEN Lang- nan
(Lingnan College, Sun Yat- Sen University, Guangzhou 510275, China)
Abstract:Empirical studies of financial time -series data show that there is strong evidence of serial correlation, time -varying
heteroscedasticity and non -normal distribution. Using GAMLSS model from biostatistics, the authors adopt the BCT distribution and
different non-linear non parametric models to fit high-frequency stock liquidity. Results show that BCT distribution with non -linear
cubic-splines (CS) model is superior under the GAIC criteria. Adding dependent variables will increase GAMLSS\'s goodness of fit.
Key Words:high-frequency liquidity; BCT distribution; GAMLSS; non-parametric cubic-splines model; GAIC criteria
一、引言与文献综述
流动性的高频分布特征及其影响因素是市场微
观结构流动性研究的两大重要领域。对于流动性指
标各项统计参数(均值、中位数、方差等)的准确计算
及其数据分布的有效拟合,有利于投资者更好地解
读和预测市场流动性。
在流动性分布特征的理论研究文献中,为简化
推导过程,大多数研究者假设流动性服从正态分布,
如 Kyle(1985)、Pagano 和 Roel(l 1996)等。然而在实
证文献中,大量研究发现,金融时间序列存在显著的
时变方差性和序列相关性,且表现出显著的不符合
正态分布的尖锋厚尾特征,这种现象在高频的金融
时间序列中表现得尤为明显。Stol(l 1978)粗略地统计
了活跃交易者日内交易频率的分布情况,但没有明确
指出该分布的类型。Hong(1998)在 NYSE 的股票日
收益中发现了非常高的峰度(远大于 3),这意味着在
正态分布假设下将出现数量较多的极端值,从而拒绝
了日收益服从条件正态分布的假设。French、Schwert
和 Stambaugh (1987) 在应用 ARCH 模型分析标普
500 指数的日收益时发现,标准化残差的条件偏度显
著异于正态分布下的偏度系数 0。Mittnik 和 Paolella
(2000)则发现,在对数种东亚国家货币与美元汇率的
[收稿日期]2011- 02- 15
[基金项目]国家自然科学基金项目(70673116);北京大学汇丰金融研究院 2009 年课题;中山大学“985 工程”产业与区域发
展 研 究 创 新 基 地 资 助 课 题 ;国家社科基金重点 课 题 (08ATL007); 广 东 省 自 然 科 学 基 金 课 题
(9151);广东省社科基金课题;广东省普通高校人文社会科学重点研究基地资助课题
[作者简介]刘 昊(1983- ),男,广东湛江人,中山大学岭南学院博士研究生,研究方向是金融经济学;陈浪南(1958- ),男,福
建安溪人,中山大学经济研究所、岭南学院教授,博士生导师,研究方向是金融经济学和货币经济学。
·25·
日收益进行建模时,需要应用正态分布之外的非对称
和肥尾分布。Bangia 等(1998)在其研究中发现,随着
市场流动性的降低,流动性的密度函数将会愈发偏离
正态分布而呈多模态,直接应用正态分布将不可行。
Bangia 在度量流动性成本的外部性时考虑了流动性
分布的上述特征。Lambert 和 Lindsey(1999)在研究股
票日收益的变化时,利用解释变量对日收益分布的偏
度、位置和尺度参数进行建模,发现采用具有时变偏
态特征的稳定分布(stable distribution)对数据进行拟
合效果最佳。Lambert 和 Lauren(t 2002)应用有偏的位
置—规模(skewed location-scale)分布对金融时间序
列中的动态偏度特征进行建模。Plerou、Gopikrishnan
和 Stanley(2005)发现,股票价差的分布服从幂定律,
即分布呈厚尾的形状。
在流动性(影响因素)的拟合研究文献中,对流
动性和各类影响因素进行建模的实证研究通常都可
以归类为对流动性的拟合研究,其本质是在模型设定
中通过不断增减可能的影响因素并通过显著性检验,
构建可行的实证模型,以对流动性进行分析和预测。
在 国 外 研 究 中 ,Brennan 和 Subrahmanyam
(1996)采用普通最小二乘法(OLS)和广义最小二乘
法(GLS)研究了交易成本(非流动性)和收益之间的
关系。Brennan 等(1998)采用截面 OLS 模型研究了
证券超额收益与其交易量之间的关系。Goldstein 和
Kavajecz(2000)以基础的统计分析和图形分析研究
了最小报价单位和股票流动性波动之间的关系。
Chordia、Roll 和 Subrahmanyam(2001)通过 OLS 模
型和科克兰—奥科特迭代相关法(Cochrane/Orcutt
iterative correc- tion procedure) 研究了流动性与短
期利率、期限利差、日期效应、宏观因素等之间的关
系。Heflin 和 Shaw(2000)采用截面回归模型研究了
大股东所持股票比例与市场流动性之间的关系。
Fujimoto(2003)使用 VAR 模型分析了证券流动性与
宏观经济因素之间的关系。Bessembinder 等(2006)
采用两阶段加权最小二乘法(2WLS)和广义矩估计
(GMM),分别估计了信息发布(市场透明度)和流动
性外部性对债券交易执行成本(非流动性)的影响。
Woolridge 和 Dickinson(1994)利用 OLS 模型研究了
卖空利率变化、市值和证券收益率之间的关系,从而
间接推导出卖空交易和市场流动性之间的关系。
Charoenrook 和 Daouk(2003)利用带有国家固定效应
的面板(Panel)模型研究了卖空限制(short -selling
constraint)与换手率之间的关系,研究发现,卖空限
制越严厉,市场流动性越低。同时,他们还研究了卖
空限制与市场收益偏度、方差之间的关系。
在国内研究中,郭剑光、孙培源、施东晖(2004)
采用相关性统计分析研究了最小报价单位和股票流
动性之间的关系。黄峰、杨朝军(2007)借助 VAR 模
型和 Granger 检验发现,中国股市的回报率和换手
率之间存在显著的相关性和单向 Granger 因果关
系。苏冬蔚(2004)采用 GMM 方法分析了 A、B 股买
卖价差和交易者执行成本、日成交量、流通股数量、
收益率、波动率之间的关系,研究发现,上述变量都
是造成 A、B 股买卖价差横截面存在差异的原因。徐
颖文等(2007)采用误差修正模型(ECM)和协整检验
分析了股市流动性、宏观经济变量、机构投资者入市
资金量之间的均衡关系。廖士光、杨朝军(2004)利用
协整检验、VAR 模型和 Granger 检验等方法实证分
析了中国香港股票市场的流动性和卖空交易机制之
间的内在联系。万树平(2006)利用混合模型(Pooled
model) 研究了流通盘的大小对各流动性指标的影
响。吴战篪、乔楠、余杰(2008)利用基础统计检验分
析了公司信息披露质量与股票流动性之间的关系。
目前,对流动性影响因素的理论研究较为全面
和系统,而实证研究方法却很单一,大多数研究都是
基于经典的计量理论进行的。研究中采用的分布多
为隶属于指数分布族的正态分布、t 分布,并通过基
于分布密度函数的极大似然法进行参数估计。现实
中的流动性指标分布往往并非如经典理论假设那样
理想。本文在对多只股票的多个基于高频数据的流
动性指标的统计分析中发现了较大幅度的偏态和峰
度,表明其不符合正态分布的特征。在上述高偏态和
峰度的分布下,若仍然采用基于正态或者 t 分布的
MLE(极大似然估计)或者 QML(伪极大似然估计)
方法,显然将会得出偏误较大的结论。因此,寻找能
够同时拟合超峰度和高偏态的分布,成为本文研究
的出发点之一。
除此之外,在现有拟合研究中,广泛采用的经典
参数回归模型对流动性指标和各影响因素的结构关
系施加了较强的假设(以参数化、线性化为主),在此
基础上得到的结果具有较大的主观性,和实际数据
相比通常会产生较大的差异。非参数模型则并不事
先假定经济活动中变量之间的结构关系,而是通过
估计才能获得,在实际应用中具有更好的拟合效果,
对已经发生的经济活动的推断具有更高的精度,所
得到的反映经济变量之间关系的结构参数更加符合
实际,从这些结构参数出发进行的预测更加可靠。克
服经典回归模型的局限性,应用非参数模型得到对
目标变量更为精确的拟合,是本文的另一个研究出
发点。
二、GAMLSS 模型
位置、规模和形状的广义可加模型(GAMLSS)
·26·
是由 Rigby 和 Stasinopoulos(2005)提出的(半)参数
回归模型,其参数性质表现为对被解释变量的参数
分布进行假设,其半参数性质表现为在通过解释变
量为函数分布参数建模时,会采用非参数平滑函数。
GAMLSS 模型在拟合位置(均值或中位数)参数的基
础上,通过解释变量、随机效应的线性/非线性参数
模型和可加非参数模型将拟合过程拓展至被解释变
量分布的方差、偏度和峰度上。同时,GAMLSS 模型
将广义可加模型(GAM)和广义线性模型(GLM)中被
解释变量的指数分布假设放宽为更广义的分布族,
包括一系列高偏度和高峰度的连续和离散分布。因
此,GAMLSS 模型尤其适合拟合具有超峰度和平顶
峰度、高度正偏/负偏从而不服从传统指数族分布的
被解释变量。在被解释变量呈现异质性的情况下,
GAMLSS 模型也可以给出较好的拟合效果。
GAMLSS 模型假设数量为 n 的独立观测值 yi
具
i i有参数条件下的概率密度函数 (f yi|θ)。θ=(μi,σi,υi,
τi)其中,μi
为位
为至多四个参数的分布参数向量,置参数,表示分布的均值;σi
为规模参数,表示分布
的标准差;υi
和 τi
是形状参数,分别表示峰度和偏
度。在 GAMLSS 模型里,通过单调关联函数 g(,每
k
)个分布参数都可以利用解释变量进行拟合。
GAMLSS 的线性参数拟合模型形式为:
J
parametric addt ive) 形 式 (Rigby 和 Stasinopoulos,
J
2006)g()=ηk=h(Xk,βk)+Σhj(),其中,h()为非
k
θkk
γjkj = 1
线性模型,hjk
为非参数拟合模型(立方平滑函数等,
在下文有涉及)。参数矩阵 βk、随机效应参数 γjk
都通
过最大化固定平滑超参数 λjk
下的惩罚最小二乘法
(penalized likelihood function)进行估计:
lp=l-
ΣΣλjkγ′jkGjkγjk
2
k = 1 j = 1
i
为被解释变量 其中,l=Σ
ni=1
log(f yi/θ)yi
密度函
i
数 (f yi/θ)的对数方程。
1p
J
通过应用 GAMLSS 模型,可以将流动性分布特
征与影响因素的研究统一在同一框架下,并将解释
变量的影响细化至流动性分布的各统计参数上,从
而实现更为全面的分析。
三、样本数据及统计分析
(一)样本数据的选择
为了充分分析不同股票的流动性分布特征,本
文选择了沪深股市规模不同的三只股票作为样本,
分别是招商银行(600036)、宇通客车(600066)和金
风科技 (002202)。样本数据为 2010 年 1 月 4 日至
2010 年 7 月 28 日每 5 秒的高频交易数据,包括复
权后的最新成交价格①(LP)、成交数量(V)、上轮成
交价格(OP)、第一档至第三档的限价买卖指令。其
中,限价买卖指令又包含指令价格(卖价 PAi 和买价
PBi,i=1,2,3)和买卖数量(卖出数量 QAi 和买入数量
QBi,i=1,2,3)。由于原始样本数量较大,本文将其重
新抽样并压缩为频率为 3 分钟的新样本。除去非正
常的样本值(价格或者交易量为零的数据),最后得
到各只股票的观测值为,招商银行 n=11 437,宇通客
车 n=6 572,金风科技 n=10 272。
(二)各流动性指标的偏度和峰度分析
在上述数据的基础上,本文选择成交量(V)、买
卖价差(QS=PA1-PB1)和深度(DEP=(QA1+QB2)/2)
作为流动性指标,并针对分布特征进行初步的统计
分析,见表 1。
g()=ηk=Xkβk+ΣZjkγjk k
θkj = 1
(1)
其中,ηk
是长度为 n 的列向量;βk′=(β1k,β2k,…,
βj′k
k)为长度为 Jk
的参数列向量;Zjk
为 n*qjk
阶的设计
矩阵;Xk
为 n*Jk
阶的设计矩阵;γjk
为 qjk
阶的随机变
量,服从分布 γjk~Nqj(G-1
jk)G-1
k
0,
;jk
为基于超参数向
量 λjk
的 qjk×qjk
阶对称矩阵 Gj()的广义逆,若 Gjk
k
λjk
为奇异矩阵,则 λjk
被认为服从比例于 exp (-
1
γ′jk
2
Gjkγjk)的不当先验密度函数。该模型允许使用者将部
分或者全部分布参数建模为解释变量或者随机效应
的线性函数。
拟合模型也可拓展为半参数形式 gk
(θk)=ηk=
J
Xkβk+Σhj()和非线性半参数可加(nonlinear semi-
k
γjkj = 1
表 1
股票
统计值 & 流动性
偏度(Skewness)
峰度(Kurtosis)
JB 统计量显著性
V
11.14
251.73
0.00
样本股票高频流动性指标分布特征
宇通客车
DEP
4.33
36.91
0.00
V
14.68
288.1
0.00
QS
-3.45
20.61
0.00
DEP
16.68
288.87
0.00
V
10.4
140.54
0.00
金风科技
QS
-17.56
309.25
0.00
DEP
18.19
383.69
0.00
招商银行
QS
-4.43
30.72
0.00
从表 1 的统计数据可以看出,各股票流动性指 标都存在较大幅度的偏度和峰度,而 JB 统计量也显
·27·
著地拒绝了正态性假设。传统的正态分布明显不适
合用于分析上述流动性指标,必须寻找一种能够有
效拟合高峰度和偏度的有效分布。
四、流动性的非线性和非参数拟合分析
(一)对分布的选择
的特例,AIC 和 SBC 准则的判断结果见表 2 与表 3。
表 2 各分布的 AIC 准则判断结果
AIC(#=2) BCT
df 4
GG
3
ST3
4
EXP
1
TF
3
NO
2
为了选择合适的分布,本文对流动性指标的备
择分布拟合与非参核估计进行比较。除正态分布外,
本文的备择 分布 还 有 广 义 伽 马 分 布(Generalized
Gamma,GG)、t 分布族 (t Family,TF)、高偏 t 分布
(ST3)、指数分布(EXP)、Box-Cox t 分布(BCT)。为简
化过程,本文仅选择招商银行的交易量(V)指标作
为流动性变量进行分析。各分布拟合图与非参核估
计对比如图 1 所示。
从拟合图可以看出,高频流动性指标呈现出明
显的截断尖峰厚尾形态 (截断是因为流动性指标大
多为正,因此只有正半边分布),广义伽马分布、高偏
t 分布和 BCT 分布与非参拟合重合较好。
GAIC 232638.6 232657.8 233344.5 239016.9 242844.6 269826.1
表 3 各分布的 SBC 准则判断结果
SBC(#=log(n)) BCT
df 4
GG
3
TF
3
NO
2
ST3
4
EXP
1
GAIC 232668.0 232679.9 242866.6 269840.8 270332.6 281823.1
从 AIC 和 SBC 准则的判断结果来看,BCT 分布
的拟合效果最优,其次是广义伽马分布。因此,本文
将选择 BCT 分布作为流动性指标 V 的分布。BCT 分
布是 Rigby 和 Stasinopoulos(2006)在 BCCG 分布的
基础上,针对同时具有高偏度和高峰度的数据分布
特征提出的新型分布。Rigb 和 Stasinopoulos(2006)
将 BCT 分布和 GAMLSS 模型相结合应用于生物学
科的实证研究中,发现 BCT 分布对非负的高偏度和
高峰度的数据拟合效果较好。
为了更准确地给出 BCT 分布各参数的估计值
和标准误,本文在 GAMLSS 框架下进行简单的线性
BCT 分布拟合。修正后的 BCT 分布各参数 GAMLSS
拟合结果如表 4 所示。
(f
)
(f
)
表 4 修正后的 BCT 分布各参数线性 GAMLSS 拟合结果
(f
)
(f
)
参数
均值
标准误
μ(mu) σ(sigma) υ(nu)
4237.77
67.38
0.45
0.01
τ(tau)
5.531e- 02 3.844e+00
0.005 0.38
(f
)
图 1 流动性变量非参估计与备择分布拟合图
注:细曲线为样本数据的非参拟合估计,粗曲线为各分
布近似拟合,深色长方形为分布柱状图;各分布顺序依次为,
(a)正态,(b)广义伽马,(c)指数分布,(d)t 分布族,(e)高偏 t
分布,(f)BCT 分布。
图 2 BCT 分布的 GAMLSS 拟合残差分布图和 QQ 图
为了更精确地判定各分布的拟合优劣,本文通
过广义雨村信息准则(GAIC)选择最优的拟合分布。
GAIC 准则 (Akaike, 1983) 可用于比较非嵌套的
GAMLSS 模型。为防止模型过度拟合,GAIC 准则对
模型中使用的每个有效自由度都设置了固定的惩罚
系数 #,GAIC(#)= GD + #df,其中,GD 为全局拟合
偏差(Fitted Global Deviance),df 为模型的总体有效
自由度。常见的模型判断准则 AIC(#=2)和 SBC(#=
log(n))(n 为解释变量的样本容量)都是 GAIC 准则
图 3 正态分布的 GAMLSS 拟合残差分布图和 QQ 图
·28·
(f
)
将 BCT 分布的修正 GAMLSS 拟合估计残差和
正态分布的拟合估计残差进行对比,可以发现,无论
是分布密度图还是 QQ 图(图 2、图 3),BCT 分布的
残差都接近正态性,而正态分布拟合后的残差仍然
有较明显的偏度,说明 BCT 分布确实是本文高频流
动性变量的合理分布。
(二)对回归方式的选择
利用 G-RJMCMC-VS 方法(Lunn 等, 2009),本
文选择即时交易价格(lp)作为流动性变量的影响因
素。在选择合适的 GAMLSS 拟合模型之前,需要首
先观察流动性变量和影响因素之间的图形关系,如
图 4 所示。
本文正交多项式的形式为:
μ=β0+β1φ()+…+βkφ()+ε
1
xk
x其中 1、φ()分别为解释变量 lp 的 0 阶和 k 阶
k
x正交多项式,满足:
≠
≠
≠
≠
≠
≠
≠
≠≠
)∑i=1j
xi
=0
φ(n
n
j=1,2,…,k
))2,…,∑i=1
φ(j
xi
φ(p
xi
=0 j≠p=1,k
通过引入 1 至 8 的阶数并固定 BCT 分布的其
他参数,得到了 BCT 分布的正交多项式拟合结果,
见表 5 (6 阶的正交多项式回归由于 AIC 和 SBC 检
验值太大被剔除)。
表 5 BCT 分布的正交多项式拟合结果
op2
6
op3
7
op4
8
op5
9
op7
11
op8
12
df
op1
5
AIC 232533.7 232535.1 232517.5 232518.3 232438.0 232415.5 232417.3
SBC 232570.5 232579.1 232568.9 232577.1 232504.1 232496.3 232505.4
由表 5 可以看出,阶数为 7 的正交多项式在 A-
IC 和 SBC 准则下皆为最优。将该均值的多项式拟合
与原始数据散点图进行对比 (见图 5,由于图像较
大,只截取数据密集处展示),可以发现,对均值的正
交多项式拟合基本反映了即时价格条件下的流动性
均值特征。从 AIC 和 SBC 的值来看,正交多项式的
图 4 流动性和价格的联合散点图
拟合效果也远胜于线性拟合 (AIC=269 768.9,SBC=
269 790.9)。但是,从曲线的形状来看,不平滑和多处
曲折的特征意味着正交多项式的拟合还不够平滑。
从选择的阶数来看,可能存在过度拟合的倾向,因此
仍有必要寻找更为合理的拟合模型。
从图 4 中可以发现,流动性变量随着价格的增
长呈现出较为明显的群聚现象。在不同的价格水平
区间,流动性的波动幅度也有较大差别(由溢出的散
点可观察),暗示着流动性在价格条件下可能存在着
条件异方差现象。因此,对于价格条件下的流动性分
布进行研究显得十分必要。在 GAMLSS 框架下,研
究者可以将上述问题有效地统一起来。利用解释变
量对各参数进行拟合,不仅可以得到目标变量均值
的非参拟合值,还可以得到各分布参数的有效条件
估计。
在选定了合理分布后,本文将在 GAMLSS 框架
下选择模型 (1) 的最优形式。在前文的 BCT 分布
GAMLSS 拟合中我们初步采用了线性形式,接下来
本文将分别引入非线性和非参数拟合模型对位置
(均值)参数进行拟合,并通过 GAIC 准则选择最优
的模型形式。
本 文 首 先 引 入 正 交 多 项 式(Orthogonal
Polynomials)回归法。卢静波、吴艺能(2009)认为,对
角多项式回归法除了克服了传统线性转换在变换受
限及模型函数为隐式形式时难以估计的问题外,还
具有更高的准确度。
图 5 流动性均值的 GAMLSS 正交多项式拟合
表 6 BCT 分布的分段多项式拟合结果
df
pp2
7
pp3
7
pp4
8
pp5
9
pp6
10
pp7
11
pp8
12
AIC 232517.5 232517.5 232513.0 232432.7 232419.4 232432.7 232401.8
SBC 232568.9 232568.9 232571.8 232498.8 232492.8 232513.5 232489.9
接下来本文采用分段多项式(Piecewise Polyno-
mials)②进行拟合。通过引入 2 至 8 阶的分段多项式
并固定 BCT 分布的其他参数,我们得到了流动性均
·29·
值的拟合结果,如表 6 所示。从表 6 可以看出,AIC
和 SBC 准则都选择了阶数为 8 的分段多项式作为
最优的拟合模型,其次是阶数为 6 和 5 的分段多项
式。从两准则的检验值来看,最优分段多项式的拟合
效果要略优于正交多项式。
通过将两种多项式的拟合结果同时绘制于图
6,可以发现两者实际差别并不明显。分段多项式的
SBC 准则得分见表 7。 从表 7 可以看出,无论是
AIC 还是 SBC 准则,csaic 模型得分都要优于 cssbc
模型。
表 7 不同准则自由度下 BCT 分布的立方样条拟合结果
模型
csaic
cssbc
df
20
9
AIC
232394.7
232421.9
SBC
232354.7
232403.9
图形同样存在着不平滑和曲折的特征,而高阶数(k=
8)也意味着该拟合方式存在过度拟合的可能。
为选择最优的模型形式,现将上述三种回归形
式的 AIC 和 SBC 准则得分进行列表对比,见表 8。
表 8 不同非参数、非线性模型拟合结果的比较
立方样条
回归形式 正交多项式(op7
)分段多项式(pp8)
(csaic)
df 11 12 20
AIC 232415.5 232401.8 232394.7
SBC 232496.3 232489.9 232354.7
图 6 流动性均值的 GAMLSS 分段多项式拟合
注:白色粗线分段多项式拟合,白色细线为正交多项式拟合。
由于参数形式的非线性多项式拟合效果并不理
想,本文将尝试采用非参形式的立方样条(Cubic
Splines, CS)进行拟合。立方样条通过减少拟合曲线
和样本数据点之间的离差和拟合曲线的曲率,以避
③免多项式插值可能产生的“龙格现象”,而且可以在
较低的阶数条件下实现和多项式拟合同样的效果。
在立方样条拟合中,关键问题是要选择合理的平滑
参数,而该参数是有效自由度的函数。因此问题可
转换为,如何根据 GAIC 准则寻找合适的有效自由
度。根据 AIC 准则选择的最优自由度为 15,根据
SBC 准则选择的最优自由度为 4。在上述自由度下
分别进行立方样条拟合,结果如图 7 所示。
表 8 的数据显示,从 AIC 准则来看,三种拟合方
式的差别并不显著,立方样条的拟合略微优于正交
多项式和分段多项式,而从 SBC 准则来判断,立方
样条显著优于前两者。因此,非参回归的立方样条拟
合成为本文选择的模型(1)的最终形式。但是,从自
由度的数量来看,目前的立方样条回归仍然存在着
过度拟合的可能,这从 csaic 和 cssbc 的拟合图可以
看出,csaic 回归的拟合图形相对于 cssbc 回归存在
着更多的曲折。因此,在立方样条的回归形式下选择
更为合适的自由度水平是建立更为合理的参数拟合
模型的关键。由于 GAIC 准则的选择结果通常会产
生多重局部最小解 (multiple local minima)(尤其在
较低的惩罚系数水平下),因此需要在不同的惩罚系
数水平下采用不同的自由度初值。通过最优化过程
分别选择各参数立方样条回归的最优自由度水平并
进行比较,从而保证达到全局最小解。
(三)对自由度和惩罚系数的选择
本文自由度的选择过程为,在不同的 GAIC 惩
罚系数水平下,通过 R 程序的 函数进行
迭代优化。在每次迭代收敛后,将得到的各参数立方
样条自由度水平与预先设定的自由度下限进行比
较。若某一参数的迭代自由度数值触及下限,则将其
数值置换为 2(常数项和线性项的自由度),并将回
归方程由非参数的立方样条重置为线性拟合。然后
将上次迭代得出的立方样条回归自由度作为下一次
迭代的初值,直至立方样条拟合的自由度不触及下
限为止。
根据上述过程迭代得到的各参数 GAMLSS 拟
合的总自由度水平和在上述自由度水平下 GAMLSS
模型的 GAIC 值如表 9 所示。
更高的惩罚系数意味着拟合自由度的减少,从
图 7 流动性均值的 GAMLSS 立方样条拟合
注:白色粗线为 AIC 准则自由度下的立方样条拟合
csaic,白色细线为 SBC 准则自由度下的拟合 cssbc。
从图 7 可以发现,在两个准则所选择的自由度
下,流动性均值立方样条拟合曲线差别极小,两者几
乎重合。两准则自由度下立方样条拟合的 AIC 和
·30·
而可以设定更简单的 GAMLSS 拟合模型以及更为
平滑的参数拟合过程和拟合百分位曲线(如图 8)。
BCT 分布各参数 GAMLSS 拟合模型为:
!#
#
#
##
\"
#
##
#
#$
表 9 不同惩罚系数下 BCT 分布参数自由度拟合的 GAIC 得分
Penalty
2
3
dfμ
62.00
11.36
dfσ
30.34
9.05
4.32
dfν
4.63
4.21
2.91
dfτ
5.73
2
2
AIC
232103.2
232284.5
232301.2
232346.5
g(μ)=cs(lp)
g(σ)=cs(lp)
g(υ)=cs(lp)
g(τ)=lp×β
在上述模型条件下,可以全面分析解释变量 lp
对流动性变量 v 各分布参数的影响。(1) 对参数 μ
的拟合显示,即时价格条件下的交易量均值呈现出
右抬的 M 型轨迹,在 32 和 36 两位置出现低谷。从
整体上看,随着即时交易价格的提高,交易量也在略
微地提升。(2)对参数 σ 的拟合显示,随着价格增
长,交易量的方差呈现出倒 M 形态,整体呈现下降
的趋势,但在 38 和 42 这两个价位上出现了一定程
度的反弹。综合均值和方差的拟合图可以发现,均值
的波峰波谷和方差的波峰波谷是恰好对应的。(3)对
参数 υ 的拟合显示,交易量的分布在全体即时价格
赞<1),条件下存在正偏(υ且随着即时价格的增长正偏
程度不断扩大。在 lp=42 左右,偏度系数变为负数。
(4) 对参数 τ 的拟合显示,在即时价格较低的条件
下,交易量的分布近似服从正态分布 (拟合值τ赞
较
大)。随着即时价格的增长,交易量的分布逐渐表现
为超峰度(highly leptokurtic),τ赞逐渐接近于 0。
(四)对解释变量的选择
在确定回归形式的的基础上,本文进一步考虑
能否通过增加解释变量来提高模型的拟合优度 (通
过 AIC 准则进行判断)。在本文基于高频数据构建的
各变量中,Bangia 等(1998)发现价差对交易量具有
解释能力。因此,本文将价差与即时价格共同作为解
释变量进行 GAMLSS 的建模分析。
利用 R 软件中的 函数并通过 χ2
值进行判断,可以同时实现对解释变量及其回归形
式的筛选。具体过程为:利用 对各分布
参数逐个进行迭代的设定检验,若某解释变量及其
回归形式的 χ2
值不显著,则将其从模型设定中剔
除。筛选后的解释变量和回归形式如表 10 所示,表
中的 GAIC 值表示对分布参数逐个进行解释变量和
回归形式筛选后的 AIC 准则得分。
表 10 BCT 分布各参数拟合的解释变量和方程形式
参数
μ
σ
ν
τ
备选变量
lp, qs
lp, qs
lp, qs
lp, qs
方程形式
cs(lp) + qs
cs(lp) + qs
~1
~1
GAIC
232236.4
232194.5
232194.7
232194.7
5 8.5273
log(length
7.2906
(v))=9.43
2.59 2.38 2
注:总自由度水平为非参拟合的自由度水平和常数项、线
性项的自由度水平之和;在参数为线性拟合的情况下,该参数
的总自由度水平为 2。
图 8 不同惩罚系数水平下以即时价格(lp)为解释变量
拟合的最优 BCT 参数模型
注:a 为位置参数,b 为规模参数,c 为偏度参数,d 为峰
度参数;图形线段由实至虚依次为 AIC (k =2) (-),GAIC (3)
(---),GAIC(5)(...),SBC(k=length(x))(-.-)。
由图 8 可见,AIC 准则(#=2)自由度下拟合的参
数曲线波动较大(位置、规模和峰度),随着惩罚系数
的提高,拟合曲线逐渐平滑。SBC 准则(#=log(length
(n))) 自由度下的拟合曲线最为平滑,GAIC (3)和
GAIC(5)的拟合曲线较为接近。
从 AIC 准则(SBC 准则的结果类似)的得分上
看,虽然通过 AIC 准则所筛选的自由度建模得分最
优,但是其整体自由度数值太高,在图形上出现了
大量的曲折,存在较为明显的过度拟合特征,削弱
了模型的预测能力。惩罚系数为 3 的 GAIC 准则在
AIC 和 SBC 确定的自由度水平之间较为折衷,从
AIC 准则的得分及所选图形的拟合结果来看也较
为合理。
根据 GAIC(3)的自由度水平,本文最终确定的
注:在方程形式中,qs 表示采用该变量的线性拟合形
式,~1 表示仅对常数项进行线性拟合。
·31·
表 10 表明,加入价差的模型具有更好的拟合优 参数可以得到有效拟合,提高了实证模型对样本数
据的拟合程度。(2)通过引入 GAMLSS 模型,使得分
度,但在位置和尺度参数的拟合中价差无需采用非
参数立方样条的形式。此外表明,在同时采用价差和
布中的各参数可以通过解释变量的线性、非线性甚
即时价格作为解释变量的条件下,偏度和峰度系数
至非参数形式进行回归,提高了分布参数的拟合精
在传统实证分析中,无论是通过参数建模还是非
无须应用两者进行回归,但是模型的拟合优度也因
度。参数建模,模型的回归结果都只能分析自变量对因
此无法得到提高。
变量一阶矩(均值)的影响,而 GAMLSS 模型在一个
五、研究结论
统一的框架下将自变量的影响分析拓展到了因变量
通过将 BCT 分布和 GAMLSS 框架下不同的线
的二阶甚至更高阶的矩,从而能够更全面地研究自
性、非线性、非参数模型应用于样本股票高频流动性
变量对因变量的影响。通过将解释变量引入对高阶
指标的拟合分析中,本文发现,(1)高频流动性指标
矩的建模,GAMLSS 能有效适应被解释变量存在条
同时呈现出高偏态和高峰度特征,传统的正态分布
件异方差等问题时的回归分析。(3)通过引入广义雨
难以对上述特征进行拟合。通过选取一系列具有非
村信息准则(GAIC),本文可以在不同的惩罚系数准
正态特征的经验分布进行实证检验发现,Rigby 和
则下进行各参数回归的自由度选择,从而筛选出最
Stasinopoulos(2006)提出的 BCT 分布能有效地拟合
优的回归模型。相对基于 AIC(惩罚系数为 2)和 SBC
上述特征,是高频流动性指标的合理分布。(2)即时
(解释变量的样本大小))准则的模
价格和价差都是高频流动性指标的影响因素,对上
(惩罚系数为 log述因素的非线性和非参数建模分析结果表明,非线 型筛选过程,可变惩罚系数的 GAIC 准则具有更大
性和非参数回归具有比线性回归更好的拟合优度,
的备择空间,从而能筛选出更符合数据样本特征的
说明传统的线性回归形式并非是研究高频流动性的
模型设定。(4)通过在价格影响分析中引入非线性和
合理模型。在非线性和非参数回归形式中,立方样条
非参数立方样条的模型设定,发现非线性和非参数
在不同的 GAIC 自由度水平下具有最好的拟合优
模型相比现有普遍的参数、线性形式具有更好的拟
度。通过增加有效的解释变量和选择合理的回归形
合优度。(5)借助 R 软件,可以同时进行分布参数的
式,GAMLSS 模型能够不断提高对目标变量分布的
解释变量和回归形式的选择,从而进一步提高了拟
拟合程度。(3)即时价格对高频流动性指标均值的影 合优度。
响具有区间效应,整体趋势并不明显。随着即时价格 本文为研究者充分了解股票高频流动性和价格
的增加,高频流动性波动水平整体呈现下降趋势,但
之间的关系提供了高效的工具。利用 GAMLSS 模
正偏程度不断扩大。高频流动性的峰度随着即时价
型,机构投资者可以更精确地分析高频流动性指标
格的增加逐渐趋于消失。
在价格等解释变量条件下的分布特征,以及相关解
通过采用 GAMLSS 模型,本文在研究方法上实
释变量对各分布特征的影响,从而为其提出更为有
现了五个方面的突破。(1)通过引入 BCT 分布,使得
效的流动性风险控制策略和相关交易策略奠定了良
好的研究基础。
传统研究中因难以建模从而甚少涉及的偏度和峰度
注释:
① 复权后的价格可以有效去除股票除权除息等分红行为对价格的影响,更好地反映价格的实际变化。
② 多项式拟合的形式可参见 N Dong 和 Jaijeet Roychowdhury (2004) 的文章 《Piecewise Polynomial Nonlinear Model
Reduction》。
③“龙格现象”是用高阶多项式进行多项式插值时所出现的,是指随着阶次的增加,误差逐渐变大的现象。
[ 参 考 文 献 ]
[1]Kyle A uous Auctions and Insider Trading[J]. Econometrica, 1985, 53(6):1315-1335.
[2]Pagano M, Ailsa Roell. Transparency and Liquidity: A Comparison of Auction and Dealer Markets with Informed Trading[J].
The Journal of Finance,1996, 51(2): 579-611.
[3]Stoll H Pricing of Security Dealer Services: An Empirical Study of Nasdaq Stocks[J]. The Journal of Finance,1978,33
(4):1153-1172;
[4] Hong s, Volatilities and the Hedge Strategy [Z]. Unpublished Ph.D. diss., University of San Diego,
Economics,1988.
[5]French K, Schwert G,R ed Stock Returns and Volatility[J]. Journal of Financial Economics,1987(19): 3-
·32·
29.
[6]Mittnik S,M Paolella. Conditional Density and Value-at-Risk Prediction of Asian Currency Exchange Rates [J]. Journal of
Forecasting,2000(19): 313-333.
[7] Lambert P, J K ing Financial Returns by Using Regression Models Based on Non - Symmetric Stable
Distributions[J].Journal of the Royal Statistical Society,Series C(Applied Statistics),1999,48(3):409-424.
[8]Lambert P, S Laurent. Modeling skewness dynamics in series of financial data using skewed location-scale distributions[OL].
/~laurent/pdf/,2001.
[9]Plerou V,Gopikrishnan P,H E fying fluctuations in market liquidity: Analysis of the bid-ask spread[J].Physical
Review E,2005,71(4).
[10]Brennan M J, A Subrahmanyam. Market mi crostructure and asset pricing: on the compensation for illiquidity in stock
returns[J]. Journal of Financial Economics, 1996(41): 441-464.
[11]Brennan M J, Chordia T, A Subrahmanyam. Alternative factor specifications, security characteristics, and the cross-section
of expected stock returns[J]. Journal of Financial Economics,1998(49): 345-373.
[12]Goldstein M A,K A Kavajecz. Eighths, sixteenths, and market depth: changes in tick size and liquidity provision on the
NYSE[J]. Journal of Financial Economics, 2000(56):125-149.
[13]Chordia T, R Roll,A Subrahmanyam. Market Liquidity and Trading Activity[J]. The Journal of Finance,2001,56(2): 501-
530.
[14]Heflin F,K older ownership and market liquidity [J]. Journal of Financial Quantitative Analysis,2000,35(4):
621-633.
[15]Bessembinder H,W Maxwell,K Venkataraman. Market Transparency, Liquidity Externalities and Institutional Trading Costs
in Corporate Bonds[J]. Journal of Financial Economics, 2006(82):251-288.
[16]Woolridge J R,A Dickinson. Short-selling and Common Stock Price[J]. Financial Analysts Journal,1994(1/2): 20-28.
[17]Charoenrook A,H Daouk. The World Price of Short Selling[Z]. Working Paper. The Owen Graduate School of Management,
Vanderbilt University,2003: 1-49.
[18]郭剑光,孙培源,施东晖.最小报价单位, 价格水平与流动性——基于上海股市的实证研究[J].上海管理科学,2004(1).
[19]黄 峰,杨朝军.基于机构投资者交易需求的中国股市流动性研究[J].经济理论与经济管理,2007(2):54-59.
[20]苏冬蔚.基于中国股市微观结构的流动性与执行成本分析[J].当代财经,2004(2).
[21]徐颖文,陈 收,李双飞.机构投资者入市资金规模与股市流动性均衡关系研究[J].湖南大学学报(自然科学版),2007
(8).
[22]廖士光,杨朝军.卖空交易机制、波动性和流动性——一个基于香港股市的经验研究[J].管理世界,2005(12).
[23]万树平.上海股票市场流动性的度量与影响因素实证分析[J].系统工程理论与实践,2006(2).
[24]吴战篪,乔 楠,余 杰.信息披露质量与股票市场流动性—来自中国股市的经验证据[J].经济经纬,2008(1).
[25] Rigby R A,D M lized Additive Models for Location, Scale and Shape [J]. Journal of the Royal
Statistical Society, Series C(Applied Statistics),2005, 54(3):507-554.
[26]Stasinopoulos D M,R A lized additive models for location scale and shape (GAMLSS)in R [J]. Journal of
Statistical Software,2006, 55(2).
[27]卢静波,吴艺能.非线性回归模型的线性变换和正交多项式回归[J].统计与决策,2009(23).
[责任编辑:李 莉]
·33·
更多推荐
拟合,流动性,分布,参数,模型,变量,研究
发布评论