定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《清华大学:2023中国股票风险因子模型白皮书(73页).pdf》由会员分享,可在线阅读,更多相关《清华大学:2023中国股票风险因子模型白皮书(73页).pdf(73页珍藏版)》请在本站上搜索。 1、中国股票风险因子模型白皮书中国股票风险因子模型白皮书第 1 页 共 73 页中中国国股股票票风风险险因因子子模模型型清华大学全球证券研究院摘要:摘要:近年来,基于因子体系的建模方法在宏观经济及多种资产大类(股票、信用债、大宗商品、外汇、利率以及衍生品)受到了各国学者的重视。该领域的研究也取得了长足的进步和丰厚的成果,因子体系逐渐成为当前头部金融机构精细化管理投资流程,风险控制以及投后归因的主流工具。为助力国内金融基础设施建设,我们对我国的金融市场进行了实证研究,改良了传统因子体系构建方法。本文旨在探索中国股票风险因子模型体系的构建,深度结合中国金融市场环境实际,逐步校验并调整因子模型的假设。相2、比于传统的股票市场因子体系,本文构建的中国股票风险因子模型摈弃了市值加权的回归分析方法,使用更为稳健的换手加权 EM 算法估测,并以此为基础,在申万行业因子之外臻选出 12 个具有强解释力且直观稳定的风格因子。我们使用 2012-2022 年中国 A 股上市公司股票的实际数据,使用模型进行实际风险控制校验,该因子体系相比于传统因子体系在控制波动率以及尾部风险均有显著提升,有助于制定更精准的风险控制与投资决策。关键词关键词:因子模型、EM 算法、风险中国股票风险因子模型白皮书第 2 页 共 73 页1.因子因子的的基本概念基本概念因子(Factor)的概念源于 CAPM 理论,该理论描述了在无交3、易成本、投资者理性决策的假设下,资产的预期超额收益和市场预期超额收益线性相关的关系。CAPM 模型是最简单的因子模型,其中市场超额收益对应的市场组合称之为“市场因子”。以此为契机,S.A.Ross(1976)提出了著名的套利定价理论(Arbitrage Pricing Theory,APT),进一步扩展定义了包含多个因子的市场一般定价模型。为了进一步介绍因子,本文先介绍更宽泛的概念:特征(特征(Characteristics):任何个股级别的数据都是个股的特征。信号(信号(Signal):能够对收益有预测能力的特征,称之为信号。因子因子(Factor):经过进一步优选的,满足特定要求的信号,称4、之为因子。因子暴露(因子暴露(Factor Exposure/Factor Loading):它描述个股超额收益对因子组合超额收益的反应。通常在模型中记作。在一个统一的因子模型中,因子暴露与因子之间,存在一一对应的关系。因子模拟投资组合因子模拟投资组合(Factor-Mimicking Portfolio):构建一个动态调仓的投资组合,使这个投资组合的收益模仿/跟随目标因子。在主流的因子分析框架的假设下,因子有两个重要性质:1.因子是个股联动的重要因素;2.个股的期望收益及当期收益,完全由因子的预期收益及当期收益贡献。1具体来说,APT 认为:,+1=,+1(1.1)其中,表示期望算子,,+15、代表因子收益(K1),,+1代表个股收益(N 1),代表因子暴露(NK)。和 CAPM 类似,多因子模型假设资产的预期收益率由公式(1.1)右侧的一系列因子的预期收益率和资产在这些因子上的暴露决定。然而,金融市场本身非常复杂,其中包含大量的仅依靠当前已经列出的因子所1基于 APT 框架(S.A.Ross,1976),个股收益和因子之间线性相关,任何没有共同因子暴露的个股的收益都会相互独立。值得注意的是,因子未必有很高的预期收益,甚至预期收益未必是正的。中国股票风险因子模型白皮书第 3 页 共 73 页无法捕捉到的随机变动,这种问题当然可以通过寻找更多的因子来捕捉更多的变动性,但这种方法仍然不可6、能完全捕捉到金融市场的所有变动性,金融市场上的完全无理由的噪声是普遍存在的,因此实际市场模型,可以通过引入一个定价误差(pricing error)项来描述。因此,(1.1)式通常也可被具体写作:,+1=,+1+,+1+.+1(1.2)其中,+1为资产的实际预期收益率和多因子模型隐含的预期收益率之间的定价误差,,+1代表个股特异性收益(N 1)。如果,+1显著偏离零,则代表了某个可以通过套利而获得超额收益的机会;这也同时说明由于某些原因,市场对该资产出现错误定价(mispricing),从而导致其实际预期收益率和多因子模型下的预期收益率出现了偏离。2根据风险和收益,我们可以将因子粗略地分为两类7、:(1)风险因子:因子风险高,收益低。(2)Alpha 因子:因子风险低,收益高。指数化投资重点强调投资组合对于不同风险因子的敏感程度,而水平一般为主动型投资组合所重点考量。2.风险模型的意义风险模型的意义金融业务的关键难点在于风险决策。如何系统行的度量与处置风险,进而做出优秀的风险决策,是金融行业面临的核心挑战。在科学的风险建模方法中,因子法是当前国际金融市场上普遍采用的系统性解决方案,因子法建模,具有清晰明了、简洁灵活、容易扩展的特征,在国内、国际金融市场的研究和实践中都有着广泛的应用。基于因子的投资分析与建模框架,被学术界与业界统一采用。经过几十年的努力,学术界提交了丰富的金融理论模型和8、计量经济统计工具来计算资产的价值,并发现了广泛接受和接受的价值、盈利能力、动量和低波动性要素。自股权投资基金出现至今,这些学术成果一直为业界2这个系统里t并不是必要的,因为t可以被视为是一个风险极低收益极高的特殊因子 ft0中国股票风险因子模型白皮书第 4 页 共 73 页所应用。事实上,因子投资的兴起得益于资产定价的学术研究。同时业界的因子投资活动也为已有理论的反复检验和新理论的提出提供了充足的数据,促使学术界不断提出新的研究成果。这个过程中,因子模型本身,也在不断改进和创新。多因子模型作为替代 CAPM 的主流替代方法之一,已逐渐发展成为股权投资的有效手段。当前国际金融市场上大量的资产管理9、机构都在使用风险因子模型来管理他们资产组合,同时也培育了以 MSCI3,Axioma4,Northfield5,SunGard6等为代表的第三方通用风险因子模型体系的商业模式。到目前为止,多因子模型一直应用于各种类型的资产投资中,特别是在股票、债券、商品期货和加密货币领域中有所体现。最新趋势从因子的角度分析了各种类型资产收入的潜在驱动因素和逻辑,并将要素用于类别之间的资产构成。对于因子投资主体来说,了解现有方法有助于更好地适应和接受因子投资的未来发展和变化。3.现有现有风险风险因子因子模型介绍模型介绍与解释并预测资产收益的收益率模型不同,在因子投资中,风险模型的主要目标是准确预测资产收益的协方10、差矩阵,为风险控制提供依据。在风险模型中,因子的个数往往远小于资产的个数,因此能达到降维的效果。根据风险模型,我们可以得到资产协方差矩阵与因子协方差矩阵的关系:=+(3.1)其中,为资产的协方差矩阵(N 阶),为因子协方差矩阵(N3MSCI 公司,一家总部位于美国纽约的知名金融公司,提供多样化的市场投资指数服务以及专业化的多资产组合分析工具是其重要的服务模式。2004 年,MSCI 公司收购了 Barra 公司并成立了 MSCI Barra,专业提供资产因子模型体系服务,随后 2010 年,MSCI 公司进一步收购了 RiskMetrics 公司,进一步丰富了其在多资产的收益、风险建模方面的专11、业化工具体系。4Axioma 公司总部同样位于纽约,1998 年成立,是一家专业从事投资组合优化决策的软件服务商,投资组合经理们使用相关工具由于组合生成、组合监控、虚拟持仓模拟与风险评估,管理交易成本和持仓再平衡,作为其分析、模拟与决策的基础,Axioma 构建了相当全面的风险因子体系。5Northfield 公司成立于 1985 年,专业致力于面向资产管理的风险预测业务,其对于短期、中期、长期的风险评估,引入不同的数据源,采用不同的风险建模方式,从而形成一套覆盖相对完整的风险评估体系。6SunGard 公司,总部位于美国宾夕法尼亚,最初是一家从事数据服务的软件公司,1997年收购了交易与风险12、管理软件设计商 Infinity Financial Technology,进军风险管理与分析业务,并通过后续的一系列收购,构建起强大的数据服务、风险分析、资产管理的能力。中国股票风险因子模型白皮书第 5 页 共 73 页阶),为随机误差矩阵(N 阶),由于资产收益率中的随机误差相互独立,为对角矩阵。=1,2,,为因子暴露矩阵(NK)。在海外,有很多应用于计算资产协方差矩阵并进行风险控制的多因子风险模型。第三节中,我们从市场常用模型中选取最新一版刻画中国 A股股市的 CNE6(CNLT)模型作为例子,详细介绍风险模型的搭建和求解方法,意在使读者更好地理解风险模型,体会风险模型计算协方差矩阵的优13、点及其对风险控制的重要意义。3.1 市场常用市场常用模型估计方法模型估计方法基于求解股票协方差矩阵的目标,根据式(3.1),我们需要估计三个参数:、和。估计过程主要分为两步:第一步,计算因子暴露矩阵。第二步,通过回归得到因子收益率序列。第三步,在第二步的基础上计算和。3.1.1 计算因子暴露矩阵计算因子暴露矩阵首先,我们回顾经典的 Fama-MacBeth 截面回归方法:1.时序回归(N 次):在时刻 t,对每个资产 i 的历史时序数据,分别进行时序回归,估计资产 i 在所有因子上的暴露?。2.截面回归(T 次):用?作为自变量,资产超额收益率,+1作为因变量,对每个时刻 t 进行截面回归,得14、到各因子收益率时序?,+1。进一步即可计算和。对于因子暴露矩阵的求解,传统做法是通过 N 个时间序列回归,得到每个资产 i 在全部因子上的暴露?,这也是 Fama-MacBeth 两步回归中第一步所采用的做法。然而,?作为生成的回归变量本身就带有一定误差,将其作为第二步回归的自变量,会产生计量经济学中的变量误差(errors in variables,EIV)问题。因此,为了规避上述问题,对于风格因子,市场常用多因子模型直中国股票风险因子模型白皮书第 6 页 共 73 页接使用公司特征作为风格因子暴露的原始值(如,直接取用 EP 值原始数据),并对之进行标准化处理。这样,对每一个时间点 t,我15、们可以直接得到因子暴露矩阵:=11111111212212111(3.2)矩阵中,的下标 1N 代表 N 个资产分别对应的因子暴露,上标指代不同因子。各资产对国家因子的暴露均为 1。1对应 P 个行业因子暴露,均为哑变量,每个资产 i 有且仅有一个=1。1对应 Q个风格因子暴露,由公司特征原始值经过标准化得到。具体而言,假设市场组合在任何风格因子上都应该是中性的,那么市场组合对各因子的暴露为零。因此,先对各因子暴露减去市值加权平均值,使之满足:=1?=0,=1,(3.3)表示资产 i 的市值权重。再对各风格因子暴露分别除以其标准差,风格因子暴露的标准化就完成了。3.1.2 计算计算因子收益率序16、列因子收益率序列根据 Menchero and Lee(2015)的方法,我们进行多次横截面回归,得出因子收益率序列。截面回归模型如下:,+1=,+1+,+1(3.4)其中,为 t 时刻下的因子暴露矩阵(NK)7:=11111111212212111(3.5),+1为t到t+1时段N支股票(相对无风险收益率)的超额收益(N1);73.1.1 给出了矩阵的具体计算方法,此处不再赘述。中国股票风险因子模型白皮书第 7 页 共 73 页,+1为 t 到 t+1 时段各因子收益率(K1);,+1为 t 到 t+1 时段 N 支股票的特质性收益率(N1)。为了简便,下文省略时间下标 t 与 t+1。由于17、国家因子暴露和 P 个行业的因子暴露之间存在共线性,造成(3.4)解不唯一,因此对行业因子给定限制:11+22+=0(3.6)其中,为 t 到 t+1 时段行业因子收益率,为 t 时刻行业内所有股票按市值加权算出的权重之和。根据约束条件(3.6)可以构造约束矩阵 C(Ruud 2000):C11=100000010000012100000010000001C111+00000(3.7)式(3.7)等号右边的矩阵即为 K(K-1)阶约束矩阵 C。对于(3.4),使用 WLS 估计。在市场常用模型中,假设个股特质性收益率的方差与个股市值成反比,即 1,其中 ME 代表流通市值。基于这个假设,令=118、,构造如下权重矩阵 W:=10002000(3.8)有了 W 以及 C 之后,我们利用带约束条件的最小二乘法求解(3.4)t 到 t+1 时段下的因子收益率?。令C111=,C11=,则(3.7)可重写为中国股票风险因子模型白皮书第 8 页 共 73 页=(3.9)根据加权最小二乘法(WLS),我们需求解min1 12(3.10)将(3.9)代入(3.10),得到min1 12(3.11)式(3.11)对求一阶导,令一阶导等于 0,解得?=(2)12(3.12)将(3.9)代入(3.12)得?=(2)12(3.13)对于给定的时间窗口t-k/2,t+k/2),可以通过 k 次截面回归求解出每个19、时刻下各因子收益率,得到各因子的收益率时间序列。3.1.3 计算计算协方差矩阵协方差矩阵和和通过 3.1.2,我们得到各因子的收益率时间序列。进一步,根据(3.4)将每个时刻的?代入回归模型,我们可以得到每个时刻下个股的特质性收益率:?,+1=,+1?,+1(3.14)将每个时刻下个股的特质性收益率序列组合成 N 支个股的特质性收益率时间序列,我们便得到因子收益率时序与特质性收益率时序。进而,我们可以估计出因子收益率的样本协方差矩阵?和个股特质性收益率协方差矩阵?。实证经验表明,上述对协方差矩阵的简单估计并不准确。因此,我们还需要通过一些统计手段对之进行调整。对?主要使用特征因子调整法进行调整20、。首先,对?进行特征分解,分解得到对角矩阵?与特征向量矩阵。其中,对角矩阵?的对角元素表示特征因子组合的方差。8实证表明,特征因子组合的方差估计并不准8特征因子组合是以分解得到的每个特征向量作为权重,将因子组合看作单个资产,加权中国股票风险因子模型白皮书第 9 页 共 73 页确,估计的特征因子组合收益率方差越小,事后检验就越偏离真实值。因此,我们利用自助抽样法(bootstrap)再取样,得到再取样的对角矩阵?与?之间的偏差,以此来近似?与未知的真实对角矩阵之间的偏差,并以此估计偏差作为修正系数对?进行修正。而对于?,研究表明,基于历史数据的估计也并不准确。样本特质性波动率低的股票波动性被低21、估,样本特质性波动率高的股票波动性被高估。因此,可以采用贝叶斯收缩法进行调整。其具体做法是将全部股票按市值大小分为十组,计算每组市值加权的平均特质性波动率,并将此平均波动率作为各组股票的“先验”。调整后的个股特质性波动率等于“先验”的平均波动率与个股特质性波动率的加权平均。经此调整,样本特质性波动率向先验数据“收缩”,样本估计稳定性增强。经上述调整,协方差矩阵的估计值更接近实际值,模型估计风险的准确性进一步提高。将与调整后的和代入(3.1),可求得个股收益率协方差矩阵的估计值。3.2 因子介绍因子介绍CNE6(CNLT)模型中包含了 1 个国家因子、16 个风格因子以及32 个行业因子9。其中22、,风格因子可归为 8 类:规模因子(Size)、波动率因子(Volatility)、流动性因子(Liquidity)、价值因子(Value)、质量因子(Quality)、动量因子(Momentum)、成长因子(Growth)、分红因子(Dividend Yield)。3.2.1 规模因子规模因子(Size)规模因子(Size)由市值(LNCAP)和中等市值(MIDCAP)组成。市值:股票市值的自然对数。中等市值:代表股票的非线性市值。对市值因子求立方,并以回归权重将其对市值因子正交化,最后进行缩尾和标准化处理。配置得到的资产组合。9行业依据全球工业分类标准(GICS)划分。中国股票风险因子模型23、白皮书第 10 页 共 73 页3.2.2 波动率因子波动率因子(Volatility)波动率因子(Volatility)由 Beta 因子(HBETA)和残余波动率(Residual Volatility)构成。Beta 因子:代表无法被市场因子所解释的市场风险。以 252 天为半衰期,在最近 504 个交易日窗口内,将股票收益率(减去无风险收益)对全样本市值加权收益率(减去无风险收益)进行时序回归,取回归系数作为 Beta 因子。10残余波动率(Residual Volatility):由历史 Sigma(HSIGMA)、日超额收益标准差(DASTD)、累积收益范围(CMRA)三个因子构成24、。历史 Sigma:以计算 Beta 因子的方法进行相同回归,计算残余收益的波动率。日标准差:以 42 天为半衰期,计算过去 252 个交易日的超额收益波动率。累积收益范围:过去 12 个月累积对数超额收益的最高值与最低值之差。3.2.3 流动性因子流动性因子(Liquidity)流动性因子(Liquidity)由月换手率(STOM)、季换手率(STOQ)、年换手率(STOA)和年化交易量比率(ATVR)构成。月换手率:最近 1 个月交易股票百分比的对数。季换手率:最近 3 个月月交易股票平均百分比的对数。年换手率:最近 12 个月月交易股票平均百分比的对数。年化交易量比率:以 63 天为半衰25、期,最近 252 天窗口内,日交易股票百分比的指数加权和。10为了减少非同步性和自相关性的影响,收益率以 4 天为单位采取聚合处理。中国股票风险因子模型白皮书第 11 页 共 73 页3.2.4 价价值因子(值因子(Value)价值因子由账面市值比(BTOP)、盈利率(Earnings Yield)和长期反转(Long Term Reversal)构成。账面市值比(BTOP):最新报告普通股账面价值/现市值盈利率(Earnings Yield)由现金盈利价格比(CETOP)、EP 比(ETOP)、企业倍数(EM)、分析师预测 EP 比(ETOPF)构成。现金盈利价格比:过去 12 个月现金利润26、/现市值EP 比:过去 12 个月利润/现市值企业倍数:上一财年息税前利润(EBIT)/现企业价值(EV)分析师预测 EP 比:未来 12 个月预测利润/现市值长期反转(Long Term Reversal):由长期相对强度(LTRSTR)和长期历史 Alpha(LTHALPHA)构成。长期相对强度:首先以 260 天为半衰期,在过去 1040 天的窗口内,计算股票超市场收益对数的指数加权和,作为非滞后的长期相对强度。接着滞后 273 天,计算 11 天窗口内非滞后值的等权平均值,再取负数,以此作为长期相对强度。长期历史 Alpha:首先,以 260 天为半衰期,在过去 1040 天的窗口内,27、按与计算 Beta 因子一样的方法(CAPM)取时序回归的截距项,作为非滞后的长期历史 Alpha。接着滞后 273 天,计算 11 天窗口内非滞后值的等权平均值,再取负数,以此作为长期历史 Alpha。3.2.5 质量因子质量因子(Quality)质量因子由杠杆率(Leverage)、盈利变动率(Earnings Variability)、盈利质量(Earnings Quality)、盈利能力(Profitability)、投资能力(Investment Quality)五个二级因子构成。杠杆率(Leverage):由市场杠杆率(MLEV)、账面杠杆率(BLEV)和资产负债率(DTOA)三个28、三级因子构成。中国股票风险因子模型白皮书第 12 页 共 73 页市场杠杆率:上一交易日普通股市值+上一财年优先股+上一财年长期负债上一交易日普通股市值账面杠杆率:上一财年普通股账面值+优先股账面值+长期负债账面值上一财年普通股账面值资产负债率:上一财年总负债上一财年总资产盈利变动率(Earnings Variability):由收入变动率(VSAL)、盈利变动率(VERN)、现金流变动率(VFLO)、预测每股收益变动率(ETOPF_STD)四个三级因子构成。收入变动率:过去 5 年年收入标准差/平均年收入。盈利变动率:过去 5 年年净利润标准差/平均年净利润。现金流变动率:过去 5 年年现金29、流标准差/平均年现金流。预测每股收益变动率:未来 12 月每股盈利预测标准差/现股价。盈利质量(Earnings Quality):由资产负债表盈余(ABS)和现金流盈余(ACF)两个三级因子构成。资产负债表盈余:基于资产负债表的盈余(ACCR_BS)通过资产负债表项目的连续变化和对折旧项目的处理计算得到。资产负债表盈余(ABS)=-基于资产负债表的盈余(ACCR_BS)/总资产。现金流盈余:基于现金流量表的盈余(ACCR_CF)通过对最新现金流量表项目和折旧项目的处理计算得到。现金流盈余(ABS)=-基于现金流量表的盈余(ACCR_CF)/总资产。中国股票风险因子模型白皮书第 13 页 共 30、73 页盈利能力(Profitability):由资产周转率(ATO)、毛利(GP)、毛利率(GPM)、资产收益率(ROA)四个三级因子构成。资产周转率:过去 12 个月收入/最新报告的总资产毛利:(上一财年收入-销货成本(COGS)/上一财年总资产毛利率:(上一财年收入-销货成本(COGS)/上一财年收入资产收益率:过去 12 个月净利润/最新报告的总资产投资能力(Investment Quality):由总资产增长率(AGRO)、发行股份增长率(IGRO)、资本支出增长率(CXGRO)三个三级因子构成。总资产增长率:将过去 5 年总资产对时间回归,得到回归系数;将回归系数除以平均总资产再取31、负数,得到总资产增长率。发行股份增长率:将过去 5 年发行股份数对时间回归,得到回归系数;将回归系数除以平均发行股份数再取负数,得到发行股份增长率。资本支出增长率:将过去 5 年资本支出对时间回归,得到回归系数;将回归系数除以平均资本支出再取负数,得到资本支出增长率。3.2.6 动量因子动量因子(Momentum)动量因子由相对强度(RSTR)和历史 Alpha(HALPHA)构成。相对强度:首先以 126 天为半衰期,在过去 252 天的窗口内,计算股票超市场收益对数的指数加权和,作为非滞后的相对强度。接着滞后 11 天,计算 11 天窗口的非滞后相对强度等权平均值,以此作为相对强度。历史 32、Alpha:首先,以 126 天为半衰期,在过去 252 天的窗口内,按与计算 Beta 因子一样的方法(CAPM)取时序回归的截距项,作为非滞后的历史 Alpha。接着滞后 11 天,计算 11 天窗口的非滞后历史 Alpha 等权平均值,以此作为历史 Alpha。中国股票风险因子模型白皮书第 14 页 共 73 页3.2.7 成长因子成长因子(Growth)成长因子由预测长期净利润增长率(EGRLF)、每股净利润增长率(EGRO)、每股收入增长率(SGRO)组成。预测长期利润增长率:分析师预测长期(3-5 年)净利润增长率。每股净利润增长率:将过去 5 年每股年净利润对时间进行回归,得到回33、归系数;将回归系数除以平均每股年净利润得到每股净利润增长率。每股收入增长率:将过去 5 年每股年收入对时间进行回归,得到回归系数;将回归系数除以平均每股年收入得到每股收入增长率。3.2.8 分红因子分红因子(Dividend Yield)分红因子由股息率(DTOP)和分析师预测股息率(DTOPF)构成。股息率:过去 12 个月每股分红/上月末股价。预测股息率:未来 12 个月每股预测分红/现股价。4.我们的风险模型我们的风险模型4.1模型估计方法模型估计方法4.1.1 极大似然法极大似然法不同于常见风险模型采用的 OLS 估计,我们的风险模型采用极大似然法估计因子收益率序列和协方差矩阵。极大似34、然法的思想较为直观。已知随机样本满足某概率分布,但该分布参数未知,我们试图寻找一组参数,使在该参数条件下,样本出现的概率最大。我们把这样一组参数作为对真实参数的估计。对于多因子模型,+1=,+1+,+1(4.1)与 3.1.1 相同,首先用公司财务和交易数据计算出矩阵。接着用极大似然法,对因子收益率,+1、因子协方差矩阵和异质性收益率协中国股票风险因子模型白皮书第 15 页 共 73 页方差矩阵进行估计。做出以下假设:,+1 0,(4.2),+1 0,(4.3),+1与,+1相互独立。根据假设条件,由(4.1)的线性关系,我们可以推出,+1的分布:,+1 0,+(4.4)因此,对于一组样本,+35、1,=1,2,,可以构造对数似然函数:,=log=11(2)/2+1/2?exp 12,+1+,+1(4.5)但是直接通过最大化似然函数的方法求解参数较为困难,因此我们引入 EM 算法,用迭代的思想求解参数和。4.1.2 EM 算法如何估计参数算法如何估计参数和和EM 算法分 E 步和 M 步两个步骤。在 E 步中,给定参数值11和样本收益率,计算出因子收益率的后验分布。在 M 步中,利用 E 步得出的因子收益率的后验分布,最大化对数似然函数,得到新的参数值。重复 E 步和 M 步直至参数收敛,即可获取参数和估计值。具体公式推导见附录 2。4.1.3 计算因子收益率计算因子收益率,+由 4.136、.2,我们通过 EM 算法估计出了参数和。在本节,利用已知的、和,可计算出因子收益率,+1。由(4.2),(4.4),,+1与,+1服从联合正态分布:,+1,+10?0?,+(4.6)11在第一次迭代中需设定参数的初始值。中国股票风险因子模型白皮书第 16 页 共 73 页由附录 1,,+1,+1=+1,+1=1,+1=+1,+1(4.7)或者进一步将因子收益率,+1的条件期望简化写作:,+1,+1=(+)1?(),+1(4.7)4.1.4 计算调整计算调整实证分析表明,EM 算法能够较好的解决线性回归模型的参数估计的准确性与稳定性问题,但是线性回归模型中的诸多不符合线性回归理想假设的情况仍然37、需要克服,因此在线性模型进行参数估计时,需要对其中的相关数据进行对应调整。(1)异方差调整异方差调整线性回归模型中个股特质性收益率方差一致的假设,往往在现实情况中并不成立,有必要在估测时进行异方差调整。在第 3.1.2 中,大多数调整模型的方法是使用加权最小二乘法(WLS),其中的权重变量通常选用ME(这里 ME 代表流通市值),因此模型相当于假设,+11,。基于这个假设,数学上等价于在估测过程中,将每一个观测都除以=1:,+1=,+1+,+1(4.8)这个假设的合理性可以用两种方法加以验证:i.直接用个股全样本波动率对1ME进行回归;ii.通过对全样本用 EM 算法估测该因子模型,并分析异质38、性收益率协方差矩阵的离散度进行验证。通过实证检验,我们发现,由于我国市场上个股的市值差距较大,中国股票风险因子模型白皮书第 17 页 共 73 页常见模型的权重假设可能使得小盘股权重过低,从而忽略很多重要的因子联动。基于进一步的实证分析结果,我们发现=Tvr,+1ME是更好的权重选择,其中 Tvr 代表换手金额,ME 代表流通市值。基于此,我们构造了新的权重调整矩阵:=10002000(4.9)因此,经过异方差调整,(4.1)被重写为1,+1=1,+1+?,+1(4.10)对(4.10)进行EM算法估算,我们会得到一个四元组(,),对模型目标资产协方差矩阵的估计可由下式表示:=11+=+(4.39、11)(2)协方差矩阵估计调整协方差矩阵估计调整通过 cluster 法和 shrinkage 法,我们可以得到更为稳健的协方差矩阵的估计。聚类(cluster)方法的核心思想是将同处一个 cluster 的多个股票的残差归并为一个相同的值进行联合估计,以进一步减少模型参数,使结果更稳健。shrinkage 法是将协方差矩阵的估计向均值进行收缩调整,从而提升协方差矩阵估计的稳定性。我们根据每只股票的观测数据量划分权重i,并根据权重大小确定收缩比例?,最后得到按比例收缩调整后的。?=?,?=i(4.12)=5%(4.13)?=max 1 1?,(4.14)=1?+?(4.15)4.1.5 共线性40、调整共线性调整中国股票风险因子模型白皮书第 18 页 共 73 页如果因子出现完全共线性,横截面回归模型会直接出现无法计算的问题,EM 算法也会因为出现不可唯一辨识的因子组而在进行 M 步时导致不稳定进而估计结果难以收敛。因为如果有两组甚至多组因子可以生成完全一样的,根据(4.5),对数似然函数在这些不同因子组条件下取值相同,这会导致 M 步在这些值附近跳跃,从而无法得到一个唯一的收敛值。因此,在有共线性存在时,我们需要进行共线性调整,模型中唯一的共线性来源于行业因子和国家因子。首先,在原始矩阵中选出不共线因子的子集,即剔除国家因子的 N(K-1)阶矩阵,该矩阵不存在共线性问题。接着将剔除国家41、因子后的矩阵输入 EM 算法进行对的估计,再将通过特定的矩阵变化转化为12。4.1.6 模型估计方法的优劣对比模型估计方法的优劣对比EM 算法也有其缺点,主要体现为其计算复杂耗时,收敛的速度相当依赖于和的初始值。作为改进,我们可以使用横截面回归的结果作为初始值,使初始值较为接近收敛位置,降低估算时间。在此改进基础上,EM 算法具有以下优势:1.更优解:每一步的 EM 回归迭代都会提高 likelihood,其结果一定会收敛。因此从 OLS 的回归结果出发,进行 EM 迭代,在 likelihood的测量下一定会得到更优解。2.稳定性(噪音抵抗性)更强:EM 算法的稳定性远优于横截面回归,具体表42、现为它有更强的噪音抵抗性。它的因子模拟投资组合取决于因子组曝露和资产的协方差矩阵(,+1=+)。因此,在对因子组微调的时候,资产间的联动性和模拟投资组合变动都不大,,+1的变化不大,原有因子的因子模拟投资组合受到的影响也不会大。反观横截面回归方法,加入/删减因子均可能导致()1发生剧烈改变。12详见附录 3.中国股票风险因子模型白皮书第 19 页 共 73 页3.更好应对数据缺失:金融市场数据集中缺失值是非常常见的,如果不能得到恰当处理,传统的 OLS 算法会对缺失值产生较大的调整,而,EM 算法的稳定性则能够在数据采集不完全的情况下依然可以给出良好的估计结果。4.假设更合理:在 OLS 回归43、中,模型假设与,+1独立;而本模型假设,+1与,+1相互独立。在金融市场实践中,与,+1独立的假设是很少成立的。资产收益、因子暴露、残差等变量常常出现较为异常的特性,比如残差波动与某些因子暴露相关。在实践意义上,,+1与,+1相互独立的假设更为合理。对于 OLS 和 EM 算法下,残差的相关性对比,我们设计了一下测试:1.在测试中使用了真实的因子暴露数据,我们使用 2017 年-2020年三年的数据,随机抽取 500 支股票在六个技术面因子上的暴露作为。2.使用标准正态分布生成模拟的因子收益。3.使用和随机正态分布模拟残差,使得生成的残差与因子暴露的相关性不为 0。具体测试中,我们使用某个因子44、的三次方来作为残差的非独立部分,然后通过调整系数来调节残差中独立与非独立的比例,如当残差中非独立的比例为 80%时,总残差=0.8*(非独立残差)+0.2*(独立残差)。4.使用模拟的因子收益和残差,获得模拟股票收益。5.将真实因子暴露与模拟股票收益分别送入 EM 与 OLS 方法进行回归,二者分别给出预测残差。6.分别计算两种方法得到的残差与模拟生成的精确残差的相关性,进行比较。7.改变模拟残差中独立/非独立部分的比例,可以获得两条 相关性vs 比例的曲线。我们将结果总结为图 1-图 4:中国股票风险因子模型白皮书第 20 页 共 73 页图 1预测残差与真实残差相关性(针对 Beta 因子45、的估计)图 2预测残差与真实残差相关性(针对年化交易量比因子的估计)中国股票风险因子模型白皮书第 21 页 共 73 页图 3预测残差与真实残差相关性(针对市值因子的估计)图 4预测残差与真实残差相关性(针对短期反转因子的估计)中国股票风险因子模型白皮书第 22 页 共 73 页图 1至图 4中横坐标为残差中非独立的可解释部分的比例,括号中标明非独立残差由哪个因子暴露的三次方得到,如(beta)表示残差中的非独立可解释部分是由 beta 因子暴露的三次方得到的。纵坐标为回归计算预测的残差与真实残差的相关性,具体计算方法为:在每一种比例下,两种回归方法加上模拟生成的精确值,每支股票均可以得到三个46、残差的时间序列,两种回归方法的时间序列分别与精确值的时间序列计算相关性,于是每支股票每种方法都可以得到两个相关系数,两种方法分别取 500 支股票的相关系数的 mean,于是在每种比例下,每种方法得到一个相关系数的 mean 值。然后我们连续改变残差中独立/非独立部分的比例,得到两条曲线。如图 1 至图 4 所示,与 OLS 估计的残差相比,EM 方法估计的残差与真实残差的相关性更强。更高相关性意味着 EM 算法计算的残差能够更好的反应真实残差。这也说明了 EM 算法优势。4.2 风险因子模型的评价标准风险因子模型的评价标准一个好的风险因子模型应该满足以下几个标准:(1)风险因子度量准确计算因47、子的数据集应尽量少包含缺失数据,同时保证因子数据的信息不损失。较少缺失值保证了计算过程中未缺失信息的利用效率,这能确保尽量多的信息纳入了模型之中。(2)风险因子体系能准确地刻画金融资产联动关系风险因子对资产收益率的解释应该足够够高、整个风险因子模型对资产收益联动的变化关系也应该有很好的解释力。这保证了基于风险因子体系的模型能明确展示出市场的现状和金融体系正在发生的变化。(3)风险因子模型能正确指导决策风险因子模型需要正确地刻画风险,基于此给出的投资建议需要明确、一致且连续。这要求风险因子值要尽量少的出现极值,而且风险因子值不能有过分的跳跃,风险因子模型得出的结果也要求比较稳定。中国股票风险因子48、模型白皮书第 23 页 共 73 页(4)风险因子体系开放、易扩展风险因子体系应该是开放的,需要很容易地容纳新的因子,从而适应世界的变化。4.3 中国风险因子模型的评价方式中国风险因子模型的评价方式将风险因子评价指标进一步细化为可度量的指标,并针对中国风险因子模型进行了量化评估:1.完备性:中国风险因子模型使用每天有因子值的股票数量与上市股票数量之比计算的覆盖率来衡量因子数据的完备程度。利于模型参数估计,要求筛选因子组合的覆盖率高于 50%。2.正态性:使用因子值的 5%至 95%分位数衡量因子极值的分布情况,因子回报分布尽量接近正态分布。3.连续性:使用因子值月度自相关系数 AR1 大小来衡49、量因子值的连续性。AR10.95 为连续性较好。4.相关性:使用因子相关系数矩阵来判断因子间的相关程度。在每一个方向的因子组中,尽可能取其中跨组相关性小的因子。5.解释能力:中国风险因子模型还使用单因子加行业因子衡量单个因子的解释力,使用包含全部因子模型的 log_likelihood 衡量模型解释资产联动的能力。4.4 中国风险因子中国风险因子描述描述4.3.1.规模规模4.3.1.1.规模规模表 1 规模因子描述统计Factor描述LOGCAP流通市值的自然对数(log(size))MIDCAP总市值(总市值三次方与 log 市值回归的残差)Factor覆盖率AR1LL 提升CUFMIGS50、MLOGCAP1.000.9923049.55达标或采用YesYesYesYesYesMIDCAP1.000.989977.05达标或采用YesYesYes中国股票风险因子模型白皮书第 24 页 共 73 页规模规模:规模因子是代表股票回报相关的重要来源,并捕捉大型股和小型股之间的回报差异。我们用市值的对数来衡量规模。上表中汇报了规模因子下的三级因子:流通市值的自然对数和总市值。其中,流通市值的自然对数覆盖率为 100%,AR1 为 0.99,LL 提升为23049.55;总市值覆盖率为 100%,AR1 为 0.99,LL 提升为 23049.55;根据评价标准,流通市值的自然对数达到了完备51、性、连续性和解释能力的标准;总市值达到了完备性、连续性的标准。最终我们选择了流通市值的自然对数因子。该因子由 Fama 和 French(1993)提出。常见于近期资产定价论文比如 Chen 等(2023)等。中国股票风险因子模型白皮书第 25 页 共 73 页4.3.2.波动率波动率4.3.2.1.Beta表 2 Beta 因子描述统计Factor描述BETABETA 值(股票超额收益率 和 市值加权指数(沪深 300)收益率的回归系数)Factor覆盖率AR1LL 提升CUFMIGSMBETA0.990.9236631.86达标或采用YesYesYesYesBeta:捕捉市场因素无法解释的52、市场风险。为了更好地理解这一因素,请考虑一个完全投资的长期投资组合,该组合强烈倾向于高贝塔股票。直观地说,这个投资组合比beta等于1的投资组合具有更大的市场风险。这一额外的市场风险通过贝塔系数的正敞口来捕捉。市场因素和贝塔因素之间的时间序列相关性通常很高,因此在本例中,这两个风险源相互强化。相比之下,如果投资组合投资于低贝塔股票,那么贝塔和市场因素的风险就会部分抵消,正如预期的那样。上表中汇报了 Beta 因子下的三级因子:BETA 值。其中,BETA 值的覆盖率为 99%,AR1 为 0.92,LL 提升为 36631.86。根据评价标准,BETA 值达到了完备性、连续性和解释能力的标准。53、Beta 因子是经常使用等因子,如 Gu 等(2021),使用 Beta 作为检验潜在因子的基础模型。中国股票风险因子模型白皮书第 26 页 共 73 页4.3.2.2.波动率波动率表 3 波动率因子描述统计Factor描述CumulativeRange累计幅度(过去 12 个月超额收益的离差)DailySTD日度标准差(股票日收益率在过去 252 日波动率)Hsigma历史标准差(计算 beta 时残差收益率的波动率,回归用 252 交易日数据,移动平均滞后期 63 天)LogDailySTDlog(日度标准差)Factor覆盖率AR1LL 提升CUFMIGSMCumulativeRange54、0.990.9113738.85达标或采用YesYesDailySTD0.980.9344615.36达标或采用YesYesHsigma0.990.9635422.46达标或采用YesYesYesLogDailySTD0.980.9349705.25达标或采用YesYesYes波动率波动率:由四个三级因子组成:每日超额收益的波动率、每日剩余收益的波动性以及过去 12 个月股票超额收益的累积范围。由于这些描述符倾向于与贝塔因子以及尺寸因子高度共线,但程度较小,但仍很重要,因此该因子与这两个因子正交。上表中汇报了规模因子下的三级因子:累计幅度(过去 12 个月超额收益的离差),日度标准差(股票日收55、益率在过去 252 日波动率),历史标准差,(计算 beta 时残差收益率的波动率,回归用 252 交易日数据,移动平均滞后期 63 天),log(日度标准差)。其中,累计幅度覆盖率为 99%,AR1 为 0.91,LL 提升为 13738.85;日度标准差覆盖率为 98%,AR1 为 0.93,LL 提升为 44615.36;历史标准差覆盖率为 99%,AR1 为0.96,LL 提升为 35422.46;log(日度标准差)覆盖率为 98%,AR1 为 0.93,LL 提升为 49705.25。根据评价标准,累计幅度达到了完备性的标准;日度标准差达到了完备性的标准;历史标准差到了完备性、连续56、性的标准;log(日度标准差)达到了完备性的标准。最终我们选择了 log(日度标准差)因子。与之类似等因子也常用于论文中,比如Jegadeesh等(2019)和 chen(2023)等。中国股票风险因子模型白皮书第 27 页 共 73 页4.3.3.流动性流动性4.3.3.1 周转率周转率表 4 周转率因子描述统计Factor描述AnnualShareTurnover年度换手率(过去 1 年股票换手率求和的对数值)AnnualizedTradedValueRatio换手率的年度加权平均(过去 252 日换手率指数加权移动平均)LogAnnualizedTradedValueRatio换手率的指57、数移动平均,半衰期为 21 个交易日MonthlyShareTurnover月度换手率(过去 1 月股票换手率求和的对数值)QuarterlyShareTurnover季度换手率(过去 1 季度股票换手率求和的对数值)Factor覆盖率AR1LL 提升CUFMIGSMAnnualShareTurnover0.950.9815444.32达标或采用YesYesYesAnnualizedTradedValueRatio0.950.9715034.02达标或采用YesYesYesLogAnnualizedTradedValueRatio0.980.9548291.99达标或采用YesYesMonth58、lyShareTurnover0.990.8316951.75达标或采用YesYesQuarterlyShareTurnover0.980.9418361.41达标或采用YesYesYes流动性流动性捕获因相对交易活动而产生的回报差异,通过在选定的后续窗口内交易的总流通股份额来衡量。上表中汇报了规模因子下的三级因子:年度换手率(过去 1 年股票换手率求和的对数值)、换手率的年度加权平均(过去 252 日换手率指数加权移动平均)、换手率的指数移动平均,半衰期为 21 个交易日,半衰期为 21 个交易日、月度换手率(过去 1 月股票换手率求和的对数值)、季度换手率(过去 1 季度股票换手率求和的对59、数值)。其中,年度换手率覆盖率为 95%,AR1 为 0.97,LL 提升为 15444.32;换手率的年度加权平均覆盖率为 95%,AR1 为 0.99,LL 提升为 15034.02;log(ewm(换手率)覆盖率为 98%,AR1 为 0.95,LL 提升为 48291.99;月度换手率为 99%,AR1 为 0.83,LL 提升为 16951.75;季度换手率覆盖率为 98%,AR1 为 0.94,LL 提升为 18361.41。根据评价标准,年度换手率达到了完备性、连续性的标准;换手率的年度加权平均达到了完备性、连续性中国股票风险因子模型白皮书第 28 页 共 73 页的标准;log60、(ewm(换手率)达到了完备性的标准;月度换手率达到了完备性的标准;季度换手率达到了完备性的标准。最终我们选择了季度换手率因子。POJANAVATEE(2020)采用了改因子检验了泰国股市的因子模型。4.3.4.动量动量4.3.4.1.短期反转短期反转表 5 短期反转因子描述统计Factor描述ShortTermReversal短期反转(最近一个月加权累积对数日收益率)Factor覆盖率AR1LL 提升CUFMIGSMShortTermReversal0.990.0424899.01达标或采用YesYesYesYes短期反转短期反转,根据最近一个月加权累积对数日收益率的相对表现区分股票。它与动61、量因子正交。上表中汇报了规模因子下的三级因子:短期反转。其中,短期反转的覆盖率为 99%,AR1 为 0.04,LL 提升为 24899.01。短期反转达到了完备性的标准。最终我们选择了短期反转因子。同时,在 Kelly(2021)中也展示了反转因子在因子模型中的重要作用。4.3.4.2.动量动量表 6 动量因子描述统计Factor描述Halpha历史 Alpha(回归用 252 交易日数据,移动平均滞后期 63 天)RelativeStrength相对强度(长期动量减短期动量,长期动量窗口 252 天滞后 121 天、短期窗口 11 天,滞后 11 天)Factor覆盖率AR1LL 提升CU62、FMIGSMHalpha0.990.8127404.87达标或采用YesYesRelativeStrength0.970.9126520.20达标或采用YesYesYesYes动量动量,根据最近 12 个月的表现区分股票。在计算这一因子时,我们排除了最近一个月的回报,以避免短期逆转的影响。上表中汇报了规模因子下的三级因子:历史 Alpha(回归用 252 交易日数据,移动平均滞后期 63 天)、相对强度(长期动量减短期动量,中国股票风险因子模型白皮书第 29 页 共 73 页长期动量窗口 252 天滞后 121 天、短期窗口 11 天,滞后 11 天)。其中,历史 Alpha 覆盖率为 99%63、,AR1 为 0.81,LL 提升为 27404.87;相对强度覆盖率为 97%,AR1 为 0.91,LL 提升为 26520.20;根据评价标准,历史 Alpha 达到了完备性、连续性和解释能力的标准;相对强度达到了完备性、连续性的标准。最终我们选择了相对强度因子。4.3.5.质量质量4.3.5.1.现金流风险现金流风险表 7 现金流风险因子描述统计Factor描述AccrualsBalancesheetVersion资产负债表应计项目(ACCR_BS/TA)AccrualsCashflowVersion现金流量表应计项目(ACCR_CF/TA)GrossProfitability资产毛利64、率(主营业务收入-营业成本)/总资产GrossProfitMargin销售毛利率(主营业务收入-营业成本)/主营业务收入AssetTurnover资产周转率(Sales/TA)MoneynessFreeCashflowCashflow Moneyness:(Operating CF+Investment CF)/(gross margin*variation in sales)Factor覆盖率AR1LL 提升CUFMIGSMAccrualsBalancesheetVersion0.990.743294.50达标或采用YesYesAccrualsCashflowVersion0.990.90465、389.21达标或采用YesYesGrossProfitability0.990.966220.18达标或采用YesYesYesGrossProfitMargin0.990.987391.48达标或采用YesYesYesYesYesAssetTurnover0.991.003774.68达标或采用YesYesYesMoneynessFreeCashflow0.930.742845.54达标或采用Yes质量:质量:结合资产、现金流量、利润率和资产周转率来衡量质量。上表中汇报了规模因子下的三级因子:资产负债表应计项目(ACCR_BS/TA)、现金流量表应计项目(ACCR_CF/TA)、资产毛利率(66、主营业务收入-营业成本)/总资产、销售毛利率(主营业务收入-营业成本)/主营业务收入、资产周转率(Sales/TA)、Cashflow Moneyness:(Operating CF+Investment CF)/(gross margin*variation in sales)。其中,资产负债表应计项目覆盖率为 99%,AR1 为 0.74,LL 提升为 3294.50;中国股票风险因子模型白皮书第 30 页 共 73 页现金流量表应计项目覆盖率为 99%,AR1 为 0.90,LL 提升为 4389.21;资产毛利率覆盖率为 99%,AR1 为 0.96,LL 提升为 6220.18;销售67、毛利率覆盖率为 99%,AR1 为 0.98,LL 提升为 7391.48;资产周转率覆盖率为 99%,AR1 为 1.00,LL 提升为 3774.68;Cashflow Moneyness 覆盖率为 93%,AR1 为 0.74,LL 提升为 2845.54;根据评价标准,资产负债表应计项目达到了完备性的标准;现金流量表应计项目达到了完备性的标准:资产毛利率达到了完备性、连续性的标准:销售毛利率达到了完备性、连续性的标准:资产周转率达到了完备性的标准:CashflowMoneyness 达到了完备性的标准。最终我们选择了销售毛利率因子。Sheng(2022)表明了这个因子的有效性。4.3.68、5.2.Balance Sheet Low Risk表 8 Balance Sheet Low Risk 因子描述统计Factor描述BookLeverage账面杠杆((be+pe+ld)/be)MarketLeverage市场杠杆((me+pe+ld)/me)DebttoAssetRatio负债资产比(总负债/总资产)MoneynessAssettoDebtAsset to debt Moneyness(log(Asset/Debt)/sigma(earning/asset)Factor覆盖率AR1LL 提升CUFMIGSMBookLeverage0.950.994942.10达标或采用Ye69、sYesYesMarketLeverage0.951.006432.06达标或采用YesYesYesDebttoAssetRatio0.990.995523.33达标或采用YesYesYesMoneynessAssettoDebt0.950.985158.69达标或采用YesYesYesYes流动性流动性:捕获因相对交易活动而产生的回报差异,通过在选定的后续窗口内交易的总流通股份额来衡量。上表中汇报了规模因子下的三级因子:账面杠杆((be+pe+ld)/be)、市场杠杆((me+pe+ld)/me)、负债资产比(总负债/总资产)、Asset todebt Moneyness(log(Asset70、/Debt)/sigma(earning/asset)。其中,账面杠杆覆盖率为 95%,AR1 为 0.99,LL 提升为 4942.10;市场杠杆覆盖率为 95%,AR1 为 1.00,LL 提升为 6432.06;负债资产比覆盖率为 99%,中国股票风险因子模型白皮书第 31 页 共 73 页AR1为 0.99,LL 提升为 5523.33;Asset to debt Moneyness 覆盖率为95%,AR1 为 0.98,LL 提升为 5158.69。根据评价标准,账面杠杆达到了完备性、连续性的标准;市场杠杆达到了完备性、连续性的标准;负债资产比达到了完备性、连续性的标准;Asset 71、to debt Moneyness 达到了完备性、连续性的标准。最终我们选择了 Asset to debt Moneyness 因子。Merton(1976)展示了信贷在资产定价中的重要性。类似的还有 Koijen(2020)中也论证了长期债务在资产定价中的重要性。和我们类似,Hou 等(2021)和 Harahap(2021)也指出了公司预期增长因子在资产定价中的重要性。4.3.5.3.资产增长率资产增长率表 9 资产增长率因子描述统计Factor描述CapitalExpenditureGrowth资本支出增长率(近五年资本支出对时间回归的斜率除平均资本支出,取相反数)IssuanceGro72、wth股票发行量增长率(最近 5 年流通股本对时间回归取斜率/平均资本支出,取相反数)ReturnonAssets总资产收益率(过去 12 个月净利润/总资产)ReturnonEquity股本收益率(过去 12 个月净利润/equity book value)TotalAssetGrowth总资产增长率(最近 5 年总资产对斜率回归取截距/平均总资产,取相反数)Factor覆盖率AR1LL 提升CUFMIGSMCapitalExpenditureGrowth0.940.916893.65达标或采用YesYesYesYesIssuanceGrowth0.450.964789.51达标或采用Yes73、YesReturnonAssets0.990.988148.48达标或采用YesYesYesReturnonEquity0.990.978349.15达标或采用YesYesYesYesTotalAssetGrowth0.980.987736.18达标或采用YesYesYesYesYes质量质量结合资产、现金流量、利润率和资产周转率来衡量质量。上表中汇报了规模因子下的三级因子:资本支出增长率(近五年资本支出对时间回归的斜率除平均资本支出,取相反数)、股票发行量增中国股票风险因子模型白皮书第 32 页 共 73 页长率(最近 5 年流通股本对时间回归取斜率/平均资本支出,取相反数)、总资产收益率(74、过去 12 个月净利润/总资产)、股本收益率(过去 12个月净利润/equity book value)、总资产增长率(最近 5 年总资产对斜率回归取截距/平均总资产,取相反数)。其中,资本支出增长率覆盖率为 94%,AR1 为 0.91,LL 提升为 6893.65;股票发行量增长率覆盖率为45%,AR1 为 0.96,LL 提升为 4789.51;总资产收益率覆盖率为 99%,AR1 为 0.98,LL 提升为 8148.48;股本收益率覆盖率为 99%,AR1 为0.97,LL 提升为 8349.15;总资产增长率覆盖率为 98%,AR1 为 0.98,LL 提升为 7736.18。根据75、评价标准,资本支出增长率达到了完备性的标准;股票发行量增长率达到了连续性的标准;总资产收益率达到了完备性、连续性的标准;股本收益率达到了完备性、连续性的标准;总资产增长率达到了完备性、连续性的标准。最终我们选择了总资产增长率因子和股本收益率因子。我们和 Harahap(2021)的因子选取有一致性,模型采用了股本收益率因子。4.3.5.4.Variability表 10 Variability 因子描述统计Factor描述Predictedstd分析师预期1年盈利标准差股价比(分析师预期未来12 个月盈利标准差/股价)VariationinCashFlow现金流波动率(过去 5 年现金及等价物76、增加额的标准差/平均现金及等价物净增加额)VariationinEarnings净利润波动率(过去 5 年净利润标准差/平均年净利润)VariationinSales营业收入波动率(过去 5 年营业收入标准差/平均年营业收入)Factor覆盖率AR1LL 提升CUFMIGSMPredictedstd0.790.974738.37达标或采用YesYesVariationinCashFlow0.930.603306.82达标或采用YesYesVariationinEarnings0.930.753676.00达标或采用YesYesVariationinSales0.930.963548.35达标或77、采用YesYesYes质量质量结合资产、现金流量、利润率和资产周转率来衡量质量。上表中汇报了规模因子下的三级因子:分析师预期 1 年盈利标准差股价比(分析师预期未来 12 个月盈利标准差/股价)、现金流波动率(过中国股票风险因子模型白皮书第 33 页 共 73 页去 5 年现金及等价物增加额的标准差/平均现金及等价物净增加额)、净利润波动率(过去 5 年净利润标准差/平均年净利润)、营业收入波动率(过去 5 年营业收入标准差/平均年营业收入)。其中,分析师预期 1 年盈利标准差股价比为 79%,AR1 为 0.97,LL 提升为 4738.37;现金流波动率覆盖率为 93%,AR1 为 0.678、0,LL 提升为 3306.82;净利润波动率覆盖率为 93%,AR1 为 0.75,LL 提升为 3676.00;营业收入波动率覆盖率为 93%,AR1 为 0.96,LL 提升为 3548.35;根据评价标准,分析师预期 1 年盈利标准差股价比数达到了连续性的标准;现金流波动率达到了完备性的标准;净利润波动率达到了连续性的标准;营业收入波动率达到了完备性、连续性的标准。我们未选择该二级指标。4.3.6.市值市值4.3.6.1.账面市值比账面市值比表 11 账面市值比因子描述统计Factor描述BooktoPrice账面市值比(净资产/市值)LogBooktoPricelog BPFacto79、r覆盖率AR1LL 提升CUFMIGSMBooktoPrice0.990.9913847.02达标或采用YesYesYesLogBooktoPrice0.990.9814728.59达标或采用YesYesYesYes上表中汇报了规模因子下的三级因子:账面市值比(净资产/市值)、log BP。其中,账面市值比覆盖率为 99%,AR1 为 0.99,LL 提升为13847.02;log BP 覆盖率为 99%,AR1 为 0.98,LL 提升为 14728.59;根据评价标准,账面市值比达到了完备性、连续性的标准;log BP 达到了完备性、连续性的标准。最终我们选择了 log BP 因子。账面价80、值和价格一直在因子模型中非常重要,如 Koijen(2020)在汇率定价模型中采用了账面价值因子。中国股票风险因子模型白皮书第 34 页 共 73 页4.3.6.2.盈利价格比盈利价格比表 12 盈利价格比因子描述统计Factor描述CashEarningtoPrice现金盈利价格比(过去 12 个月现金盈利/市值)EarningtoPrice盈利市值比(过去 12 个月盈利/市值)EbittoEv息税前利润企业价值比(EBIT/EV)LongTermRelativeStrength长期相对强弱(股票收益率加权平均后取相反数)LongTermHistoricalAlpha长期历史 alphaP81、redictedEarningtoPrice预期 12 个月盈利市值比(预期 12 个月盈利/市值)PredictedEarningtoPriceFilledpredict earnings(combine first earings)/priceFactor覆盖率AR1LL 提升CUFMIGSMCashEarningtoPrice0.990.955323.74达标或采用YesYesYesEarningtoPrice0.990.9710514.73达标或采用YesYesYesEbittoEv0.990.968996.13达标或采用YesYesYesLongTermRelativeStrengt82、h0.900.945131.42达标或采用YesYesLongTermHistoricalAlpha0.900.857399.97达标或采用YesYesPredictedEarningtoPrice0.750.978850.87达标或采用YesYesPredictedEarningtoPriceFilled0.990.9611761.54达标或采用YesYesYesYes上表中汇报了规模因子下的三级因子:现金盈利价格比(过去 12个月现金盈利/市值)、盈利市值比(过去 12 个月盈利/市值)、息税前利润企业价值比(EBIT/EV)、长期相对强弱(股票收益率加权平均后取相反数)、长期历史 alp83、ha、预期 12 个月盈利市值比(预期 12 个月盈利/市值)、predict earnings(combine first earings)/price。其中,现金盈利价格比覆盖率为 99%,AR1 为 0.95,LL 提升为 5323.74;盈利市值比覆盖率为 99%,AR1 为 0.97,LL 提升为 10514.73;息税前利润企业价值比覆盖率为 99%,AR1 为 0.96,LL 提升为 8996.13;长期相对强弱覆盖率为 90%,AR1 为 0.94,LL 提升为 5131.42;长期历史 alpha 覆盖率为 90%,AR1 为 0.85,LL 提升为 7399.97;预期 184、2 个月盈利市值比覆盖率为 75%,AR1 为 0.97,LL 提升为 8850.87;predict earnings 覆盖率为 99%,AR1 为 0.96,LL 提升为 11761.54。根据评价标准,现金中国股票风险因子模型白皮书第 35 页 共 73 页盈利价格比达到了完备性、连续性的标准;盈利市值比达到了完备性、连续性的标准;息税前利润企业价值比达到了完备性、连续性的标准;长期相对强弱达到了完备性的标准;长期历史 alpha 达到了完备性的标准;预期 12 个月盈利市值比达到了连续性的标准;predict earnings 达到了完备性、连续性的标准。最终我们选择了 predict85、 earnings 因子。Wasan和 Mulchandani(2020)指出了 predict earnings 在企业金融的重要性,同时 Lalwani 和 Madhumita(2020)也指出了盈利价格比因子在因子模型中的重要性。4.3.7.增长增长4.3.7.1.收益增长率收益增长率表 13 收益增长率因子描述统计Factor描述EarningperShareGrowth每股收益增长率(过去五年 EPS 对时间回归斜率/平均EPS)EarningGrowthbyEquityValueEarning growth/Net Asset(每股 EPS 增长)PredictedEarningG86、rowth预测长期盈利增长率(预期净利润 当前净利润)/(abs(预期净利润)+abs(当前净利润)/2)PredictedEarningGrowthbyEquityValue预测长期盈利增长率(预期净利润 当前净利润)/Net AssetFactor覆盖率AR1LL 提升CUFMIGSMEarningperShareGrowth0.900.852973.85达标或采用YesYesEarningGrowthbyEquityValue0.980.973836.52达标或采用YesYesYesPredictedEarningGrowth0.720.953400.40达标或采用YesPredicte87、dEarningGrowthbyEquityValue0.720.965179.76达标或采用Yes增长增长:根据销售或收益增长的前景区分股票。这一因素中最重要的描述是分析师预测的长期收益增长。它还包括过去五年的销售额和收入增长。上表中汇报了规模因子下的三级因子:每股收益增长率(过去五年EPS 对时间回归斜率/平均 EPS)、Earning growth/Net Asset(每股 EPS增长)、预测长期盈利增长率 A(预期净利润 当前净利润)/(abs(预期净利润)+abs(当前净利润)/2)、预测长期盈利增长率 B(预期净利润 中国股票风险因子模型白皮书第 36 页 共 73 页当前净利润)88、/Net Asset。其中,每股收益增长率覆盖率为 90%,AR1为 0.85,LL 提升为 2973.85;每股 EPS 增长覆盖率为 98%,AR1 为 0.97,LL 提升为 3836.52;预测长期盈利增长率覆盖率为 72%,AR1 为 0.95,LL 提升为 3400.40;总市值覆盖率为 72%,AR1 为 0.96,LL 提升为5179.76。根据评价标准,每股收益增长率达到了完备性的标准;每股EPS 增长达到了完备性、连续性的标准;预测长期盈利增长率 A 未达到标准;预测长期盈利增长率 B 达到了连续性的标准。最终我们并未选择该二级因子。4.3.7.2.营业收入增长率营业收入增89、长率表 14 营业收入增长率因子描述统计Factor描述SalesperShareGrowth每股营业收入增长率(过去五年每股营收对时间回归斜率/平均每股营收)SalesGrowthbyEquityValueSales growth/Net Asset(分配到每一股的销售增长)Factor覆盖率AR1LL 提升CUFMIGSMSalesperShareGrowth0.900.974456.25达标或采用YesYesYesSalesGrowthbyEquityValue0.990.956803.03达标或采用YesYes营业收入增长率营业收入增长率:根据销售或收益增长的前景区分股票。这一因素中最90、重要的描述是分析师预测的长期收益增长。它还包括过去五年的销售额和收入增长。上表中汇报了规模因子下的三级因子:流通市值的自然对数和总市值。其中,流通市值的自然对数覆盖率为 100%,AR1 为 0.99,LL 提升为 23049.55;总市值覆盖率为 100%,AR1 为 0.99,LL 提升为 23049.55;根据评价标准,流通市值的自然对数达到了完备性、连续性和解释能力的标准;总市值达到了完备性、连续性的标准。最终我们选择了流通市值的自然对数因子。和市值因子、增长因子类似,Hou(2021)、Chen(2023)和 Kelly 等(2020)等采用了该类因子,并取得了很好等效果。中国股票风91、险因子模型白皮书第 37 页 共 73 页4.3.8.市场情绪市场情绪4.3.8.1 分析师调整分析师调整表 15 分析师调整因子描述统计Factor描述RevisionRatio分析师调整比率(近 3 个月分析师调整比率加权平均)预期数据缺失值填 0ChangeinPredictedEarningtoPrice分析师预测 EP 比变化(近 4 个季度分析师预测 EP 变化的加权平均)ChangeinPredictedEarningperShare分析师预测 EPS 变化(近 4 个季度分析师预测 EPS 变化的加权平均)Factor覆盖率AR1LL 提升CUFMIGSMRevisionRat92、io10.56361.39达标或采用YesYesChangeinPredictedEarningtoPrice0.470.687261.57达标或采用YesChangeinPredictedEarningperShare0.520.736227.45达标或采用YesYesYes上表中汇报了市场情绪因子下的三级因子:分析师调整比率(近 3个月分析师调整比率加权平均)、分析师预测 EP 比变化(近 4 个季度分析师预测 EP 变化的加权平均)、分析师预测 EPS 变化(近 4 个季度分析师预测 EPS 变化的加权平均)。其中,分析师调整比率覆盖率为100%,AR1 为 0.65,LL 提升为 3693、1.39;分析师预测 EP 比变化为 47%,AR1 为 0.68,LL 提升为 7261.57;分析师预测 EPS 比变化为 52%,AR1为 0.73,LL 提升为 6227.45;根据评价标准,分析师调整比率覆盖率达到了完备性的标准。分析师预测 EPS 变化因子的解释能力提升最大,最终我们选择了分析师预测 EPS 变化因子。和预测因子类似,该类因子在因子模型中应用广发,如 Wasan 和 Kalyani(2020)、Hou 等(2021)等。中国股票风险因子模型白皮书第 38 页 共 73 页4.3.9.股息股息4.3.9.1 股息率股息率表 16 股息率因子描述统计Factor描述Di94、videndtoPrice股息率(近 12 个月每股股息/股价)PredictedDividendtoPrice分析师预测分红价格比(预期 12 个月每股股息/股价)PredictedDividendtoPriceFilledpredict divided(combine first divided 12 month rolling mean)/priceFactor覆盖率AR1LL 提升CUFMIGSMDividendtoPrice1.000.934371.52达标或采用YesYesPredictedDividendtoPrice0.510.963974.21达标或采用YesYesPredi95、ctedDividendtoPriceFilled1.000.955758.64达标或采用YesYesYesYes上表中汇报了规模因子下的三级因子:股息率(近 12 个月每股股息/股价)、分析师预测分红价格比(预期 12 个月每股股息/股价)、predictdivided(combine first divided 12 month rolling mean)/price。其中,股息率覆盖率为 100%,AR1 为 0.93,LL 提升为 4371.52;分析师预测分红价格比覆盖率为 51%,AR1 为 0.96,LL 提升为 3974.21;predict divided覆盖率为 100%,96、AR1 为 0.95,LL 提升为 5758.64;根据评价标准,股息率达到了完备性的标准;分析师预测分红价格比达到了连续性的标准;predict divided 达到了完备性、连续性的标准。最终我们选择了 predictdivided 因子。和我们类似,Penman 和 Zhu(2019)采用了股息因子。中国股票风险因子模型白皮书第 39 页 共 73 页5.模型风险测试模型风险测试本节主要内容为对于我们模型的风险控制能力的检验结果。本文选取三个指标测试模型的风险控制能力:组合风险管理(RMV)、风险价值(VaR)和波动率的波动率(VoV),并且基于三个指标与传统因子模型的风险控制对比。本节97、选取全部中国上市公司股票(3725 家)2012 年 10 月底至 2022 年 10 月底进行各个指标计算、估计。5.1.个股风险个股风险首先,基于中国全部上市公司数据,我们分别估计了每只股票的VaR、RMA 和 VoV,描述性统计结果报告于表 17 至表 19 以及图 5 至图 7。其中,依次为 VaR、RMA 和 VoV 的全部中国上市公司股票(3725家)2012 年 10 月底至 2022 年 10 月底数据计算估计结果的描述统计结果。表 17 个股风险 VaRindexCUFMIGSMcount37253723mean2.9913.018std1.0310.761min0.670.98、65325%2.3842.54650%2.7412.87675%3.2743.313max14.04210.912表 17 报告了全部中国上市公司股票(3725 家)2012 年 10 月底至2022 年 10 月底数据,根据 CUFM 以及我们的模型估计 99%VaR 的描述统计结果。一般来说,其越接近 2.58 意味着模型更接近正太分布。从均值来说,我们模型估计出的 99%VaR 为 2.991,对比 CUFM 的 3.018,我们更为接近标准正太分布的 2.58。所以相比 CUFM 而言,我们模型估计后数据更为符合一般数据估计的假设。从方差来说,我们模型估计出的 99%VaR 方差为 199、.031,其略高于 CUFM 的 0.761;我们模型估计出的 99%VaR 的极小值、25%、50%、75%的分位数、极大值分别为 0.670、2.384、2.741、3.274 和 14.042,CUFM 模型估计出的 99%VaR 的极小中国股票风险因子模型白皮书第 40 页 共 73 页值、25%、50%、75%的分位数、极大值分别为 0.653、2.546、2.876、3.313 和 10.912。表 18 个股风险 RMVindexCUFMIGSMcount37253723mean0.10.105std0.0210.014min0.0430.04525%0.0890.09650%0100、.0960.10375%0.1060.111max0.2850.271表 18 报告了全部中国上市公司股票(3725 家)2012 年 10 月底至2022 年 10 月底数据,根据 CUFM 以及我们的模型估计以 10%为目标RMA 的描述统计结果。一般来说,其越接近 0.1 意味着模型更风险控制能力越强。从分布来看,我们模型估计出的 RMA 的极小值、25%、50%、75%的分位数、极大值分别为 0.045、0.096、0.103、0.111、0.271,CUFM 模型估计出的 RMA 的极小值、25%、50%、75%的分位数、极大值分别为 0.043、0.089、0.096、0.106、101、0.285,我们的分布更为集中在 0.1 附近。所以相比 CUFM 而言,我们模型对于个股风险控制更强。我们和 CUFM 的 RMA 均值接近,分别为 0.105 和 0.1;我们模型估计出的 RMA 方差为 0.021,其略高于 CUFM 的 0.014。表 19 个股风险 VoVindexCUFMIGSMcount326302321576mean0.0270.025std0.0220.023min0025%0.0120.0150%0.0240.02175%0.0380.035max0.5160.454表 19 报告了全部中国上市公司股票(3725 家)2012 年 10 月底至2022 年102、 10 月底数据,根据 CUFM 以及我们的模型估计 VoV 的描述统中国股票风险因子模型白皮书第 41 页 共 73 页计结果。一般来说,其越小意味着模型风险控制越好。对比结果来看,我们模型估计出的 VoV 为 0.025,对比 CUFM 的 0.027,我们模型的平均 VoV 更小。所以相比 CUFM 而言,我们模型对于风险控制更为卓越。我们模型估计出的 VoV 方差为 0.023,其略高于 CUFM 的 0.022;我们模型估计出的 VoV 的极小值、25%、50%、75%的分位数、极大值分别为 0、0.01、0.021、0.035、0.454,CUFM 模型估计出的 VoV 的极小值、103、25%、50%、75%的分位数、极大值分别为 0、0.012、0.024、0.038、0.516。5.1.2.个股风险分布个股风险分布图 5 至图 7 分别绘制了全部中国上市公司股票(3725 家)2012 年10 月底至 2022 年 10 月底估计的 VaR、RMV、VoV 个股分布图。图 5 VaR 分布对比图 5 为我们模型和 CUFM 对全部中国上市公司股票 99%VaR 的估计分布图,可以看出我们 VaR 的分布相对 CUFM 更为接近 2.58,这说明我们估计结果更为合理。这也和表 17 得出的结轮一致。同时我们模型估计的 VaR 相对左偏。中国股票风险因子模型白皮书第 42 页104、 共 73 页图 6 RMV 分布对比图 6 为我们模型和 CUFM 对全部中国上市公司股票目标 10%的RMV估计分布图,可以看出我们RMV的分布相对CUFM更为接近0.1,这说明我们估计结果更为合理。这也和表 18 得出的结轮一致。同时我们模型估计的 VaR 相对左偏。中国股票风险因子模型白皮书第 43 页 共 73 页图 7 VoV 对比图 7 为我们模型和 CUFM 对全部中国上市公司股票 VoV 的估计分布图,可以看出我们 VoV 的分布相对 CUFM 更为接近 0,这说明我们估计结果方差接近 0,这意味着我们的模型方差更为稳定。这也和表 19得出的结轮一致。同时我们模型估计的 Vo105、V 相对左偏。5.1.3.个股风险管理特例分析个股风险管理特例分析本节选取了几个中国股市近年来有代表性的股票、事件对我们的模型进行测试。特别的,本文选取了“獐子岛”、“贵州茅台”、“万科”和“康美药业”这几只发生重大事件的股票测试模型的风险预测能力。中国股票风险因子模型白皮书第 44 页 共 73 页图 8 獐子岛特异性风险图 8 报告獐子岛在“扇贝跑了”事件中的表现以及我们模型和CUFM 模型对于獐子岛特异性风险的折线图。2014 年 10 獐子岛发布公中国股票风险因子模型白皮书第 45 页 共 73 页告称异常的冷水造成了獐子岛的虾夷扇贝绝收;当年净利润亏损 11.95亿元。2018 年 106、1 月獐子岛突发公告,声称 2017 年降水减少,导致饵料短缺,再加上海水温度异常,大量扇贝饿死。2017 年业绩大跌,亏损7.23 亿。2019 年 4 月、10 月,2020 年 5 月,獐子岛扇贝又发生多次“集体死亡/逃跑”。2020 年 6 月 24 日证监会依法对獐子岛公司信息披露违法违规案作出行政处罚及市场禁入决定。图 8 中,图中下面部分对应为我们模型的结果、上面部分对应CUFM 的结果。对比两部分可以看出,首先由于 CUFM 模型的估计的假设,特异性波动率与总波动率之间的差距变化较小,而我们的模型两者的差距在“扇贝跑了”事件前加大,这暗示我们的模型具有一定的风险预测能力,这一点107、从 3 个月的预期波动率也能得到类似的结果。图 9 报告万科在“宝万之争”事件中的表现以及我们模型和 CUFM模型对于万科特异性风险的折线图。2015 年 7 月 24 日,宝万之争拉开序幕。2016 年 12 月 17 日,恒大退出,宝万之争结束。图 9 中,图中下面部分对应为我们模型的结果、上面部分对应CUFM 的结果。对比两部分可以看出和图 8 类似的结果,同样由于CUFM 模型的估计的假设,特异性波动率与总波动率之间的差距变化较小,而我们的模型两者的差距在“宝万之争”事件前加大,这暗示我们的模型具有一定的风险预测能力,这一点从 3 个月的预期波动率也能得到类似的结果。同时,在事后的波动108、率 IGSM 的估计结果也表现出更大的反应,这都暗示了我们模型的对于风险的反应更显著。中国股票风险因子模型白皮书第 46 页 共 73 页图 9 万科停牌中国股票风险因子模型白皮书第 47 页 共 73 页图 10 康美药业中国股票风险因子模型白皮书第 48 页 共 73 页图 10 报告了康美药业股价的表现以及们模型和 CUFM 模型对于特异性风险的折线图。2018 年 10 月 16 日,康美药业在盘中突然跌停,17 日再度闪崩跌停,17 日之后的 4 个工作日,康美市值迅速被腰斩。2020 年 5 月 13 日,中国证监会对康美药业证券违法违规案作出行政处罚和市场禁入决定,对公司和 21109、 名责任人处以罚款和市场禁入决定。图 10 中,图中下面部分对应为我们模型的结果、上面部分对应CUFM 的结果。对比两部分可以看出,同样在事件期间,相比 CUFM模型的波动率估计结果,我们模型估计的总波动率、特异性波动率,在事前均可观察出更明显的上升。CUFM 模型的特异性波动率几乎没有变化。这表明我们的模型具有一定的预测能力,这一点从 3 个月的预期波动率也能得到类似的结果。图 11报告了贵州茅台股价的表现以及们模型和CUFM模型对于特异性风险的折线图。图 11 中,图中下面部分对应为我们模型的结果、上面部分对应 CUFM 的结果。对比两部分可以看出,在大部分时期,我们模型所估计的系统性风险110、的波动会更明显。平均来看,我们模型所估计的系统性风险的波动为 25%(相对均值),而 CUFM 则是 21%(相对均值)。所以我们可以相信我们模型所估计出的风险根据信息,我们对于系统性风险、异质性风险的估计反应了更多信息信息。这些信息也能转化为对于高风险事件的预测能力。同时,我们也对比了我们模型和 CUFM 模型在不同分数总风险的表现,其中 25%、50%、75%分位数的结果分别在图 12。描述统计在表 20 中。中国股票风险因子模型白皮书第 49 页 共 73 页图 11 贵州茅台中国股票风险因子模型白皮书第 50 页 共 73 页图 12 总风险表 20 波动率描述统计indexCUFMI111、GSMIDIO.VAR.SYS.VAR.IDIO.VAR.SYS.VAR.10%4.7%4.8%2.3%0.0%25%7.2%6.9%4.2%0.0%50%11.8%10.0%8.6%5.4%75%19.8%14.4%18.0%9.2%90%30.8%21.4%38.2%14.9%mean15.6%12.8%38.8%6.9%图 12 表明对于 75%分位数的股票,我们的模型能够估计出更低的波动率,对于 25%的股票则估计的波动率较高。表 20 展示了特异性风险和系统性风险在不同分位数的情况。系统性波动率和特异性波动率在分布表现上和总波动率一致,在较低分位数区域 CUFM 估计的结果较高,在较112、高分位数区域我们的结果较高。5.2.市场组合风险市场组合风险本节我们选取了 30 个代表性的指数投资组合作为我们的测试对象,同样我们就 VaR、RMV、VoV 三个指标和 CUFM 模型进行了对比。结果汇总在表 21 至表 26,以及图 13 图 15。其中逐个指数组合的 VaR、RMV、VoV 三个指标的结果分别在表 21、表 22、表 23;VaR、RMV、VoV 三个指标的总体描述统计在表 22、表 24、表 26;VaR、RMV、VoV 三个指标的的分布图在图 13 至图 15。中国股票风险因子模型白皮书第 51 页 共 73 页表 21 组合 RMV指数简称IGSMCUFM2022 113、年 ETF 规模测试起始时间沪深 30010.0%9.9%47.162010-1中证 5009.8%10.1%12.012010-1上证 5010.4%9.4%17.562010-1中证白酒13.9%11.1%4.292015-01中证 100010.4%10.8%11.342014-10光伏产业12.2%13.2%2.582019-04中证军工10.5%11.4%1.962014-04CS 新能车12.3%12.7%3.852014-12中证红利8.9%9.3%11.902012-12CS 创新药11.5%11.2%2.052019-04300 成长10.3%9.3%11.102012-11114、全指医药10.5%10.7%6.242012-11中证农业11.0%11.3%1.752015-07全指金融10.7%8.9%16.022012-11CS 人工智9.2%9.6%1.762015-08全指信息10.3%10.8%7.562012-11细分化工10.5%10.7%2.332012-11新材料11.3%12.1%4.032015-02消费电子10.4%10.8%2.782020-06全指可选9.7%10.3%6.462012-11SHS 科技龙头8.8%9.8%9.202020-07全指能源9.8%10.0%4.022012-11全指材料10.1%10.5%8.062012-113115、00R 价值10.2%9.4%37.352012-11全指工业10.0%10.5%17.232012-11全指消费11.0%10.3%7.782012-11全指电信9.2%10.5%4.182012-11全指公用10.5%10.4%2.712012-11新华 500 指数9.5%10.2%52.492019-11500R 成长9.9%10.6%9.462014-06中国股票风险因子模型白皮书第 52 页 共 73 页表 22组合 RMV 描述统计indexIGSMCUMFcount3030mean10.4%10.5%std1.1%1.0%min8.8%8.9%25%9.8%9.9%50%10.116、4%10.5%75%10.7%10.8%max13.9%13.2%首先我们对比了组合风险管理能力,结果如表 21 所示。我们设置风险目标为 10%,波动率越接近 10%则管理越有效。我们的模型在大市值指数组合中表现出优势,如沪深 300、中证 500、上证 50 等,在部分行业指数中,我们的模型也表现更好,比如光伏产业、中证军工、CS新能车等。值得一提的是,我们的模型在某些行业指数中占据明显优势,比如新材料等。表 22报告了表 21结果的汇总,从30个投资组合方差的均值来看,我们的模型对比传统因子能多控制 0.1%的波动率。我们模型的 RMV 方差和 CUFM 基本一致。从分布来看,我们的模型117、估计的 RMV 分布更为离散。同时,图 13 也能看看出我们的 RMV 接近 10%的组合略多,也更为左偏。中国股票风险因子模型白皮书第 53 页 共 73 页中国股票风险因子模型白皮书第 54 页 共 73 页图 13 组合 RMV 分布表 23组合 VaR指数简称指数简称IGSMCUFM上证 503.442.59沪深 3002.802.39细分化工2.923.42中证 10002.952.83中证 5002.612.97300 成长3.262.61300R 价值3.202.54中证红利2.362.55中证农业2.972.94全指能源2.652.78全指材料2.623.06全指工业2.642118、.45全指可选2.762.88全指消费3.712.68全指医药2.852.91全指金融3.232.31全指信息2.712.83全指电信2.593.06全指公用2.693.30中证军工2.873.33CS 新能车2.653.54中证白酒4.602.72CS 人工智2.702.81光伏产业2.672.97CS 创新药2.862.67消费电子2.632.74SHS 科技龙头2.232.42新华 500 指数1.842.13500R 成长2.762.99新材料2.983.08中国股票风险因子模型白皮书第 55 页 共 73 页表 24组合 VaR 描述统计indexIGSMCUFMcount3030m119、ean2.862.82std0.480.33min1.842.1325%2.652.6050%2.762.8275%2.972.98max4.603.54接下来我们对比了组合风险的 VaR,结果如表 23 所示。我们选取的 99%的 VaR,VaR 越接近 2.58 则越合理。VaR 的结果暗示哦我们和CUFM 的模型估计结果比较右偏,大部分的组合结果都右偏于 2.58。在大部分的行业指数里,我们的模型的 VaR 更合理,比如全能能源等。值得一提的是,我们的模型在某些行业指数中占据明显优势,比如 CS新能车等。表 24 报告了表 23 结果的汇总,从 30 个投资组合 VaR 的均值来看,我们120、的模型对比 CUFM 模型更为接近 2.58。我们模型的 VaR 方差更小。从分布来看,我们的模型估计的 VaR 分布更为集中。同时,图 14也能看看出 IGSM 模型估计的 VaR 和 CUMF 的分布差距不大。这都暗示着我们模型在风险估计上的优势。中国股票风险因子模型白皮书第 56 页 共 73 页图 14 组合 VaR 分布中国股票风险因子模型白皮书第 57 页 共 73 页表 25组合 VoV指数简称指数简称IGSMCUFM上证 502.44%1.94%沪深 3002.43%2.49%细分化工2.49%3.14%中证 10003.29%3.85%中证 5002.62%3.02%300 121、成长2.49%1.84%300R 价值2.65%2.22%中证红利1.83%2.27%中证农业2.12%2.48%全指能源2.41%2.44%全指材料2.28%2.99%全指工业2.82%2.28%全指可选2.55%2.98%全指消费2.70%2.73%全指医药2.48%2.90%全指金融2.72%1.93%全指信息2.49%3.06%全指电信1.94%2.62%全指公用3.16%3.18%中证军工2.28%3.25%CS 新能车1.97%2.82%中证白酒3.07%2.65%CS 人工智2.24%2.84%光伏产业2.90%2.89%CS 创新药2.15%2.03%消费电子3.12%2.77122、%SHS 科技龙头1.55%1.39%新华 500 指数1.27%1.41%500R 成长2.73%3.45%新材料2.10%3.05%中国股票风险因子模型白皮书第 58 页 共 73 页表 26组合 VoV 描述统计indexIGSMCUFMcount26842684mean2.46%2.71%std1.87%2.06%min0.00%0.00%25%0.97%0.98%50%2.10%2.20%75%3.61%4.15%max13.01%10.94%最后我们对比了组合风险的 VoV,结果如表 25 所示。从结果来我们估计的指数 VoV 较低,如沪深 300、中证 1000 等。表 26 报123、告了表 25结果的汇总,从 30 个投资组合 VoV 的均值来看,我们的模型对比 CUFM模型更小。我们模型的 VoV 波动率更小,这意味着我们均值相对较小这个结果,在指数之间相对稳健。从分布来看,我们的模型估计的 VoV分布更为集中。同时,图 15 也能看看出我们的 VoV 稍微左偏。中国股票风险因子模型白皮书第 59 页 共 73 页图 15 组合 VoV 分布中国股票风险因子模型白皮书第 60 页 共 73 页中国股票风险因子模型白皮书第 61 页 共 73 页5.3.因子组合风险因子组合风险本节我们选取了 16 个 CUFM 模型以及 14 我们模型的的风格因子投资组合,分别检验了 V124、aR、RMV、VoV 三个指标下我们模型和 CUFM模型异同。指数汇总的分布如图 16 至图 21 所示。其中图 16 至图 18为 CUFM 模型风格因子组合的对比;图 19 至图 21 为我们模型风格因子组合的对比。图 16 CUFM 因子组合 RMV中国股票风险因子模型白皮书第 62 页 共 73 页图 17 CUFM 因子组合 VaR图 18 CUFM 因子组合 VoV中国股票风险因子模型白皮书第 63 页 共 73 页图 19 我们模型因子组合 RMV图 20 我们模型因子组合 VaR中国股票风险因子模型白皮书第 64 页 共 73 页图 21 我们模型因子组合 VoV图 16 和图125、 19 分别展示了我们模型和 CUFM 的风格因子组合RMV 的分布,可以看出,我们的结果比较偏左,CUFM 模型比较偏右。从 VaR 来看,综合图 17 和图 20,我们模型 VaR 比较接近 2.58,这表明我们模型的因子组合的风险估计较为合理。图 18 和图 21 展示了我们模型和 CUFM 的风格因子组合的 VoV 分布。我们估结果 VoV 较小,这展现了我们模型更好的风险控制能力。基于我们对于模型风格因子风险相关指标的测试,我们发现,IGSM模型的风险预测、估计相比 CUMF 的结果更为合理。中国股票风险因子模型白皮书第 65 页 共 73 页参考文献参考文献Chen,Luyang,126、Markus Pelger,and Jason Zhu,Deep Learning in Asset Pricing,Management Science,2023E.F.Fama and K.R.French,“Common risk factors in returns on stocks andbonds”,Journal of Financial Economics,vol.33,no.1,pp.356,1993.Gu,Shihao,Bryan Kelly,and Dacheng Xiu,Autoencoder Asset Pricing Models,Journal of Econo127、metrics,222.1(2021),42950Harahap,Qahfi Romula Siregar Defi Desvita,Influence Current Ratio,Debt toEquity Ratio and Total Asset Turnover on Return on Equity in the TransportationSector Industry,International Journal of Business Economics(IJBE),2.2(2021)Hou,Kewei,Haitao Mo,Chen Xue,and Lu Zhang,An Aug128、mented q-FactorModel with Expected Growth*,Review of Finance,25.1(2021),141Jegadeesh,Narasimhan,Joonki Noh,Kuntara Pukthuanthong,Richard Roll,andJunbo Wang,Empirical Tests of Asset Pricing Models with Individual Assets:Resolving the Errors-in-Variables Bias in Risk Premium Estimation,Journal ofFinan129、cial Economics,133.2(2019),27398Kelly,Bryan,Seth Pruitt,and Yinan Su,Instrumented Principal ComponentAnalysis,Working Paper,2020Kelly,Bryan T.,Tobias J.Moskowitz,and Seth Pruitt,Understanding Momentumand Reversal,Journal of Financial Economics,140.3(2021),72643Koijen,Ralph SJ and Yogo,Motohiro,Excha130、nge Rates and Asset Prices in aGlobal Demand System,Working Paper,2020Lalwani,Vaibhav,and Madhumita Chakraborty,Multi-Factor Asset PricingModels in Emerging and Developed Markets,Managerial Finance,46.3(2019),36080Menchero,J.and J.-H.Lee,“Efficiently combining multiple sources of alpha”,Journal of I131、nvestment Management,vol.13,no.4,pp.7186,2015.MSCI,BAARA China A Total Marker Equity Model for Long-Term Investors,2018.Penman,Stephen H.,and Julie Zhu,An Accounting-Based Asset Pricing Model中国股票风险因子模型白皮书第 66 页 共 73 页and a Fundamental Factor,SSRN Electronic Journal,2019POJANAVATEE,Sasipa,Tests of a 132、Four-Factor Asset Pricing Model:The StockExchange of Thailand,The Journal of Asian Finance,Economics and Business,7.9(2020),11723Stephen A Ross,“The arbitrage theory of capital asset pricing”,Journal ofEconomic Tyheory,vol.13,no.3,pp.341-360,1976.Sheng,Jinfei,Asset Pricing in the Information Age:Emp133、loyee Expectations andStock Returns,Working Paper,2022Wasan,Pratibha,and Kalyani Mulchandani,Corporate Governance Factors asPredictors of Earnings Management,Journal of General Management,45.2(2020),7192邓璎函,BAARA 中国市场模型(CNE6)解读,西南证券,2019 年 2 月。石川,因子投资:方法与实践,电子工业出版社,2020 年 9 月。宋旸,BAARA 风险模型(CNE6)之纯因子134、构建与因子合成 多因子模型研究系列之九,渤海证券研究所,2019 年 6 月。中国股票风险因子模型白皮书第 67 页 共 73 页附录附录 1 1若向量,服从联合正态分布,则(|)=+1()=1证明:n 维正态分布的密度函数为 =1(2)/2|1/2exp 12 1 其指数部分为12 1 =121+1+令 =其协方差矩阵为=,精度矩阵=1=因为1为对称矩阵,也为对称矩阵,则,为对称矩阵,=给定,|服从正态分布,(|)的指数部分为12 1 =12 12 12 12 =12+由的变量系数对应可得|=1|=|=1 由求逆公式1=1 11+11,=(1)11=中国股票风险因子模型白皮书第 68 页 共135、 73 页将代入得=(1)1=(1)11将代入得=|=+1 将代入得,=|=1附录附录 2 21.高斯分布的矩阵表示法对于因子模型=+先验分布:0,0,0,+与符合多元高斯分布:0?0?,+根据附录 1,后验分布:|=+(+)1 =(+)1|=(+)1|,|=+()1 =|=+()1=中国股票风险因子模型白皮书第 69 页 共 73 页|,|2.EM 算法实现过程首先,初始化参数和。对于一组样本,=1,2,,E-step:计算|;,|;,=1(2)/2|1/2 12|(|)13M-step:最大化,=log=1;,?=1log ;,?令 为因子序列的后验概率密度函数,=|;,;,?=|;,;,136、|;,?=|;,;,;,|;,?=|;,log ;,?=log ;,|;,?=log ;,因此,=|;,=1log ;,?=1(,;,)?我们的目标转化为13|;,为 k 维数组,k 为因子个数。中国股票风险因子模型白皮书第 70 页 共 73 页argmax,=1(,;,)?=argmax,=1(|;,)(;,)?=argmax,=1(|;)(;)?由 E-step,我 们 可 以 获 得,再 将|,,0,的概率密度函数代入方程,分别对参数求偏导,使一阶导数等于 0,可解得和。循环 E-step 和 M-step,直至参数收敛。附录附录 3 3本附录探讨 EM 算法下共线性的处理与方差的分配137、问题。因子暴露矩阵?是 (+1)阶矩阵,假设?的列秩为K,不失一般性地,假设?从左往右前K列互相独立,因此我们有?=(1)其中,是?的前K列,是一个K维列向量。保持资产的方差协方差矩阵不变,即=?(2)我们知道()=+()(3)其中r是资产收益,可写为=+(4)上式中f为因子收益,是一个K维列向量,是残差项。如果我们可以保持加入共线性的国家因子之后残差不变,那么(3)式中的()就不中国股票风险因子模型白皮书第 71 页 共 73 页会改变的,则显然资产的方差协方差矩阵也是不变的,(2)式也就自然成立。因此,我们可以将(2)式的条件进一步明确为?=(5)现在详细讨论与f,在我们的模型中,不包含共138、线性的因子可分为行业(industry)与风格(style)两类,对应的,我们将与f写为=(,)(6)=(,)(7)这里我们假设行业因子有k个,则 与 均为 维的矩阵,而 与均为 ()维的矩阵。在加入共线性的国家因子以后?=(,1)(8)这里?最右列的 1 代表一个分量全为 1 的K维列向量。容易验证,满足下式的因子收益?可以使得(5)式成立?=(,)(8)上面(8)式中的z理论上可以是任意K维列向量,这里我们取全部行业因子收益的等权平均,即=?(9)可以验证在数学上,采用(9)式中z的?等于f右乘一个 (+1)维的矩阵,设为M?=(10)矩阵M由下面一系列等式给出=1(11)式中下标均表示矩阵的维数,可写为=0()0()()()(12)中国股票风险因子模型白皮书第 72 页 共 73 页的值是=1111 1111 111 1(13)(11)式中的1可写为1=(14)其中是一个分量全部为1/k的k维列向量,是一个(K-k)维的零向量。在获得因子收益的变换方式以及M的取值以后,由于是因子收益的方差协方差矩阵,可以直接得到?=(15)发布机构发布机构指数中心指数中心金融科技实验室金融科技实验室财富引擎财富引擎(北京北京)科技有限公司科技有限公司