数据挖掘因子的泛化性？来自一万个因子的启示

会议主要讨论的核心内容 1. 数据挖掘因子的预测性能与传统因子的表现相当 [1][2][3][4][5] - 数据挖掘因子在样本外的收益率削减幅度与传统因子相似 [1][2] - 即使是有理论支持的传统因子,其样本外表现也不如数据挖掘因子 [3] - 数学二阶算法挖掘的因子在样本内外表现较好 [3] - 基于无意义信息(如股票代码)的因子挖掘无法找到有预测能力的因子 [4][8] 2. 数据挖掘因子的选择方法很关键 [12][13][14][15] - 因子生成算法和因子选择方法都需要设计 [12][13] - 选择前1%或5%的因子可以获得较好的样本外表现 [16] - 相关性较低的因子组合表现更佳 [20] 3. 数据挖掘因子在不同市场和行业的表现存在差异 [19][20][21][22][23] - 在A股市场,数据挖掘因子整体表现较好,但在300和500指数中表现较差 [19][20][21] - 在港股市场,数据挖掘因子表现优异,可获得较高的收益率和信息比率 [32] - 不同行业和市值区间对因子表现有影响,需要针对性地设计搜索空间 [19][20][21][33] 问答环节重要的提问和回答 1. 提问:数据挖掘因子的预测性能为什么会与传统因子相当? 回答:可能是因为数据挖掘方法能够发现一些隐藏的规律,即使没有理论支持也能获得较好的预测能力。同时,即使有理论支持的传统因子,在样本外也会出现收益率下降的情况。[1][2][3] 2. 提问:如何设计一个有效的数据挖掘因子选择方案? 回答:需要同时考虑因子生成算法和因子选择方法。生成大量因子后,可以选择前1%或5%表现最好的因子,并注意因子之间的相关性。相关性较低的因子组合表现更佳。[12][13][14][15][16][20] 3. 提问:为什么数据挖掘因子在不同市场和行业的表现会有差异? 回答:不同市场和行业的风险因子可能存在差异,数据挖掘因子可能更适用于某些市场或行业。例如在A股市场,数据挖掘因子整体表现较好,但在300和500指数中表现较差。而在港股市场,数据挖掘因子表现优异。需要针对性地设计搜索空间。[19][20][21][32][33]