量化投资常常被认为是一个黑屋子,门口挤满了成千上万的叫“数据”的先生们,他们一直沉默不语等着去见屋子里叫“宽客”的先生,经过“宽客”先生的几番折腾过后,很多数据先生开口讲话了,更奇怪的是他们讲的话还应验了,宽客究竟对数据做了什么?其实,宽客对数据做了大量的挖掘工作,数据挖掘就是通过对大量数据的分析发现隐含在其中的规律的过程。在知识发现的过程中,无论是通过数据验证逻辑演绎,还是从数据结果中进行归纳整理,数据挖掘起到了重要的作用。
在股票市场中始终充斥着巨量的信息,从宏观经济数据的发布,到行业产品价格的变化,再到上市公司公告。这些信息中哪些对股价产生了长期影响,哪些产生了短期影响,而哪些只是干扰视听的噪音,没有精确的公式给出答案,但并不妨碍宽客从中发现和利用股价对于信息的反映规律。
分析表征宏观和行业发展态势的数据与股价之间的关系着实令人头疼,宏观和行业数据有不同的统计口径,也不知道有没有季节性周期规律,这些都对数据分析带来很大的难度。然而通过数据挖掘技术还是能够很快发现其中一些有趣的现象。通过一系列数据处理,诸如统一口径、定基调整、降噪滤波、平稳化处理等,发现机械行业的超额收益与房地产景气指数、压实机械产量之间存在着较高的相关性。进一步的逻辑分析可以确认这一关系的合理性:工程机械在机械行业中占有较大比重,是房地产产业链的重要组成部分,其行业景气度与房地产行业的景气度密切相关;而产量数据更能反映企业家对市场冷暖的判断,正如原材料库存能更快地反映宏观经济需求的强弱。
投资者选择性地接受信息通过投资行为反映到股价变化上,股价的变化又如索罗斯所说的反射回来导致投资者再一次选择性地接受新信息,对股价产生新的变化,从数据挖掘的角度也能窥见一斑。在股票投资中,低预期估值策略在过去的7年中取得了较为稳定的超额收益,预期提高带来了股价的低估,从而带来股价的重估,上涨的股价预示着好的经济环境又提升了预期。在行业投资中,股价对估值的反映更大程度体现在剥离行业估值固有差异影响后行业的相对估值上。
这里发现的规律并不是指亘古不变的定律,随着经济增长方式的变革以及产业结构的调整,行业的规律可能被打破;随着投资者结构或群体行为特征的变化,预期也可能变得更为谨慎。因此,仅从这几个数据得出投资结论显得过于粗糙,但在相对较长的时间内,这种具有较强的逻辑关系和一定延续性,并在大概率下可以重现的规律是有利用价值的,可以结合其他的因素一起构建量化模型,还要不断对新数据进行挖掘发现这些规律是否已经过时了,新的规律是否已初见端倪。
黑屋子门前的“数据”先生越来越多,“宽客”先生有的忙了。