李勇表示,数据可以分为结构数据和非结构数据。量化投资在结构数据的应用主要是高频交易,在非结构数据上应用主要是情绪挖掘分析。大数据时代之后,一个很重要的口号是一切可以量化。情绪指标量化,并不是一个很困难的事情。
李勇认为,以往在调查市场心理和情绪变化时必须做实验调查,这种调查既不可靠,成本又比较高,但是有大数据之后,可以将网页中背后ID的情绪给挖掘出来,指导交易。大数据挖掘的原理是根据人类的行为都有惯性和习惯,通过对于习惯的挖掘仅仅是代表一种高概率的推测,但并不是一定100%完全和结果相符,他的优势是可以提高投资决策的胜算。
李勇强调,一个充分竞争的市场是没有收益可言的。以后看如果谁能首先开发出能够预测市场走向的情绪指标,谁就能占得先机,谁就一定会产生收益
以下为访谈实录:
和讯网:和讯网友大家好!欢迎收看中国宽客系列访谈,今天我们请到的嘉宾是:中国人民大学金融系主任李勇,李老师您好!
李勇:主持人您好,和讯的网友大家好!非常高兴来参加这次的宽客访谈节目。
和讯网:今天我们和李老师聊的话题是大数据和量化投资。李老师,我们知道大数据应该是这两年来,在科技行业最火的词汇之一。首先请李老师给我们普及一下,什么叫大数据,它是如何和量化投资扯上关系的呢?
李勇:对,这几年以来,大数据的概念是特别火的一个概念。从各行各业来讲的话,包括从政府,包括业界,包括学校,大家对这个概念非常关注。现在看起来主要对大数据而言有一个比较标准的定义,主要是四V的概念。哪几V呢?第一个叫Volume说明大数据的量特别庞大。第二个叫Velocity主要说数据的量流动速度特别快。第三个主要是Variety,说明数据特别复杂,多样性。最后一个叫Value,就是这个数据一定要产生价值 。这个是目前来说,对大数据概念一个非常标准的定义。当然,也有其他方面的定义,但是这个定义是大家比较关注的也是大家认可的。这几年随着大数据在各行各业应用的广泛性,所以现在大家越来越关注大数据的概念。后面我会讲大数据在各行各业,特别是金融行业产生的很大的影响,到底体现在什么方面?
和讯网:人们常说,在互联网之后,其实全球已经进入了信息爆炸的时代。为什么大数据这两年才火起来呢?有没有一些条件,可能它已经具备了。
李勇:我觉得原因呢,你说的是一方面的原因。确确实实随着信息技术的进步,我们收集数据,包括我们存储数据,我们分析数据的能力,都逐渐在提高。我觉得,在十年前的时候,我还是个硕士生的时候,你想当时我们那个U盘,如果有一个64兆的,32兆的,那是大家非常自豪的事情。当时我们开玩笑地讲,如果你有一个32兆的硬盘,你如果是个男孩子,找对象都不成问题的,因为那个时候确实比较时髦。但是现在看的话,你买的U盘的话,不是多少兆的问题,是多少G的问题了,8G,32G都出来了,而且价格很便宜。所以,这个是一方面的原因。另一方面的原因,确确实实大数据随着技术的变革,导致社会整个经济的发展,带来了很大的影响。这一点我可以举个很简单的例子。
比如在中国,我们都知道,阿里巴巴有个公司叫阿里巴巴小贷。它对金融行业的影响很大,这个道理很简单。以前,像我们一些小银行,我们银行贷款有一个很大的问题,就是我们不愿意做小额贷款,为什么呢?因为道理很简单,因为你要去评价一个企业违约的风险是很高的,你必须有一个信贷员,要到处去调查,去找,成本很高。所以我们一般喜欢做VIP客户的业务,比如大型央企。在中国,我们经常说的话,一般情况下,银行的客户基本上希望服务的对象是高富帅,要么是白富美。但是现在看起来,技术进步之后就不是这个样子了。比如阿里巴巴,包括淘宝,他们有淘宝交易的数据,对你违约的情况是一目了然的。这个时候如果他能办一家银行,他不需要像传统的方式那样,需要信贷员去审核了,而且通过技术的进步,他评价客户违约的成本非常低。
但是在中国这个国家里,大家知道13亿人,高富帅,白富美的人毕竟占有非常少的一部分,大部分可能并不是特别有钱。这个数据量,如果能用上的话,你开个比较小的银行,专门针对这些小客户做这样的贷款的话,从短期的贷款,比如三个月的,按日计息,甚至比银行的定期存款还高,但是他的客户量特别大。所以,他的收益大家也可以看到,也可以想象,这个收益是不得了的一个收益。我的意思是讲,从这个层面讲,确确实实是大数据给行业带来的变革是巨大的。这也是为什么大数据这几年特别火的原因。因为大家确确实实,真真实实感受到如果你用大数据的话,确实对行业产生的影响是巨大的。
和讯网:我们再回到量化投资本身。我们知道全球每天的交易数据,包括像中国就有很多的金融品种,他们的交易数据都是非常庞大的,我们想知道,哪些数据对我们的量化投资是有用的,哪些是有价值的,如何进行挖掘呢?
李勇:对于这一点讲的话,从大数据而言的话,从数据的角度说,主要是两种数据。一种叫结构性的数据。一种叫非结构性的数据。结构性的数据很好理解,比如你在市场上买个白菜,这个白菜定价是两块钱,或者三块钱,这个2,或者3是一个结构性的数据。比如你买一支股票,这个股票是10块钱一股,或者20块钱一股,这个是结构性数据。
所以,从这个角度说的话,这几年随着收集数据能力的进步,比如我们经常讲的高频数据。以前我们能看到的是一天的数据,比如一天的B价是多少,第二天的B价是多少,或者开盘价等等,几个数据我们看到。现在你知道,我们现在看的数据,每间隔五秒都有了,这个数据一天下来是很庞大的。随着技术的进步,可能我们比五秒以下单位的数据更容易涉及到。以后对这种数据的利用,现在大家至少在业界都知道,对高频数据的利用和开发,大家已经认识到威力是很巨大的,也可以带来很大的投资收益。比如现在我们做高频收益的套利,做高频数据的配对交易等等。你想都可以得到非常好的收益。这是结构性的数据,一般的网友都容易理解。
另外,我讲的非结构性数据,非结构性数据,主要是随着社交技术,比如像微博,微信等等这种技术的进步。实际上我们所发的一个表情,一个笑脸,或者是一个哭丧着脸种种表情,包括我们所发的字符,今天高兴还是不高兴,等等等等。这些都是可以把它当做字符型的数据来看待。这种我们一直称之为非结构性的数据。从现在看,非结构性的数据,因为网民比较多,这些数据的价值也是巨大的,后面我可以谈谈非结构性数据到底给我们量化投资带来怎样的冲击?所以,我觉得可以分两方面。一方面是从结构性的数据讲,高频交易。从大数据的角度说的话,数据量越来越庞大了。所以,这个时候,大家也容易理解。第二个,主要从非结构性数据来说,给量化投资也带来了实实在在的改变。后面我们可以讲几个例子,看看大数据是如何改变量化投资的方式方法的。
和讯网:我们知道您刚才讲的非结构化数据,我们其实按照传统的投资理念,其实市场的情绪无非是恐惧和兴奋,和贪婪。这些情绪可以通过数据量化分析出来吗?
李勇:对,这个问题问得特别好。巴菲特也有一个很有名的话,在别人贪婪的时候恐惧,在别人恐惧的时候贪婪。但是这个呢,我以前是搞量化出身的,所以我对心理学的研究并不多。这几年我对心理学的量化研究特别感兴趣。因为从投资心理学角度来说,这些东西都很重要的。因为大家发现,这些东西如果能量化的话,就会带来很大的收益和价值。所以说,我们以前总是认为,比如刚才我讲的,在别人贪婪的时候你恐惧,但是问题是,如果没有一个量化的指标的话,你想什么叫别人贪婪的时候,什么时候别人贪婪?贪婪到什么程度为止我就要恐惧了?这个都是一个很重要的东西。巴菲特虽然说了这个很笼统的话,现在我觉得,有一些指标是可以用的,通过数据的方式,来设计。现在也有很多人在开发这个指标,这个也不是什么高深的技术了。所以,我觉得大数据时代之后,一个很重要的口号是一切可以量化。所以从情绪指标量化,我觉得并不是一个很困难的事情。
和讯网:我们知道在传统的技术手法,其实有一个非常著名情绪指标叫做心理线PSY指标。这个指标的话,跟您刚才讲到的情绪的量化指标,有没有可比性呢?比如它的价值有多大呢?
李勇:这个我觉得PSY这个指标呢,我觉得其实他的指标的算法很简单,就是给定的天数之内,看上涨的天数是多少?比如说,我们一般是用12天,我们统计12天,连续12天中有多少天上涨,我们除以12天,乘以100,这个时候得到一个指标,就是PSY指标。这个就是看上涨的情况怎么样,衡量投资者的情绪怎么样?这个指标呢,我觉得像我刚才说的,别人恐惧的时候贪婪,别人贪婪的时候,你恐惧这个是到什么程度为止。
我们一般有一个上下线,我们一般从这个指标上也容易理解,你可以看给定天数的上涨次数。这个时候我们就看,他有一个峰值,比如达到25%到75%之间,这时候是属于市场情绪比较正常的。如果是达到75了,因为25和75也是人为指定的,每个人的判断方式不一样。达到75了,我们认为可能市场涨的程度,就是我们讲的贪婪的时候,可能要恐惧了。75可能就是一个信号,就是我可以把股票,上涨过多次数之后可以短期卖出的信号。同样的道理,达到25之后,表示下跌,下跌的次数越来越多,这个时候我可以想想,你想了,是不是买进的机会了,在别人恐惧的时候你要贪婪。这个量化至少给你一个临界点,就是判断,什么时候恐惧,什么时候贪婪,这个指标还是一个很有用的指标,我相信很多人也在用。
和讯网:另外据我知道,在传统的分析方法上,存在这样一个概念,叫做市场的非理性。市场上涨过程中会疯狂的上涨,但是下跌的过程中会疯狂的下跌。其实大家可能觉得,应该恐惧的时候,他越发贪婪,应该贪婪的时候,他却越发恐惧。我们如何就这个方面进行量化呢?因为我们知道,其实在趋势反转那个过程中,市场的情绪是非常微妙的。由升势转为跌势,或者由跌势转为升势,在趋势转弯过程中,其实是非常微妙的。我们大数据的挖掘,在这块,有没有它的特长和优势所在呢?
李勇:这个问题呢,我觉得可以从这个角度考虑。你想,因为大家都知道,从心理上讲,当你有支股票涨的时候,你买的时候肯定开始的时候是很开心的。但是随着股票直线上涨之后,达到某一个点之后,你会发现,你开始有点紧张了,因为大家都知道,不知道有一支股票永远上涨。比如这支股票从10块涨到100块的时候。那么我想,这个时候逆反心理可能就会出现了。所以这个时候,我大数据的优势在什么地方呢?因为你自己的感觉可能只是一方面的原因,不一定可靠。但是如果有一种技术,因为现在的社交媒体这么发达,在各种个股票的股吧里讨论的也不是一支股票。但是讨论股票的也不是一个人,可能是很多人。以前的方式,按照以前的心理学概念,你必须做一个实验调查。什么意思,就发放问卷调查,以前技术不是很进步的情况下。
这种方式,第一个成本很高,第二个,也不是很可靠。现在不是这个概念了,你只要通过数据的技术,你把大家发的帖,相关的情绪挖掘出来。包括我们通过PSY这个指标,我们进行量化,量化之后最重要的是可以找出大致的临界值。达到一定的点,很高的时候,这个时候我就可能短期卖出了。低到某个点的时候,我可以短期买进了。从这个角度来说,大数据的进步,确确实实可以带来投资上的一些改变。以前没法实现的事情,现在通过大数据,我们可以实现了。这是一个很好的信号。
和讯网:另外,我听到这样一个案例,比如说一些投资者根据伯南克,就是美联储主席的一些讲话,分析出什么时候可以有优惠推出,是否会推出,然后作出投资决策的判断。我想知道,这种案例是否真实存在呢?
李勇:因为这种事情呢,在各个行业大量存在,因为这个也很容易理解。因为任何事情,都有其规律性。比如我举个很简单的例子,当然这个例子不一定和金融相关。比如说以前我们在SARS的时候,大家都知道,因为医院是一个是后的判断,大致收了多少病人之后,有多少病人出现这个症状之后,你才能知道这个地区,有多少SARS病人,大概多少情况,但是这个时候已经来不及了。但是你想,一般情况下,我们从预测角度说的话,一般情况下,你去医院,实际上是事后,为什么这么说呢?你肯定是首先感到身体不舒服,某个地方的症状,在网络比较发达的情况下你可以查,发现自己的症状可能会与这个症状相关的时候,你才能去医院。这个时候,google当时做了一个很好的预测,非常准。很简单,他准确预测出了,哪个地区可能大规模地有SARS爆发的可能性。因为道理很简单,因为从这个地区,很多人用google,百度去查。所以搜索的记录他是有的。
一旦某个地区有很多人去搜索同一种病的症状的时候,也预示着这个地方可能爆发SARS疾病的可能性很高了。你刚刚说了伯南克的事情,我们讲量化宽松的退出,一直在讨论这个问题。但是你想,任何一个东西的决策,都依赖于很多其他的东西。比如经济增长的指标,经济增长的指标也可以分很多细的指标,比如CPI,比如GDP的增长,比如房地产市场的情况等等。这些东西,我们是之前知道数据的。这些数据的好坏,直接决定着QE是不是要退出。
你想,如果我对历史数据本身也是很清楚,对经济增长的一些情况和一些指标历史数据都知道,如果伯南克在他演讲中,我就挖掘,他重点提到哪几个指标。这个也许就是他做决策的一个很重要的依据,我把他的决策,这这些指标数据找到,然后根据他的讲话,作出一个判断,我觉得预测成功的可能性还是很高的。这个时候大数据的优势就会体现出来了。所以,并不是说不可能的,因为大数据很重要的是预测。从这点上讲,我觉得这种情况发生也是很正常的。就跟我刚才讲的SARS的情况很类似。大数据改变人的生活方式也好,还是行业变革也好。因为万物之间都是有规律可循的。
和讯网:其实,我想到前几年,我看到一个案例,就是讲到,每个人写文章的时候,其实有自己的语言风格。然后通过一些数据来挖掘,就这篇文章是否是由这个作者真实写的。比如像《红楼梦》,有一些数据分析人员认为,后几章。
李勇:36回是不是曹雪芹写的。
和讯网:对,当时我觉得这个挺有意思的。其实我觉得,这样的话,其实后来没有得到更广泛的应用。我们在后来发现,比如文学打假过程中,当然也有一些网友拿这些数据来质疑。但是我从觉得,可能这些手段并没有得到大部分网友的支持,仅仅是一种论证的手段,其实就是具有孤证的感觉一样。我想知道大数据在数据挖掘过程中,有没有局限性呢?
李勇:你说的很对,刚才你谈到《红楼梦》的问题,包括后来的韩寒的问题。因为《红楼梦》的问题,很多人都在研究,包括我的导师,退休之后也在研究这个问题。因为这个东西呢,我个人觉得,你首先一定有一个前提,就是人之间是一定有规律性的,人的风格要保持不变的。因为人一辈子涉及到自己的家庭成长,教育,各方面经历,你会发现,任何一个人都讨不脱规律可循。就是你写作的风格,你说话的风格,比如我们最典型的口音,都会有一定的规律可循。我觉得这样做,也是有一定的科学道理的。因为现在红学的研究也是一个比较热门的方向,很多人都在研究。你说的局限性嘛,你说的很对。
我想任何一种工具都有局限性。我觉得从量化角度说的话,包括从概率角度说,我们回到一个概率的概念。我们讲只要未来的事情不发生,你永远不知道事实。你现在所做的一切的努力,都是对未来的一个预测。既然是预测的话,不可能是一定准确,或者一定不准确,我们一般不是从这个角度考虑,而是我们说从概率的角度,从不确定性的角度去考虑。因为在未来有很多的不确定性,我们所做的一切努力,包括大数据也好,尽可能是提高预测的准确性。
比如说本来我只有三成的把握,但是通过大数据,我可能提高到九成了,我认为这是一个进步。大家可以想像,我们可以问问自己。我们从小学读书,我们努力奋斗也好,为什么要努力,没有人告诉我们努力一定成功,没有人告诉我现在所有的付出,我将来一定带来回报。那我们为什么还要去努力?因为这个所带来一个重要的心理上的概念,大家都知道,努力是提高了成功的概率。就像我们为什么要考人大的研究生,考北大研究生。
我们经常说,考人大有七成把握,考北大有九成。有的时候觉得很奇怪,这个概率怎么来的?为什么有九成,为什么有七成呢,还是对历史的判断。看人大历年的招生情况和北大的录取情况,你可以有一个判断,这实际上就是一个数据分析,实际上你不自觉地做了一个数据分析。但是可能你体会不到是数据分析起了作用。比如你决定考人大之前,考北大之前,你肯定查今年高考分数线。根据我当年高考的时候,模拟考试的分数,我大致知道我的成绩,可能会考上北大的,或者是清华的可能性大致是多少。
所以,任何一个事物,只要我们肯努力,数据量的增多,信息量的增多,技术进步之后,我们可以提高成功的概率,这一点,从哲学的思维上讲,也可以解释,我们为什么要去努力?去开发新技术,去开发各种各样的方法去分析数据这个道理。你可以这么说,既有它的局限性,也要发挥主观能动性,就体现在这个地方。
和讯网:刚才听你这么说,其实我觉得大数据可能量化投资,很多的精髓是一脉相承的。比如他们都是为了提升成功率,但是不能保证结果百分之百准确。
李勇:你说的这点非常对。
和讯网:你觉得未来我们大数据和量化投资,应该怎样结合呢?就目前的话,未来的发展方向是哪些呢?
李勇:因为我个人觉得,大数据的发展一定会改变量化投资的方式方法。我举个例子。刚才我讲了,从数据的角度说,实际上理解大数据和量化投资很简单,一个是结构性的数据,第二个是非结构性的数据。结构性的数据很容易理解,就是我们通常讲的高频数据。高频数据不可否认地,是业界现在广泛使用的,大家都在研究各种各样的方法,包括学术界怎么去处理,怎么去分析高频数据得到更有用的信息。
但是现在大家都知道,这只是一方面,我们讲很多的,随着微博技术的发展,微信技术的发展,像这种非结构性的数据也是可以用来投资的。我刚才说了,任何事物都有规律可循。这种规律的话,如果谁掌握了以前的规律,从这些数据从挖掘出来,你才能看到这个规律带来的影响,我想一定是巨大的。怎么去开发这个技术,可能是一个比较重要的,大家要依靠的一个问题。
和讯网:我再衍生一个问题。目前非结构化的数据,这种数据挖掘成功概率有多大呢?
李勇:因为这个东西呢,因为大家都知道。大数据这几年火起来也比较晚,就是近两年的事情。所以,现在我所知道的是,实际上是很多公司也在做,但是真正地,现在来说第一家以微博,国外叫twitter,就是一个社交网站。现在一个叫**(23:40)的一个公司,是专门用来开发微博的数据。把投资者,或者论坛中对人的情绪。你刚才也提到了情绪指标。比如说涨还是跌,或者关键的字符抓取出来,开发出一种技术性的指标,对股市进行预测。
目前它是从2013年5月份正式推出。以后呢,我相信非结构性数据的开发和利用,一定是量化投资,特别是对冲基金很重要的内容。因为这些东西都可以进行量化,量化之后所带来的收益。因为我们学过经济学或金融学的知道。一个充分经营的市场是没有收益可言的。以前我们讲技术分析,七八十年代,特别是九十年代的时候,我们股市刚兴起来的时候,那个时候用技术分析,我相信收益是不错的。但是随着越来越多的人,会用技术分析的指标。现在我想做任何一个服务的公司,你用的软件,或者证券公司,都会提供一个技术分析的指标给你。这个时候,随着越来越多的人去用技术分析指标的时候,你会发现技术分析的收益慢慢消失了。金融市场吸收信息的能力是非常强的。
所以,以后看如果谁能首先开发出能够预测市场走向的情绪指标,我相信谁就能占得先机,谁就一定会产生收益,包括我自己在内。我也在想,怎么把这些情绪进行量化,开发出自己的新的指标出来。谁是第一个,谁就占有先机,你说的很对。随着时间的推移,会的人越来越多,可能就没用了,所以你要不断开发另外的新的指标。
和讯网:其实这就是我们量化投资孜孜以求的,然后不断前行的动力,大家都在找最好的工具。
李勇:对。所以任何的技术呢,我们讲没有最好的技术,只有更好的技术。no best, only better,我们这个世界还要继续走下去,我们量化投资还要继续往前进。
和讯网:非常感谢李老师接受我们中国宽客访谈的专访。谢谢您作客和讯。
李勇:谢谢主持人,谢谢各位网友!