Google流感趋势(Google Flu Trends,GFT)是Google于2008年推出的一款预测流感的产品。Google认为,某些搜索字词有助于了解流感疫情。Google流感趋势会根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测。
Google流感趋势(Google Flu Trends,GFT)是Google于2008年推出的一款预测流感的产品。Google认为,某些搜索字词有助于了解流感疫情。Google流感趋势会根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测。
既能及早预警流感传播的“谷歌流感趋势”系统。
谷歌设计人员认为,人们输入的搜索关键词代表了他们的即时需要,反映出用户情况。为便于建立关联,设计人员编入“一揽子”流感关键词,包括温度计、流感症状、肌肉疼痛、胸闷等。只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。为验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制和预防中心的报告做比对,证实两者结论存在很大相关性。
大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而,由于大数据的搜集做不到像“小数据”那样精确,因此分析解读大数据是一件十分复杂的事。一项发表在《科学》杂志政策论坛上的新研究利用“谷歌流感趋势”(Google Flu Trends,GFT)作为范例,解释了大数据分析为何会背离事实,并提出了大数据时代背景下一些值得思考的事。
谷歌发现某些搜索关键词可以很好地标示流感疫情的现状。GFT的工作原理就是使用经过汇总的谷歌搜索数据来估测流感疫情,其预测结果将与美国疾病预防控制中心(Centers for Disease Control and Prevention,CDC)的监测报告相比对。但是2013年2月,《自然》杂志发文指出,GFT预测的流感样病例门诊数超过了CDC根据全美各实验室监测报告得出的预测结果的两倍(但GFT的构建本来就是用来预测CDC的报告结果的)。
研究第一作者大卫·拉泽(David Lazer)认为造成这种结果的两个重要原因分别是“大数据傲慢”(Big Data Hubris)和算法变化。
“大数据傲慢”指的是这样一种观点:即认为大数据可以完全取代传统的数据收集方法,而非作为后者的补充。这种观点的最大问题在于,绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的不同。
编写一个将5000万搜索关键词与1152个数据点相匹配的算法是非常困难的,很有可能会出现过度拟合(将噪声误认为信号)的情况:很多关键词只是看似与流感相关,但实际上却并无关联。事实上,在2013年的报道之前,GFT就多次在很长一段时间内过高地估计了流感的流行情况。 2010年的一项研究发现,使用CDC的滞后预测报告(通常滞后两周)来预测当前的流感疫情,其准确性甚至都高于GFT的预测结果。
谷歌搜索引擎的算法并非一成不变的,谷歌对算法会进行不断地调整和改进。而搜索引擎算法的改变和用户的搜索行为会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响GFT的预测。
另外,相关搜索(People also search for)的算法也会对GFT造成影响。例如搜索“发烧”,相关搜索中会给出关键词“流感”,而搜索“咳嗽”则会给出“普通感冒”。
除此以外,搜索建议(recommended search)也会进一步增加某些热门词汇的搜索频率。
因为GFT会在它的模型中使用相对流行的关键词,所以搜索引擎算法对GFT的预测结果会产生不利影响。奇怪的是,GFT在构建时是基于这样一种假设:特定关键词的相对搜索量和特定事件之间存在相关性,问题是用户的搜索行为并不仅仅受外部事件影响,它还受服务提供商影响。