在以前的旅途中,我学习到一句话:“人生何处不相逢。”记得以前我在加州圣塔莫尼卡约翰.韦恩癌症研究所任实验室经理(“实验室经理”听起来比“实验室技术员”好听多了)时,我遇到过一位年轻的科学家Andrew Conrad,他开办了一家公司,名为国立遗传学研究所(当时是1992年或1993),他们的目标是开发出快速且便宜的基于PCR的诊断方法。


生命科学并非google的核心竞争力


他们有两点让我记忆犹新:一是他们的办公地点位于我曾经长大的地方——洛杉矶西部,另一是他们使用的技术是重用其他设备组件来构建一个快速的热循环系统。当时他们自制了一个系统,利用其他医疗设备(例如透析机等)和水管设施的泵,使大量热水进入循环系统,然后加入处理液体的机器人(记得当时是90年代初,第一个基于96孔板的系统才刚刚出现)

转眼20年过去,到了20133月,Andrew Conrad的名字又出现在Google X

生命科学项目首席科学家的名单里,并且在随后几个月,他的名字频频曝光:接受华尔街日报采访(配有他的照片,其背景是一台流式细胞仪),接受连线杂志采访(文章标题是“我们有望构建Tricorder(手持科学分析仪,在星际迷航电影中,通过这种仪器扫描并收集某一区域的地理、物理及生物信息,编辑注)”,以及最近接受大西洋月刊视频报道,描述他们模拟人体皮肤的工作进展。

然而,有两大问题需要重视:谷歌独特的竞争力是什么? Google X将做何种类型的研究?

谷歌独特的竞争力

去年10月,美国圣地亚哥举办了美国人类遗传学会年会,在此期间,我们赛默飞团队发布了15篇会议相关的稿件。有一场特邀报告是来自谷歌的David

Glaser做的,我之前没有在博客上提到过。该报告名为“跨界混合的经验:大型测序遇见大数据”。David讲了很多有趣的东西,在这里我与大家简要分享一下。

他说,现在基因组学已变成一场涉及数百万人的活动。事实的确如此,目前已经进行的项目有纽约的西奈山医疗中心Resilience项目(在健康人群中筛查致病突变,总目标是筛查100万人),英国的10万基因组计划,以及美国的精准医疗计划(美国总统奥巴马最近宣布的个性化医疗计划)。这些项目都是从数百万人群中寻找突变、遗传图谱、疾病历史以及其他数据。

然后,这名来自谷歌的演讲者演示了大数据挖掘的简要历史,从2004MapReduce的出现、2005年的Hadoop2009年的Apache Spark,到最近2010年谷歌的Google

Dremel,这些都是大数据分析历史上的里程碑。这些大数据到底有多大?我们可以想象数万亿行数据排列在一起是什么样子。而目前对大数据分析指导的原则是:更大、更快、更标准化。

他以YouTube为例形象地阐释了大数据之“大”。目前YouTube每分钟会有时长300小时的视频上传,谷歌的YouTube搜索覆盖的数据超过了100PB(相当于10万个1T的硬盘)

他们用DremelBigQuery工具分析了取自千人基因组计划的1000个公开可用的全基因组测序结果, 研究他们的算法对 1000多个.vcf文件的处理能力(要知道,每一个全基因组序列包含3-4万个变异)。首先,他们按照不同人群对变异进行分隔,过10秒钟,系统生成一张与以前分析结果一致的图表,随后,生成一张反映所有1000个样本变异信息的图表,并输出不同人群中的杂合性SNP分布。

他接着通过PCA分析,解决了一个100万×100万的问题。现在你应该知道了——谷歌的工程师都是大数据挖掘、搜索的专家,无论他们要找的是YouTube上一个特定的小猫视频,还是在许多样本中某一给定位点的杂合子基因频率。但是,大数据也有难以逾越的瓶颈,他通过以下一张XKCD卡通总结说明了大数据在当前阶段面临的挑战。

谷歌在大数据处理及挖掘方面的专长是无可争议的,他们每年在此领域的营收超过600亿美元(主要来自于他们的搜索引擎,特别是AdWords搜索引擎营销)。我们毫不怀疑,当他们开始为科学家提供商业化的基因组分析时,他们可能会开展相关的健康业务。

Google X

Google X项目完全是另一回事。这是一个制造“重大技术突破”的半秘密机构,他们的任务是改善某些现有的技术或方法,在该领域上取得至少10倍的突破,其中比较知名的两个项目是谷歌无人驾驶汽车和谷歌眼镜。Google X生命科学也有类似的目标。

Google X生命科学主要做什么?他们有一个项目清单,其中包括了用于血糖监测的隐形眼镜、手经常不由自主震颤的人(主要是帕金森患者)用的勺子。清单最后是两个基因学家感兴趣的项目:Baseline研究和癌症纳米检测。Baseline研究主要是通过大量的数据采集和研究,展示出一个正常的健康人应该是什么样子,从而对疾病做出提前的预防和控制。对于Baseline,研究什么意味着“正常”是一个有用的试验,但很难想象它将怎样实现“10倍突破”。目前,已有很多不同的机构针对该问题研究了多年,例如美国国家衰老研究院早在2001年就启动了SardiNIA研究,该研究侧重于两个重要的方面:遗传同质性和基因表型。

谷歌的Baseline可能会无法捕捉到同时受环境和基因控制的变异,这里需要借助基因学家的帮助——他们可以开展自然实验,例如从8000年前开始,追踪一个岛屿上的人群的后裔。谷歌需要非常谨慎地选择哪些人作为他们的“正常”对象——并做好准备,工作的主要部分不是数据生成,而是表型数据收集,以及找到baseline所需的人群。

但是更大的问题是:他们想监测的蛋白质信号是什么?对于癌症早期来说,它们并不能通过血液检测出来。目前有一些可行的技术能够检测分析单细胞、游离DNA(RNA),从而查看循环肿瘤细胞以及与体细胞突变、甲基化、拷贝数变异等相关的特定生物标志物。这种检测需要非常精细的技术,且不说实现这种技术,单是如果能够在血液中定义所需的生物标志物——仅仅这一步,就有许多的公司积极争取。

对于Google X非生命科学类的大型项目来说,无人驾驶车会产生巨大的社会、法律和政策影响,华盛顿日报曾对此报道过。对于最近推出的谷歌眼镜,谷歌又把它撤回到时尚设计师手中进行秘密开发,这对它的未来来说并不是一个好兆头。

就我个人而言,我对Google X生命科学或Google X其他项目将能够对他们选择的领域做出10倍改变这一目标并不乐观。目前,各大汽车制造厂商正在实验室研发无人驾驶汽车,因为汽车是他们的核心竞争力。而微软最近推出全息影像头戴设备HoloLens,让增强现实技术大受提振。如果早期预言成真,微软将成为把现实与虚拟世界相结合进行交互的改变游戏规则的公司。对于我来说,我并不期望Facebook推出复杂的计算机硬件,同样,也不期待谷歌的硬件。

创新是困难的,每次成功都伴随着成千上万次的失败。Google X生命科学试图解决生命科学领域非常棘手的难题,例如早期癌症检测。但这也正是很多小型创业公司正在做的事情。与小型创业公司相比,他们只是有更多的钱、更多的人而已。他们乐观地认为,他们将在五年内得到结果——那我们就等着看吧。