就职于美国马萨诸塞州坎布里奇的Whitehead生物医药研究院的计算生物学家Erlich正在探索人类基因组数据的新用途,之前他在一家安保公司工作负责利用各种技术手段突破银行的安保系统,而这一次他要突破各个数据库以挖掘其内的个人遗传信息。
Erlich参与发表的一篇论文揭示,在公共资源基础上利用交叉比对方法可从遗传学角度确定参与者的个人身份,这正如之前的研究发现,数据库中匿名的遗传学信息会泄漏个人的真实身份,只要将个人DNA与数据库中的信息进行一下比对即可。
Erlich 破解公众的遗传信息让人们看到了一个迫在眉睫的伦理道德难题,患者的个人信息和社交媒体(或家族谱系)的信息等结合在一起,让个人的隐私信息很难被保护,而对这些信息进行关联研究可预见很大的商业价值,同时会泄漏个人隐私。
这项突破性研究让科学界为之一震,引起人们对医学研究中保护个人遗传信息的质疑,从而给隐私数据库的私密性敲响了警钟。之前承诺保护个人遗传信息的欧洲分子生物学实验室声称不会透漏任何有关Henrietta Lacks女士(Hela癌细胞贡献者)和其后代的私人信息。而Erlich对此消息进行了尖锐批驳,认为EMBL在对受害人进行撒谎,作为回应EMBL把这段信息从公共数据库中剔除掉。
WhiteHead研究院的院长David Page称,绝大多数科研人员不管出于科研工作还是个人考虑,都不会涉及公共数据库个人隐私信息的披露,但是Erlich这么做不是出风头,而是想将整个互联网生物信息整合在一起,这是他工作的核心。
致力于挖掘遗传序列的身份信息
Erlich在大学所学的专业是计算神经科学专业,2006年大学毕业后,到了美国纽约的冷泉港实验室继续深造,并获得了遗传学博士学位。攻读博士期间,他的导师Greg Hannon分子生物学家指导其开发出“DNA数独”的测序新算法,可同时对上万个标本进行DNA测序,并对快速发现那些携带罕见突变的基因以及出自哪个样本。
在2011年,Erlich在WhiteHead研究院建立了自己的实验室,同时他认识了美国科罗拉多州的一名妇女 Wendy Kramer,这位妇女的儿子希望找到亲生父亲(一位匿名捐精者),为此Erlich打算从消费者专属遗传谱系数据库进行检索,希望从中查找到和这个孩子DNA相似的人。
此外,Erlich 和其它研究人员共同开发了一款能破解基因组数据库中基因信息的软件,找到它们的谱系来源。该程序首先将DNA序列信息收集起来,再对短串联重复序列(个人遗传标志,STR)进行遗传分析,最终确定人物身份。STR能够从匿名遗传数据库中提供有价值的个人信息,并能在公共数据库中找到与STR匹配的身份信息。Erlich希望做的是,将遗传数据库和公共数据库结合在一起,从而能破解个体基因组背后的身份信息。
Erlich 和其他研究人员利用J. Craig Venter全长基因组序列进行软件测试,该软件提供了Venter Y染色体的STR特征图谱,并对家族谱系进行Y染色体检索,结果发现几个匹配的人。得知这几个人姓氏后进行详细检索,从而发现其中一个人与J. Craig Venter的非常匹配(地址、年龄和姓氏)。令Erlich担心的是, NIH是否会关闭数据库,以及这项研究是不是让公众忧虑个人隐私而不再捐赠细胞等材料。
拒绝透露隐私信息
Erlich在2013年1月份发表了就这项研究的论文,令他纠结的是,作为一为科研人员,迫切希望能将个人研究工作详细地公诸于众,而他却选择保护个人姓名等信息,也没有详细透漏每一步的破解步骤,这样做才不会泄漏个人隐私信息。
有遗传学家认为,公众对于个人信息公开化其实早已习惯,也没有带来任何伤害。但是,国田纳西州纳什维尔市范德堡大学的Brad Malin等却认为:“即便现在的信息流动要比十年前自由得多,但是公众还是希望不要将个人隐私信息公之于众,尤其关于个人健康和医疗情况,截至到目前,还没有公开过在匿名遗传数据中破解的个人信息,所以我们现在也不能肯定这些遗传数据就不存在泄漏个人隐私的风险。”
美国人类基因组研究院的院长 Eric Green称,该机构正设法在保障大家共享遗传数据的同时又保护个人隐私。我们希望尽可能地开发信息,让更多的人能自由地获取这些信息,却无法控制数据的用途,也不能保护个人的隐私和机密,因此,我们一直都在想办法在这两种极端中间寻找一个平衡点。
如何管理个人遗传信息
Erlich 认为,遗传信息应该让更多的人接触,即便给个人隐私保护带来了难度,这一看法得到美国德克萨斯州休斯敦市贝勒医学院的伦理学家McGuire的赞同。让他不确定的是,公众预先知道个人隐私信息有可能被泄漏这一措施是否有效,因为志愿者不会完全理解他们的遗传信息会应用到哪些领域以及存在哪些风险,就连科研人员自己都还不清楚未来存在哪些风险了。
他补充道,科研人员应该想更多其它办法来保护试验参与者的个人隐私,比如在存储数据之前先进行加密,然后给需要使用这些数据的人提供不同安全等级的密匙,这样既可以满足这些人的科研需要,又不会泄漏个人隐私。不过 Green 担心加密过的数据总是不如没有加密的数据好用。
在为个人隐私保护出谋划策的同时Erlich 还积极参与挖掘遗传信息的社会关系,他正与美国麻省中心医院的遗传学家 Daniel MacArthur 和美国哈佛大学公共卫生学院的生物统计学家 Alkes Price 开展一项名为遗传流行病学2.0(Genetic Epidemiology 2.0)的新项目,希望发掘出信息背后的社会关系网络,由此发现与人体复杂性状遗传学基础相关的蛛丝马迹。这项研究主要关注以家族谱系为基础的社交网络,这些构成了庞大家族树的家族成员给他们提供了丰富的、与遗传性状相关的数据信息。
Erlich 很清楚这项研究在伦理道德方面的复杂程度。所以他决定先针对已经过世的人开始研究工作,将他们这项工作的潜在危害降到最低限度。但是如果他们的工作取得了成功, Erlich 就会继续跟踪其他的家族成员,问问他们是否愿意提供其他的信息,比如医疗记录等,这将有助于他们发现更多与病理性状相关的线索。
Hannon 介绍:“Erlich挖掘个人遗传信息的方案行得通的话,那么就可利用公共信息资源解决遗传学家认为最难以克服的一个问题,即集合大量相关人的信息,以解答复杂的人类生物学问题。”当然,这会引发一系列问题,不过就像黑客闯入保密系统一样也不是什么坏事,至少可以测试保密系统的可靠性。