近日,全球基因组学与健康联盟(Global Alliance for Genomics and Health,GA4GH)公布了名为“GA4GH Connect”的未来五年战略规划,呼吁联盟的500多名成员开发新的数据共享标准,用于当前重大的国际基因组学数据计划。
目前,GA4GH已经与13个项目达成合作,其中包括Genomics England以及Australian Genomics等,用以开发和发布基因组数据挖掘、分析和解读的新标准。在17日于佛罗里达州举办的美国人类遗传学会会议上,联盟讨论了贯穿至2022年的战略规划的具体细节。
从基础研究转向医疗实践
除了介绍“GA4GH Connect”五年战略规划,该联盟的主要成员还在BioRxiv发表了一篇社论,题为“Genomics in healthcare: GA4GH looks to 2022”。社论概述了与健康驱动的基因组学相关的期望和挑战。作者强调,从研究资助的基因组学到医疗保健资助的基因组学的转变,使GA4GH制定了其全新战略规划,并将自身重组为一个“以交付为重点的组织”,并为这些项目提供新的工具。
英国剑桥欧洲分子生物学实验室欧洲生物信息学研究所所长、GA4GH指导委员会主席Ewan Birney表示:“内在的关键在于,医学实践将会比科学研究提供更多的基因组学资源。同时,基因组学对健康日益增长的效用意味着……大多数人将在他们生命的某个时间点应用基因组测序。”
传统模式的颠覆
正如Birney在其合著的社论中所概述的那样,GA4GH目前预计,到2022年,多达5000万个基因组将可能被测序。与过去数据存储和共享的方式相比,这些新数据集的可用性将带来新的挑战。而根据Birney的观点,用于研究目的的基因组测序数据通常从单一的位置在国际间共享,并由用户直接下载用于分析,但在国家卫生保健系统中产生的数据必须以不同的方式进行分配。
他说道:“基于这些庞大的健康医疗团体,我们必须对传统范式进行颠覆,并进行虚拟化分析,以确保将数据发送到世界各地安全的云存储位置。要做到这一点,我们需要GA4GH启动新的标准。”
GA4GH推出的第一个标准被称为“htsget”。 htsget标准是一个基因组血数据检索规范,它允许用户下载最感兴趣的基因组部分的读取数据。在此之前,用户通常会下载完整的数据集,然后再搜索那些感兴趣的区域,这通常花费巨大且十分耗时。GA4GH旨在通过这些大型基因组项目的合作来开发出这些类型的工具。
Birney说:“这些合作涉及世界上最大的临床基因组项目,我们拥有这些团体水平的技术接触,因此我们希望确保这些标准能够适合这样的大型组织。”
他还指出,GA4GH还试图专门设计可互操作的工具,这将允许用户对各组织和国家之间的数据进行“联合分析”。这些工具不仅能让用户更好地分析和存储数据集,还能将它们整合到罕见和复杂疾病(包括癌症)患者的临床管理中。
Birney补充说,GA4GH已经与全球范围内所有主要的基因组学项目取得了联系,有些项目将在明年加入。该联盟还将于2018年发布一套标准,以使其他项目能够加入。
全新的内部工作流程
为了更好地满足这些驱动项目的需求,GA4GH也在内部进行了重组。GA4GH从2014年开始不再依赖于工作组和任务团队,现在将使用所谓的技术工作流和基础工作流来开发新的标准和工具。技术工作流将由从事设计和实施新标准和工具领域的领导团队组成;基础工作流将针对法律、伦理和数据安全等方面问题提供咨询。
GA4GH五年战略规划中列出的具体技术工作流程包括集中制定临床和表型数据的采集和交流方法、标准化云环境、简化研究人员识别、设计统一的数据挖掘平台,以及开发用于访问和分析大规模基因组数据的标准。
在GA4GH五年战略规划中制订的特定基础工作流将在基因组学的法律法规、伦理和数据安全领域提供指导。值得注意的是,其监管及伦理部门将尝试协调一致的隐私政策和数据监管模式。
同时,这两种工作流程都将由工作流领导管理统筹,为13个大型基因组项目提供它们所需的标准。
为了资助GA4GH的活动,该联盟将依赖Birney所称的“Harlequin资助模式”,得到各个不同背景组织的资助。据悉,支持GA4GH的三个主要研究所分别是博德研究所、维康基金会桑格研究所以及安大略癌症研究所,此外,美国国家卫生研究院(NIH)和加拿大基因组研究中心(Genome Canada)也在支持这一联盟。
如果这些努力取得成功,Birney希望到2022年,可以广泛采用临床级基因组数据的共享标准。正如其所说:“就像我们使用网络一样,没有人会担心什么协议。这正是研究人员和临床医生的共同目标。”
参考资料:
Genomics in healthcare: GA4GH looks to 2022
doi: https://doi.org/10.1101/203554