Clinvar学习笔记

ClinVar是NCBI开发的一个存储人类变异和表型关系的数据库,一般会有证据支持信息(来自临床诊断还是仅仅源自文献报道)。

数据库建立

2013年发布第一个版本,初始数据由OMIM,dbSNP,GeneViewer等数据库,以及一部分临检实验室提交的数据。

数据库结构

同一个submitter不同批次提交的数据,都会被记录(前缀是SCV,不同批次间做了区分)。不同submitter提交的针对同一个位点的变异,聚合为一个RCV记录,如果他们的结论有冲突,会有一个专家组进行review后给出结论,同一个位点不一致的结论每个月会发布一个release。

数据收集方法

  • 临床检测:符合CLIA或ISO 1589标准的实验室报告出来
  • 科学研究:科研项目鉴定到的
  • 仅文献报道:被第三方引用并未声明出处,和第二点的区别是,科学研究来源的有据可查,而这种没有原文可追溯

需要注意的是,GWAS的结果,除了经人工鉴别并给出临床解释的之外,其他的都没有收录。

数据库使用

数据获取方式

  • web 可使用基因名,rs number,疾病名,HGVS表达式(人类基因组变异学会定义的用于精确描述变异信息的格式)
  • ftp XML格式存储的是全部ClinVar的信息,VCF存储的是SNP信息,大于50nt的SNV不包括在内
  • api 支持esearch efetch esummary elink共4种方法,这里是文档