亮点一:结合国际权威的数据结构标准、满足科研成果的全球共享
结合国际核酸序列数据库(International Nucleotide Sequence Database Collaboration,INSDC)和DataCite标准,CNSA同时接受原始序列和其他支撑数据的递交和归档,实现数据全生命周期——从产生、递交、同步、查询到下载等过程的完整归档,以确保科研成果的完整性。
亮点二:遵循文章发表前的国际数据开放协议,支撑全球科研文章的发表
CNSA遵循Fort Lauderdale Agreement, NHGRIRapid Data Release Policies, Joint Data Archiving Policy, CC0-No RightsReserved等国际数据开放原则和协议,接受来自全球科研的测序研究数据(包括原始数据和其他支撑数据)递交,其数据递交服务可作为文献出版流程的补充,支持早期数据的共享。
亮点三:遵循不同的数据伦理和权限申明
CNSA遵循用户所在国家的《人类遗传资源管理暂行办法》和伦理规范,对用户提交的数据和信息,进行伦理批件和人类遗传资源出入境批件的审编和备份。
亮点四:采用不同颗粒度的安全等级管理
CNSA结合不同的数据类别和处理方式,采用相应的技术和管理措施,确保数据处于对等的安全级别保护。
亮点五:应用高可用的分布式数据归档系
CNSA采用高性能的分布式对象存储进行数据归档,结合独立的高可用备份存储系统,实现数据的安全存储。
亮点六:拥有高效互联的传输带宽和物流网络
CNSA依托深圳国家基因库和华大的高效互联的传输带宽和物流网络,覆盖全球多中心,可协助用户快速递交数据并同步至国际公共数据库。
亮点七:拥有本地化的中文服务,快速反馈,零距离沟通 CNSA提供中英文人工双语服务,可通过电话、邮件等方式联系我们,实现无障碍、零距离沟通。
快速使用指南
1、原始数据递交
原始序列是指一次测序产生的全部原始数据。理论上,原始数据是没有经过任何过滤的数据。原始序列数据的递交,CNSA整合了INSDC的数据标准和结构进行数据审编和归档,包括"项目、样本、实验和数据"四个简单步骤(详见图1)。
图1 原始数据递交流程
原始数据文件及元数据信息递交完成后,经后台管理员审核信息无误后,CNSA默认以ENA (European Nucleotide Archive,欧洲核酸档案库)代理(broker)的身份将其同步至ENA公共数据库。当然,CNSA承诺用户可自由选择同步的数据库,包括 NCBI-SRA和DDBJ-DRA 。
2、其他支撑数据递交
其他支撑数据是指除原始数据外的其他数据,此类数据与文章或研究相关,包括但不限于过程和结果数据、分析方法、软件程序、图像文件、音频文件、视频文件、成像文件、电子图表和word文档等。CNSA与Gigascience旗下的GigaDB合作共同归档此类数据,分配DOI,以供科研工作者引用(详见图2)。
图2 其他支撑数据递交流程
3、数据查询检索和下载
CNSA拥有支撑亿级数据的搜索引擎,用户可组合任意的搜索关键词进行搜索,实现数据和信息的秒级响应,并可快速获得下载的数据文件。
中国核酸序列归档系统(CNSA)将支撑全球科研成果的发表,实现对不同研究类型和规模的数据共享,提高科研成果再现性,促进科技的新发现。