博亚体育(中国)官方APP

博亚app 博亚体育海量、多模态生物医学数据让存储基础设施迎来“高考”|博亚体育
行业资讯
博亚app 博亚体育海量、多模态生物医学数据让存储基础设施迎来“高考”
时间:2023-06-30浏览次数:
 生老病死是无法改变的自然规律,但人类一直没有停止过对疾病的抗争,这不是对死亡的恐惧,而是对生命的敬畏。  现代医学的发展史,就是一部科学的发展史,两者总是相辅相成。医学的发展让人类的寿命大大提高,让更多科技成果得以涌现,同样,科学的发展也赋予了医学更精准有效的治疗手段。  而随着人类文明进入到信息化时代,生物医学作为现代医学的分支和新兴的跨学科领域,也迎来快速的发展。随着生物医学大数据的增长,

  生老病死是无法改变的自然规律,但人类一直没有停止过对疾病的抗争,这不是对死亡的恐惧,而是对生命的敬畏。

  现代医学的发展史,就是一部科学的发展史,两者总是相辅相成。医学的发展让人类的寿命大大提高,让更多科技成果得以涌现,同样,科学的发展也赋予了医学更精准有效的治疗手段。

  而随着人类文明进入到信息化时代,生物医学作为现代医学的分支和新兴的跨学科领域,也迎来快速的发展。随着生物医学大数据的增长,生物医学的发展也进入了崭新的阶段。苏州大学的生物医学研究,正通过高通量测序技术和 AI技术,不断挖掘数据的价值,探索生命的奥秘。

  “基因”始终带着神秘色彩,它是 DNA上的特定部分,而 DNA是支持着生命的基本构造和性能,储存着生命的种族、血型、生长、疾病等信息的生命密码,人类大约有 2.5 万个基因来实现生命功能。

  基因组学通过对生物体所有 DNA和基因的研究,在改变着人类的未来,针对遗传出生缺陷的产前检测,肿瘤基因检测,病毒和细菌的基因研究等,通过基因组测序都能找出“元凶”。而这门学科的关键,是其背后的海量数据。作为一项天然数据密集型业务,基因组测序可以基于更多的样本数据,快速研发新药或提供精准的诊疗服务。

  但是最初的基因组测序技术的效率却并不高,人类第一次完整基因组测序耗费了 13年之久,且成本巨大。

  苏州大学基础医学与生物科学学院特聘教授,博士生导师李玉梅博士说,“在生物医学领域,我们应用最多的就是高通量测序数据。”

  有别于第一代测序技术,高通量测序技术是第二代测序技术,一个最显著的变化就是速度很快,过去要花费十年的测序时间,高通量测序技术只需要不到一天就可以完成,而且价格也非常低。

  所以,高通量测序技术是对传统一代测序的一次革命性改变,可以一次对几十万到几百万条 DNA分子进行序列测定,因此也被称为下一代测序技术。“有了海量的数据,便可以分析人的遗传突变、基因功能等,进一步分析基因突变的原因,突变与疾病之间的关系,就可以有针对性地去开发新的诊断方法和治疗药物。”李玉梅说。

  高通量测序技术的快速发展,改变了人类研究生命蓝图的方式,同时也带来了爆炸式增长的测序数据,目前数据存储和传输都是亟需解决的问题。

  博亚体育 博亚体育官方入口

  随着技术的成熟和成本的下降,生物数据通量急剧提升,这必然会带来诸多挑战。

  以高通量测序为例,通过测序技术可以解析生物 DNA序列特征,包括遗传变异检测、序列图谱构建等。尤其在人类健康研究中,需要了解基因的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗、基于生物大分子结构及小分子结构的药物设计等。

  第一个挑战就是数据量巨大。以基因组测序为例,从最初的人类基因组,扩展到其他动物、植物、远古生物、细菌、病毒的基因组,且目前已经涉及到肿瘤、遗传病等疾病的检测。因此,产生的数据种类和数据量是异常庞大的,通常以 PB为单位保存。这就要求在系统中必须配置海量存储,以满足测序数据的存放。

  博亚体育 博亚体育官方入口

  第二个挑战是存储的稳定性。李玉梅说,“我们对存储的基本要求,就是要稳定,尽量不在存储和运行的过程中出现任何问题。”

  此前,清华大学构建了一个 RUSH系统,用于小鼠大脑的分析。这个实验环境中,有 28个 1200万像素的摄像头,不间断地高速拍摄小鼠脑图。要求是每秒钟拍摄 30帧,并且要连续拍摄 72个小时,且任何一帧的数据都不能丢。

  浪潮信息存储产品线分布式存储总经理姜乐果说,“当时在跟清华大学的老师沟通时,他们起初认为国内的设备,很难达到这样的一个效果。浪潮就在工厂里,按照清华大学的要求,搭建了一个 1: 1还原的镜像环境,持续跑了三个月,做到了数据完全不丢失,最终得到了清华大学的认可。”

  第三个挑战是数据的处理效率。一个人的基因组大概是 3个 GB,包含了 30亿个碱基。在全基因测序过程中,为了保证基因数据的完整性,需要平行测序 30次,当最终测序完成后,全基因组数据将达到 100GB左右,所以对数据分析的效率提出了更高要求。

  第一,由于测序的整个过程不允许被中断,这就要求支撑测序应用的存储系统,具备极致的稳定性和可靠性;

  第三,在数据归档阶段,需要将海量基因数据长期、完整、安全的保存起来,存储系统的采购成本也是一个很大的挑战。

  李玉梅说,“生物医学研究,背后是很大的数据量,因此我们对计算的需求就变高。同时随着测序的价格降低,数据越测越多,对存储的成本控制能力也提出了要求。”

  在总体架构设计上,其支持五合一架构的融合存储,购买一套存储,即可享有块、文件、对象、大数据、视频五种服务。对于基因测序场景不同处理阶段,数据格式转换和数据拷贝会降低整个数据处理流程效率的问题,给出一个很好的答案。

  在高性能方面,基于 Intel至强四代可扩展处理器,支持 PCIe 5.0高速总线高速缓存,搭载自研 NVMe SSD,通过盘控协同实现了端到端联合调优。相较上一代产品,分布式存储 AS13000G7性能整体提升 40%。

  在成本优化上, AS13000G7的单一集群最大扩展至 10240节点,单一文件系统支持千亿文件,通过智能算法,存储空间利用率达到 94%以上,高利用率其实等于帮助用户节省了成本。

  海量的生物医学数据,不断对存储系统提出新的挑战,同时也在加速存储技术的革新。从基因组测序到探索生命健康的密码,生命不息,创新不止。

Copyright © 2023-2023 博亚科技有限公司 版权所有  备案号:豫ICP备20014533号  
地址:河南省郑州市管城回族区郑汴路39号16号楼22层2213号  邮箱:3508448626@qq.com  电话:18238528218