当前位置:K88软件开发文章中心办公应用办公应用07 → 文章内容

徐葳:生物医学影像处理、分布式系统与数据共享平

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-2-21 2:30:37

原标题:徐葳:生物医学影像处理、分布式系统与数据共享平此内容为数据派独家内容,大数据文摘获授权转载。数据派是清华大数据产业联合会官方微信公众账号,定期发布清华大数据系列讲座信息,分享讲座实录 。其他机构或媒体如需转载,请联系 yafei.xue@tsingdata.com 申请授权。清华大数据产业联合会授权转载摘自:数据派(ID: datapi)本讲座选自清华大学交叉信息研究院助理教授徐葳于2015年11月26日在RONG v2.0---“图形图像处理与大数据技术”论坛上所做的题为《生物医学影像处理、分布式系统与数据共享平台》的演讲。徐葳:谢谢组织者的邀请,我不是做图形图像的,我是做分布式系统的,这是我的简要经历。我一方面在做科研,另一方面在做实践,我现在管着300台服务器,我的一些设计、想法都使得这些设备的运维变得更加容易。首先看一个图,我们做计算机系统的人脑海中存在的系统是长成这个样子的。今天讲影像我完全是客串,主要是因为我参加了三个跟影像有关的项目。我想让大家知道从外行的角度看我们怎么理解这件事情,我们希望能够从时间系统的角度来看怎么样帮助处理这些问题,然后我会从这些项目中引发出一个数据分享平台的想法跟大家探讨一下。这是一个血管MRI的项目。清华影像中心收集了一批核磁共振的片子,并且请老师对片子中的血管壁进行了标注。带有标注的这类数据集是非常珍贵的,我们把这个边缘描出来,这个东西分辨率很低,而且总的数据量比较少,深度学习无法训练出有效的模型。另一个角度讲,这个事情也比较简单,就是要识别一个圈,我们用feature学习的方法来解决。如果图中这个扇形区域覆盖了90%的亮度,我们就认为它是管壁。后来再仔细想,这个图像也是计算机描述出来的一种影像。血管壁外侧的肌肉组织会产生一些噪声,我们发现这个噪声和血管壁的亮度是两个高斯分布,非常漂亮的高斯分布。这个feature非常简单。从图中可以看出来训练的结果还行,他可以描述不同管壁的厚度,厚度的均匀程度也可以描述出来。这个问题没有很大的技术含量,我也不认为这是一个非常难做的项目。但是它说明了一点,不见得任何问题都需要用深度学习来解决。feature学习非常快,结果准确率也不错。领域专家更容易想到有价值又简单的feature。而我们做计算机的,一般会想到更通用也更复杂的方法,未必能得到正确的思路。需要两方面更多交流。三维电镜重构,通俗易懂的解释就是采集了蛋白分子各个方向的投影图像,再把这些图像重构成一个三维模型,这个系统最核心的问题有两个:一是速度太慢,用几十个核的CPU运行它,要好几天甚至一个星期;二是没有容错机制,挂掉一个进程,整个计算都失败了。以运行的更快呢?系统本身是并行化的,图中是运行的效果。下面蓝色的部分是互相等待的时间,上面橙色的部分是运算的时间,平均每个核算的时间和平均每个核等的时间。大家可以看到从第二条线64核增加到第三条线128核之后,速度反而变慢了,这是由于CPU在等待的时间已经大大超过了运算的时间。我们对它的并行算法做了简单的优化,首先我们增加了同步数据时候的并行,这时我们得到了第四条线,蓝色的等待部分跟第二条线比减少了。我们进而减少了读写磁盘,改成了用网络同步,得到第五条线。我们可以看到,同样是128个CPU核,第五条线运行要快了不少。优化速度之后,我们依然不满意,因为这个架构中挂掉一个机器,整个系统就瘫痪了。系统规模越大,坏掉一个机器的概率越高,运行时间越长,这个概率也会增加。这引出一个更广泛的问题,大数据在系统方面有没有技术上的贡献?大家会普遍认为有。但是从技术层面说,大数据用的方法大家不知道吗?好像大家过去也知道,其中并没有什么特殊的方法创新。但是大数据系统用的是非常便宜的机器,系统内任何一个机器宕机都不会影响整体的运行,这是谷歌设计MapReduce系统的核心。因为只有设备便宜才能跑成规模,价值密度低是大数据的典型特性,成规模的廉价设备使得处理海量价值密度低的数据成为可能。我们现在反过来,能不能把大数据系统这个低成本的优势扩展到其他领域,例如科学计算可不可以也在更便宜的硬件平台上运行,我们希望在这个方向上能有所改进。我们现在正在做的事情就是把这个架构从MPI推到SPARK架构,增加系统的容错性。大数据的算法有一些特殊的优化,大数据算法的优化一般是让他怎么样跑的更快。现在有一些Mini-batch的算法,你不要每次都加载很多数据。我们还在做更为细致的实验,但我们认为这个方法在很多领域都是可以用的,在电镜图像重构这个领域也可以用。上面是我介绍的第二个项目,在这个项目中我考虑的是大数据的基础架构能不能用在其他领域。这些领域不是典型的大数据领域,其数据量也不是很大,但是大数据提出的架构和设计思想怎么样能在这些领域中结合。我要给大家讲的第三个案例是一个有关果蝇的项目,这是我们和加州大学伯克利分校以及美国能源部劳伦斯国家实验室合作的。果蝇是非常重要的生物学模型,很多实验室都拿它做实验。这个项目的本身的想法非常生物学,但是其中遇到的问题完全是操作系统管理和软件工程方面的事情。关于果蝇的生长已经研究的非常清晰了。随着成长果蝇的不同器官会顺序发育出来。果蝇的卵最初是是均质的,为什么会发育出不同的器官?上世纪八十年代科学家发现,这些相同的物质所处的地方不同会发育成不同的器官。如果使用激光把中间某一部位烧掉,这一部分对应的器官就不会长出来。右侧的图叫做Fate Map。Fate Map大家早就知道,但是产生这个图的原因至今还不清楚。基因在不同阶段表达的位置是不一样的。下面我要说的是一项非常值得尊敬的科学工作,做这个项目的实验室大概有二十个人,他们大概花了十多年的时间,一种一种基因染色,染色完了在显微镜下照出来,一种一种基因地做。过了十年之后,现在已经做到7971种基因,照了12万多张图片,12万多张是手工选出来的,每一种基因挑出看的稍微清晰一点的,可以从各个角度看的,这是一个非常珍贵的数据集。现在他们的工作加快了速度,因为他引入了机器人,机器人会自动筛选出比较好的照片。这里大家可以看到一些基因表达的位置。不同颜色代表了这种基因表达的多少。现在生物学家的问题是:这些东西有什么用?能不能从这些照

[1] [2]  下一页


徐葳:生物医学影像处理、分布式系统与数据共享平