ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【论文阅读】crYOLO:快速准确的全自动颗粒挑选方法

2020-11-27 16:02:15  阅读:530  来源: 互联网

标签:训练 crYOLO 显微照片 颗粒 挑选 数据 全自动


目录

一、 论文题目

SPHIRE-crYOLO is a fast and accurate fully automated particle picker for cryo-EM

二、论文概述

本文介绍了基于深度学习目标检测系统“只看一次”(YOLO)的粒子采集软件crYOLO。用每个数据集200–2500个粒子训练网络后,它会自动识别具有高查全率和精度的粒子,同时达到每秒多达5张显微照片的速度。此外,我们提供了一个通用的crYOLO网络,可以从未知数据集中进行颗粒挑选,从而可以在数据采集过程中实现全自动的实时冷冻电镜数据预处理。

crYOLO可作为独立程序在http://sphire.mpg.de/下获得,并作为SPHIRE中图像处理工作流程的一部分。
crYOLO中的训练和选取。

上图:crYOLO中的训练和选取。
a. 使用YOLO方法,完整的显微照片被作为CNN的输入。当图像通过网络时,图像在空间上被下采样到一个小网格。然后YOLO预测每个网格单元是否包含粒子边界框的中心。如果包含,它就会估计单元内粒子中心的相对位置,以及边界框的宽度和高度。在训练过程中,网络只需要标记颗粒。此外,当网络看到完整的显微照片时会学习粒子的上下文。
b. 在选取过程中,crYOLO每秒最多处理5张显微照片,因此优于滑动窗口方法。

三、主要贡献

  1. crYOLO使用了YOLO框架,从而将分类问题重构为回归问题,由于输入的是完整图像,所以能够学习颗粒周围更大的背景;
  2. 训练时只需要标记正样本,且对稀疏标记的样本同样具有较好效果;
  3. 准确度高且效率高,可以达到单个GPU下每秒处理5张显微图像的速度;
  4. 提出了通用模型,可以检测未知数据集中的颗粒。
  5. crYOLO已整合在TranSPHIRE流水线中,并对新的网络架构具有可拓展性。

四、实验方法与评价指标

1. 数据集

  1. 3个cryoEM数据集:
  • TcdA1(EMPIAR-10089):颗粒清晰但数量少。
  • NOMPC(EMPIAR-10093):在纳米盘重组,不易挑选。
  • Prx3(EMPIAR-10050):使用了相位板技术,但杂质、污染和解离颗粒对比度也被提高。
  1. 1个模拟数据集:TRPC4(20张,每张250颗粒,不同的噪声级,添加了结构噪声、拍摄和数字化噪声)
  2. 1个已发布数据集benchmark:KLH(包含了KLH颗粒、纤维丝、堆叠颗粒、破损颗粒。)

2. crYOLO网络架构

  • crYOLO基于YOLO架构和深度学习库Keras,加上了patch处理、多GPU支持、并行处理、预处理、单通道数据输入、MRC及TIFF等文件格式支持、RELION的star文件和EMAN的box文件格式支持、友好的图形界面。
    YOLO包括了22个卷积层、5个池化层、13和21层之间的直通层、1*1卷积层(检测层)。

  • 为了改进原始YOLO的粗粒度对小颗粒识别的较低性能(每个网格单元只能检测到单个粒子),crYOLO将输入图像划分为少量重叠的补丁(如2×2或3×3),然后每个补丁将代替完整的显微图,下采样为1024×1024大小的图像输入网络。

  • 为了防止过拟合,图像会先进行增强。采用的方法有:翻转、模糊、添加噪声、随机对比度变化

在这里插入图片描述

  • 损失函数:
    在这里插入图片描述

3. 训练和测试

为了训练crYOLO,手动选择粒子的初始训练数据集。对于TcdA1、NOMPC和Prx3数据集,我们发现至少5张显微照片中的200-2500个颗粒足以正确训练这3个数据集的网络。
此外,不需要挑选负样本(包括背景,碳边缘,冰污染,和坏的颗粒)的,因为其他位置被认为是负样本,只要这些污染物存在于带有标签颗粒的训练图像中即可。

理想情况下,每张显微照片都应该被挑选完成。然而,由于低温EM显微照片的对比度通常较低,用户通常无法选择所有的颗粒进行训练,往往会错过其中的一些颗粒,称为假阴性。在训练过程中,包括假阴性的惩罚比遗漏真阳性的惩罚要低,这使得训练过程中能够收敛,即使一张显微图中只有 20% 的颗粒被选中。

TcdA1数据集

训练: 在10张显微照片,共1100个颗粒的数据集上训练。
测试: 从98张显微照片中,挑选了10854个颗粒。

  • 为了评估crYOLO的性能:计算了准确率和召回率,在AUC曲线体现。
  • 为了量化颗粒的中心化程度:计算了crYOLO和人工挑选结果的IOU。TP标准设置为IOU>0.6。
  • 为了评估颗粒质量:
    ①使用了迭代稳定对齐和聚类方法ISAC进行二维聚类;
    ②比较3D重建结果。

10089实验结果
在这里插入图片描述

a-c 取自EMPIAR-10089数据集。红色框表示由EMAN中的Gauss-Boxer,crYOLO和通用crYOLO网络选择的颗粒。
d 三个数据集的颗粒选择和结构分析的总结。所有的数据集使用相同的工作流程在SPHIRE处理。
e 对crYOLO从TcdA1中挑选的颗粒,使用ISAC和Beautifier工具(SPHIRE)获得无参考2D类平均。
f 傅里叶壳相关(FSC)曲线。
g从侧面显示了从crYOLO挑选的粒子获得的TcdA1的最终密度图,并由亚单位着色。使用来自通用crYOLO网络的颗粒进行重建是无法区分的。

其他两个数据集

大致相似,有的和EMAN比较,有的和RELION对比。具体过程略。

模拟数据集

  • 评估SNR对于颗粒挑选的依赖性。
    采取不同的噪声水平,计算了结果的AUC值。
    在这里插入图片描述

Benchmark数据集

  • 评估训练集大小的影响。
    crYOLO可以在较小数据集下得到较好训练效果。
    在这里插入图片描述

五、结果

除了上文中的一些评估结果,还有:

1. 计算效率

配置: 台式机 + NVIDIA GeForce GTX 1080 + 8G内存 + IntelCore i7 6900K CPU
训练时间: 5-6.5min每个数据集
运行时间: 约5张显微照片每秒

2. 通用模型

在45个数据集上训练了通用模型,包括26个手工挑选数据集,9个模拟数据集和10个纯污染数据集。
结果表明使用训练得到的通用模型对未知数据集进行颗粒挑选,也能得到不错的结果。

在这里插入图片描述

* 补充论文

1. 论文题目

The evolution of SPHIRE-crYOLO particle picking and its application in automated cryo-EM processing workflows

2. 主要内容

介绍了crYOLO自开发以来的几个改进

  1. 加入了纤维丝的挑选;
  2. 新的去噪技术,基于N2N去噪模型的JANNI算法;
  3. 新的图形界面;
  4. 更通用的模型:在>60个数据集上训练得到;
  5. 在自动化流程中的使用:已集成到SPHIRECOSMICRELION中。

A u t h o r : C h i e r Author:Chier Author:Chier

标签:训练,crYOLO,显微照片,颗粒,挑选,数据,全自动
来源: https://blog.csdn.net/m0_38068229/article/details/110219746

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有