Xz's blog Xz's blog
首页
时间序列
多模态
合成生物学
其他方向
生活
工具相关
PyTorch
导航站

Xu Zhen

首页
时间序列
多模态
合成生物学
其他方向
生活
工具相关
PyTorch
导航站
  • 论文阅读

    • LigandMPNN
    • MODIFY
    • EpHod
      • Machine learning prediction of enzyme optimum pH
      • 模型结构
      • 损失函数
        • 1. 基础:均方根误差 (RMSE)
        • 2. 动机:为什么要“加权”?
        • 3. 解决方案:加权损失函数
        • 公式详解:
        • 权重的计算方法 ($\acute{s}_{i}$ ):
        • 4. 工作机制总结
    • DeepGO-SE
    • GraphEC
  • ESM相关

  • Rosetta

  • 合成生物学学习笔记
  • 论文阅读
xuzhen
2025-09-02
目录

EpHod

# Machine learning prediction of enzyme optimum pH

Journal: Nature Machine Intelligence (IF 23.9) Published: 2025年4月29日 开源地址:https://github.com/beckham-lab/EpHod

# 模型结构

EpHod并不是一个单一的模型,而是一个集成模型(Ensemble Model)。它结合了两种利用相同底层特征(ESM-1v嵌入)但架构不同的模型,通过平均它们的预测结果来提升准确性和稳健性。

EpHod的两个核心组件是:

1. 支持向量回归模型 (ESM-1v-SVR)

  • 模型类型:传统的机器学习模型(Support Vector Regression)。SVR擅长处理高维数据,并能通过核函数技巧学习非线性关系。
  • 输入特征:**平均化(Averaged)**的ESM-1v嵌入。具体做法是,将一个蛋白质序列中每个氨基酸的ESM-1v嵌入向量(例如1280维)进行逐维度平均,最终得到一个代表整个蛋白质的单一向量。
  • 作用:这个分支捕捉了蛋白质序列全局的、整体性的生物化学信息。它的结构相对简单,训练速度快,且在全局特征表示上表现非常出色。

2. 残差光注意力网络(ESM-1v-RLATtr)

  • 模型类型:深度学习神经网络(Residual Light Attention Network)。
  • 输入特征:**逐残基(Per-residue)**的ESM-1v嵌入。它直接使用蛋白质序列每个位置上氨基酸的嵌入向量,形成一个二维的张量。
  • **模型架构 **:
    • Light Attention:与传统的Transformer注意力机制不同,它使用两个并行的1D卷积层来分别学习每个位置的“重要性”(注意力权重)和“值”(转换后的特征),然后加权求和。这是一种更轻量、高效的注意力机制。
    • Residual Blocks:模型的核心由多个残差块堆叠而成。这意味着网络的层数可以很深,从而学习更复杂的特征映射,同时残差连接可以有效防止梯度消失问题,使深度网络更容易训练。
  • 作用:这个分支能够捕捉局部和位置相关的信息。通过注意力机制,它能自主学习到序列中哪些氨基酸(例如催化位点附近、蛋白质表面的带电残基)对最终的pHopt预测贡献最大。这是模型可解释性的关键来源。

集成方式:将SVR模型和RLATtr模型对同一个蛋白质序列的pHopt预测值进行简单的算术平均,得到最终的EpHod预测结果。集成学习通常能降低单一模型的偏差和方差,从而获得更稳定和准确的预测。

# 损失函数

该研究使用的核心损失函数是加权均-方根误差 (reweighted RMSE) 。

# 1. 基础:均方根误差 (RMSE)

我们先从标准RMSE的公式开始,它衡量的是模型预测值与真实值之间的差异。

RMSE=1N∑i=1N(yi−y^i)2\text{RMSE} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(y_{i} - \hat{y}_{i})^{2}} RMSE=N1​i=1∑N​(yi​−y^​i​)2​

  • yiy_{i}yi​ 是第 iii 个样本的真实pH值。
  • y^i\hat{y}_{i}y^​i​ 是模型对第 iii 个样本预测的pH值。
  • NNN 是样本总数。

这个函数计算误差的平方的平均值,然后开方。开方的目的是让误差的单位与原始数据的单位(即pH单位)保持一致,从而更直观地理解误差的大小。

# 2. 动机:为什么要“加权”?

论文中反复强调,他们使用的数据集存在严重的标签分布不均衡问题。

  • 问题所在:数据集中将近75%的酶的最适pH值 (pHoptpH_{opt}pHopt​) 集中在6到8之间,而极端酸性 (pH < 5) 和极端碱性 (pH > 9) 的酶样本非常稀少。

# 3. 解决方案:加权损失函数

为了解决这个问题,研究者为每个样本引入了一个权重 (sis_{i}si​)。这个权重的核心思想是:样本越稀有,权重越高;样本越常见,权重越低。 论文中使用的加权RMSE公式如下:

loss=1b∑i=1b(sˊi(yi−y^i)2)\text{loss} = \sqrt{\frac{1}{b}\sum_{i=1}^{b}(\acute{s}_{i}(y_{i} - \hat{y}_{i})^{2})} loss=b1​i=1∑b​(sˊi​(yi​−y^​i​)2)​

# 公式详解:

  • yiy_{i}yi​ 和 y^i\hat{y}_{i}y^​i​:同上,分别是真实值和预测值。
  • bbb:指每个训练批次 (batch) 的大小,而不是整个数据集的大小。
  • sˊi\acute{s}_{i}sˊi​:代表经过均值归一化的样本权重 。

# 权重的计算方法 (sˊi\acute{s}_{i}sˊi​ ):

  1. 计算基础权重 (sis_isi​): 论文评估了五种不同的方法来计算每个样本的基础权重,其中最直观的一种叫做 "bin inverse"(分箱倒数)。

    • 步骤1:分箱。将所有pH值分为三个区间(箱):酸性 (pH ≤ 5)、中性 (5 < pH < 9) 和碱性 (pH ≥ 9) 。
    • 步骤2:计算倒数。对于某个箱内的任何一个样本,其权重 sis_isi​ 就是该箱内样本总数的倒数。例如,如果碱性箱里只有100个样本,而中性箱里有7000个样本,那么一个碱性样本的权重就是 1/1001/1001/100,而一个中性样本的权重是 1/70001/70001/7000。显然,碱性样本的权重远大于中性样本。
  2. 归一化权重 (sˊi\acute{s}_{i}sˊi​): 直接使用基础权重可能会导致梯度(模型更新的依据)的方差过大,使训练不稳定。因此,论文对权重进行了均值归一化处理 。

    sˊi=si1N∑j=1Nsj\acute{s}_{i} = \frac{s_{i}}{\frac{1}{N}\sum_{j=1}^{N}s_{j}} sˊi​=N1​∑j=1N​sj​si​​

    这个操作将所有权重的平均值调整为1,同时保持了它们之间的相对比例,有助于稳定训练过程 。

# 4. 工作机制总结

通过这个加权损失函数,训练过程发生了如下变化:

  • 当模型预测一个中性pH的酶时,即使预测出现了一点误差,由于其权重 sˊi\acute{s}_{i}sˊi​ 很小,对总损失 (loss) 的贡献也较小。
  • 当模型预测一个稀有的碱性pH的酶时,如果预测出现同样的误差,由于其权重 sˊi\acute{s}_{i}sˊi​ 很大,这个误差会被放大,对总损失的贡献也会变得很大。
  • 为了最小化总损失,优化算法(如Adam)会迫使模型参数进行更大的调整,来修正对稀有样本的预测错误。

最终,这种方法有效地引导模型去关注那些数量稀少但十分重要的极端pH值样本,显著提升了模型在酸性和碱性酶上的预测准确性,使其更具生物技术应用价值。

#合成生物学
上次更新: 2025/09/18, 20:06:50

← MODIFY DeepGO-SE→

最近更新
01
Linux 通过Windows代理上网
09-18
02
vscode远程使用copilot和codex(内网环境)
09-18
03
跨机器克隆环境
09-18
更多文章>
Theme by Vdoing | Copyright © 2025-2025 Xu Zhen | 鲁ICP备2025169719号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式