EpHod

# Machine learning prediction of enzyme optimum pH

Journal: Nature Machine Intelligence (IF 23.9) Published: 2025年4月29日开源地址：https://github.com/beckham-lab/EpHod

EpHod并不是一个单一的模型，而是一个集成模型（Ensemble Model）。它结合了两种利用相同底层特征（ESM-1v嵌入）但架构不同的模型，通过平均它们的预测结果来提升准确性和稳健性。

EpHod的两个核心组件是：

1. 支持向量回归模型 (ESM-1v-SVR)

模型类型：传统的机器学习模型（Support Vector Regression）。SVR擅长处理高维数据，并能通过核函数技巧学习非线性关系。
输入特征：**平均化（Averaged）**的ESM-1v嵌入。具体做法是，将一个蛋白质序列中每个氨基酸的ESM-1v嵌入向量（例如1280维）进行逐维度平均，最终得到一个代表整个蛋白质的单一向量。
作用：这个分支捕捉了蛋白质序列全局的、整体性的生物化学信息。它的结构相对简单，训练速度快，且在全局特征表示上表现非常出色。

2. 残差光注意力网络（ESM-1v-RLATtr）

模型类型：深度学习神经网络（Residual Light Attention Network）。
输入特征：**逐残基（Per-residue）**的ESM-1v嵌入。它直接使用蛋白质序列每个位置上氨基酸的嵌入向量，形成一个二维的张量。
**模型架构 **：
- Light Attention：与传统的Transformer注意力机制不同，它使用两个并行的1D卷积层来分别学习每个位置的“重要性”（注意力权重）和“值”（转换后的特征），然后加权求和。这是一种更轻量、高效的注意力机制。
- Residual Blocks：模型的核心由多个残差块堆叠而成。这意味着网络的层数可以很深，从而学习更复杂的特征映射，同时残差连接可以有效防止梯度消失问题，使深度网络更容易训练。
作用：这个分支能够捕捉局部和位置相关的信息。通过注意力机制，它能自主学习到序列中哪些氨基酸（例如催化位点附近、蛋白质表面的带电残基）对最终的pHopt预测贡献最大。这是模型可解释性的关键来源。

集成方式：将SVR模型和RLATtr模型对同一个蛋白质序列的pHopt预测值进行简单的算术平均，得到最终的EpHod预测结果。集成学习通常能降低单一模型的偏差和方差，从而获得更稳定和准确的预测。

该研究使用的核心损失函数是加权均-方根误差 (reweighted RMSE) 。

我们先从标准RMSE的公式开始，它衡量的是模型预测值与真实值之间的差异。

\text{RMSE} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(y_{i} - \hat{y}_{i})^{2}}

这个函数计算误差的平方的平均值，然后开方。开方的目的是让误差的单位与原始数据的单位（即pH单位）保持一致，从而更直观地理解误差的大小。

论文中反复强调，他们使用的数据集存在严重的标签分布不均衡问题。

问题所在：数据集中将近75%的酶的最适pH值 ( $pH_{opt}$ ) 集中在6到8之间，而极端酸性 (pH < 5) 和极端碱性 (pH > 9) 的酶样本非常稀少。

为了解决这个问题，研究者为每个样本引入了一个权重 ( $s_{i}$ )。这个权重的核心思想是：样本越稀有，权重越高；样本越常见，权重越低。论文中使用的加权RMSE公式如下：

\text{loss} = \sqrt{\frac{1}{b}\sum_{i=1}^{b}(\acute{s}_{i}(y_{i} - \hat{y}_{i})^{2})}

计算基础权重 ( $s_i$ )：论文评估了五种不同的方法来计算每个样本的基础权重，其中最直观的一种叫做 "bin inverse"（分箱倒数）。
- 步骤1：分箱。将所有pH值分为三个区间（箱）：酸性 (pH ≤ 5)、中性 (5 < pH < 9) 和碱性 (pH ≥ 9) 。
- 步骤2：计算倒数。对于某个箱内的任何一个样本，其权重 $s_i$ 就是该箱内样本总数的倒数。例如，如果碱性箱里只有100个样本，而中性箱里有7000个样本，那么一个碱性样本的权重就是 $1/100$ ，而一个中性样本的权重是 $1/7000$ 。显然，碱性样本的权重远大于中性样本。
归一化权重 ( $\acute{s}_{i}$ )：直接使用基础权重可能会导致梯度（模型更新的依据）的方差过大，使训练不稳定。因此，论文对权重进行了均值归一化处理。
$\acute{s}_{i} = \frac{s_{i}}{\frac{1}{N}\sum_{j=1}^{N}s_{j}}$
这个操作将所有权重的平均值调整为1，同时保持了它们之间的相对比例，有助于稳定训练过程。

通过这个加权损失函数，训练过程发生了如下变化：

当模型预测一个中性pH的酶时，即使预测出现了一点误差，由于其权重 $\acute{s}_{i}$ 很小，对总损失 (loss) 的贡献也较小。
当模型预测一个稀有的碱性pH的酶时，如果预测出现同样的误差，由于其权重 $\acute{s}_{i}$ 很大，这个误差会被放大，对总损失的贡献也会变得很大。
为了最小化总损失，优化算法（如Adam）会迫使模型参数进行更大的调整，来修正对稀有样本的预测错误。

最终，这种方法有效地引导模型去关注那些数量稀少但十分重要的极端pH值样本，显著提升了模型在酸性和碱性酶上的预测准确性，使其更具生物技术应用价值。

上次更新: 2025/09/18, 20:06:50