跳到主要内容
版本:2024.05-cpu

type embedding

由于 DP 模型的 Embedding Net 数目是元素类型数目NNN2N^2倍。一方面,当体系中元素类型较多时制约了模型的训练速度,以及推理速度。另一方面,这也制约了 DP 模型在通用大模型方面的潜力。考虑到N2N^2个 Embedding net 其实隐含了对元素类型的编码,因此我们通过调整SijS_{ij},将元素类型的物理属性信息与SijS_{ij}做拼接,则只需要一个 Embedding net 即可达到与N2N^2相似效果。

对于SijS_{ij}ii为中心原子,这里将jj对应的元素类型的物理属性SijS_{ij}做拼接,组成一个长度为 1+物理属性数量的 Vector 送入 Embedding Net。在我们五元合金(钌、铑、铱、钯、镍)数据集以及LiGePS 四元数据集(1200K)的测试中,基于这种 Type embedding 方法的 DP 模型,能够在达到或者超过标准的 DP 模型预测精度的同时,对训练时间减少 27%,详细结果见性能测试

使用方法

用户只需要在控制训练的 json 文件中加入type_embeddingtype\_embedding参数,即可开启模型训练,将使用默认物理属性训练,参见项目案例 example/LiGePS/ligeps.json

{
"type_embedding": true
}

用户也可以在该 Json 文件的 model 参数 中指定所需要的物理属性。

在 Lammps 中的力场调用方式与前述标准的 DP 模型调用方法相同。

性能测试

精度

五元合金混合数据集(9486 个构型)下,Type embedding 方法相对于标准的 DP 模型在验证集上的预测精度对比:

menual_valid_alloy_dp_type_energy_rmse

图1: 五元合金体系验证集上的能量误差下降

manual_train_alloy_dp_type_force_rmse

图2: 五元合金体系验证集上的力误差下降

四元 LiGePS 构型的数据集(10000 个构型 1200K)下 Type embedding 方法相对于标准的 DP 模型在验证集上的预测精度对比:

manumal_valid_ligeps_dp_type_energy_rmse

图1: 四元LiGePS体系验证集上的能量误差下降

manumal_valid_ligeps_dp_type_force_rmse

图2: 四元LiGePS体系验证集上的力误差下降

训练时间

manual_train_alloy_dp_type_time

图1: 五元合金体系训练总时间

manumal_valid_ligeps_dp_type_time

图2: 四元LiGePS体系训练总时间

分子动力学时间