Appendix I: features Wiki
本节简要介绍 PWMLFF 中使用的特征。同时还列出了相关文献,供读者参考。
特征(或描述符)是描述原子局部环境的量。它们需要保持平移、旋转和置换对称性。特征通常用作各种回归器(线性模型、神经网络等)的输入,这些回归器输出原子能量和力。
特征是空间坐标的可微函数,因此可以计算力:
F i = − d E t o t d R i = − ∑ j , α ∂ E j ∂ G j , α ∂ G j , α ∂ R i \mathbf{F_i} = - \frac{d E_{tot}}{d \mathbf{R_i}} = - \sum_{j,\alpha} \frac{\partial E_j}{\partial G_{j,\alpha}} \frac{\partial G_{j,\alpha}}{ \partial \mathbf{R_i}} F i = − d R i d E t o t = − j , α ∑ ∂ G j , α ∂ E j ∂ R i ∂ G j , α
其中,j j j 是在截断半径内的近邻原子的索引,α \alpha α 是特征的索引。
注意:特征需要满足旋转、平移和置换不变性。
给定一个中心原子,利用分断余弦函数来描述其局部环境。通过下面的图表,可以大致了解它们的原理。
我们首先定义分段余弦函数,分别用于两体和三体特征。给定内部和外部截断 R i n n e r R_{inner} R inn er 和 R o u t e r R_{outer} R o u t er ,基函数的阶数 M M M ,分段函数的宽度 h h h ,以及中心原子 i i i 和近邻原子 j j j 之间的原子间距 R i j R_{ij} R ij ,我们定义基函数为
ϕ α ( R i j ) = { 1 2 cos ( R i j − R α h π ) + 1 2 , ∣ R i j − R α ∣ < h 0 , otherwise \phi_\alpha (R_{ij}) =
\begin{cases}
\frac{1}{2}\cos(\frac{R_{ij}-R_{\alpha}}{h}\pi) + \frac{1}{2} &, |R_{ij} - R_{\alpha}| < h \\
0 &, \text{otherwise} \\
\end{cases} ϕ α ( R ij ) = { 2 1 cos ( h R ij − R α π ) + 2 1 0 , ∣ R ij − R α ∣ < h , otherwise
其中
R α = R i n n e r + ( α − 1 ) h , α = 1 , 2 , . . . , M R_{\alpha} = R_{inner} + (\alpha - 1) h,\ \alpha = 1,2,...,M R α = R inn er + ( α − 1 ) h , α = 1 , 2 , ... , M
中心原子 i i i 的 两体特征 表达式为
G α , i = ∑ m ϕ α ( R i j ) G_{\alpha,i} = \sum_{m} \phi_{\alpha}(R_{ij}) G α , i = m ∑ ϕ α ( R ij )
而 三体特征 表达式为
G α β γ , i = ∑ j , k ϕ α ( R i j ) ϕ β ( R i k ) ϕ γ ( R j k ) G_{\alpha\beta\gamma,i} = \sum_{j,k} \phi_{\alpha}(R_{ij}) \phi_{\beta}(R_{ik}) \phi_{\gamma}(R_{jk}) G α β γ , i = j , k ∑ ϕ α ( R ij ) ϕ β ( R ik ) ϕ γ ( R jk )
其中 ∑ m \sum_{m} ∑ m 和 ∑ m , n \sum_{m,n} ∑ m , n 分别表示在中心原子 i i i 的截断半径 R o u t e r R_{outer} R o u t er 内的所有原子的求和。
这两个特征通常是成对使用的。
参考文献 :
Huang, Y., Kang, J., Goddard, W. A. & Wang, L.-W. Density functional theory based neural network force fields from energy decompositions. Phys. Rev. B 99, 064103 (2019)
这两个特征是 Behler-Parrinello 神经网络中首次使用的特征。给定截断半径 R c R_c R c 及中心原子 i i i 和近邻原子 j j j 之间的原子间距 R i j R_{ij} R ij ,定义截断函数 f c f_c f c
f c ( R i j ) = { 1 2 cos ( π R i j R c ) + 1 2 , R i j < R c 0 , otherwise f_c(R_{ij}) =
\begin{cases}
\frac{1}{2}\cos(\frac{\pi R_{ij}}{R_c}) + \frac{1}{2} &, R_{ij} < R_c \\
0 &, \text{otherwise} \\
\end{cases} f c ( R ij ) = { 2 1 cos ( R c π R ij ) + 2 1 0 , R ij < R c , otherwise
中心原子 i i i 的 两体高斯 特征定义为
G i = ∑ j ≠ i e ( − η ( R i j − R s ) 2 ) f c ( R i j ) G_i = \sum_{j \neq i} e^{(-\eta(R_{ij} - R_s)^2)} f_c (R_{ij}) G i = j = i ∑ e ( − η ( R ij − R s ) 2 ) f c ( R ij )
其中 η \eta η 和 R s R_s R s 是用户定义的参数。
中心原子 i i i 的 三体高斯 特征定义为
G i = 2 1 − ζ ∑ j , k ≠ i ( 1 + λ cos θ i j k ) ζ e − η ( R i j 2 + R i k 2 + R j k 2 ) f c ( R i j ) f c ( R i k ) f c ( R j k ) G_i = 2^{1-\zeta} \sum_{j,k \neq i} (1+\lambda \cos \theta_{ijk} )^\zeta\ e^{-\eta(R_{ij}^2 + R_{ik}^2 + R_{jk}^2)} f_c (R_{ij}) f_c (R_{ik}) f_c (R_{jk}) G i = 2 1 − ζ j , k = i ∑ ( 1 + λ cos θ ijk ) ζ e − η ( R ij 2 + R ik 2 + R jk 2 ) f c ( R ij ) f c ( R ik ) f c ( R jk )
其中
cos θ i j k = R i j ⋅ R i k ∣ R i j ∣ ∣ R i k ∣ \cos \theta_{ijk} = \frac{\mathbf{R_{ij}} \cdot \mathbf{R_{ik}}}{|\mathbf{R_{ij}}||\mathbf{R_{ik}}|} cos θ ijk = ∣ R ij ∣∣ R ik ∣ R ij ⋅ R ik
η \eta η 、ζ \zeta ζ 和 λ = ± 1 \lambda = \pm1 λ = ± 1 是用户定义的参数。
这两个特征通常是成对使用的。
参考文献 :
J. Behler and M. Parrinello, Generalized Neural-Network Representation of High Dimensional Potential-Energy Surfaces. Phys. Rev. Lett. 98, 146401 (2007)
在 MTP 中,中心原子 i i i 的局部环境由
n i = ( z i , z j , r i j ) \mathbf{n_i} = (z_i, z_j, \mathbf{r_{ij}}) n i = ( z i , z j , r ij )
定义,其中 z i z_i z i 是中心原子的原子类型,z j z_j z j 是近邻原子的原子类型,r i j \mathbf{r_{ij}} r ij 是近邻原子的相对坐标。接下来,每个原子的能量贡献被展开为
E i ( n i ) = ∑ α c α B α ( n i ) E_i(\mathbf{n_i}) = \sum_\alpha c_\alpha B_\alpha(\mathbf{n_i}) E i ( n i ) = α ∑ c α B α ( n i )
其中 B α B_\alpha B α 是用户选择的基函数,c α c_\alpha c α 是待拟合的参数。
为了构造基函数,我们引入矩张量 M μ ν M_{\mu\nu} M μν 来定义基函数
M μ ν ( n i ) = ∑ j f μ ( ∣ r i j ∣ , z i , z j ) ⨂ ν r i j M_{\mu\nu} (\mathbf{n_i}) = \sum_j f_\mu (|\mathbf{r_{ij}}|,z_i,z_j) \bigotimes_\nu \mathbf{r_{ij}} M μν ( n i ) = j ∑ f μ ( ∣ r ij ∣ , z i , z j ) ν ⨂ r ij
这些矩张量包含径向和角度部分。径向部分可以展开为
f μ ( ∣ r i j ∣ , z i , z j ) = ∑ β c μ , z i , z j ( β ) Q ( β ) ( ∣ r i j ∣ ) f_\mu (|\mathbf{r_{ij}}|,z_i,z_j) = \sum_\beta c^{(\beta)}_{\mu,z_i,z_j} Q^{(\beta)}(|\mathbf{r_{ij}}|) f μ ( ∣ r ij ∣ , z i , z j ) = β ∑ c μ , z i , z j ( β ) Q ( β ) ( ∣ r ij ∣ )
其中 Q ( β ) ( ∣ r i j ∣ ) Q^{(\beta)}(|\mathbf{r_{ij}}|) Q ( β ) ( ∣ r ij ∣ ) 是径向基函数。具体地,
Q ( β ) ( ∣ r i j ∣ ) = { ϕ ( β ) ( ∣ r i j ∣ ) ( R c u t − ( ∣ r i j ∣ ) ) 2 , ( ∣ r i j ∣ ) < R c u t 0 , otherwise Q^{(\beta)}(|\mathbf{r_{ij}}|) =
\begin{cases}
\phi^{(\beta)}(|\mathbf{r_{ij}}|) (R_{cut} - (|\mathbf{r_{ij}}|))^2 &, (|\mathbf{r_{ij}}|) < R_{cut} \\
0 &,\text{otherwise}
\end{cases} Q ( β ) ( ∣ r ij ∣ ) = { ϕ ( β ) ( ∣ r ij ∣ ) ( R c u t − ( ∣ r ij ∣ ) ) 2 0 , ( ∣ r ij ∣ ) < R c u t , otherwise
其中 ϕ ( β ) \phi^{(\beta)} ϕ ( β ) 是定义在区间 [R m i n , R c u t R_{min},R_{cut} R min , R c u t ] 上的多项式(例如切比雪夫多项式)。
角度部分由 ⨂ ν r i j \bigotimes_\nu \mathbf{r_{ij}} ⨂ ν r ij 给出,它表示对 r i j \mathbf{r_{ij}} r ij 进行 ν \nu ν 次张量积,包含了近邻 n i \mathbf{n_i} n i 的角度信息。ν \nu ν 决定了矩张量的秩。当 ν = 0 \nu=0 ν = 0 时,得到一个常数标量;当 ν = 1 \nu=1 ν = 1 时,得到一个向量(秩-1 张量);当 ν = 2 \nu=2 ν = 2 时,得到一个矩阵(秩-2 张量);以此类推。
最后,我们定义矩张量的级数为
l e v ( M μ ν ) = 2 + 4 μ + ν lev(M_{\mu \nu}) = 2 + 4\mu + \nu l e v ( M μν ) = 2 + 4 μ + ν
这是一个经验公式。
参考文献 :
I.S. Novikov, etal, The MLIP package: moment tensor potential with MPI and active learning. Mach. Learn.: Sci. Technol, 2, 025002 (2021)
在 SNAP 中,不使用高斯基函数。因此不计算两个 原子局域环境图之间的距离和核函数。它首先定义一个原子局域环境,然后使用球谐函数(或 4D 球,带有旋转矩阵)来展开原子局域环境。然后使用双谱,使其具有旋转不变性。从某种意义上说,它类似于 MTP,但它使用一种特殊的方法来缩并方向指数,使其具有旋转不变性。它通常与线性回归一起使用。
首先,它定义位于 r \mathbf{r} r 处的中心原子 i i i 的邻近原子周围的原子局域环境为三维空间中的 δ \delta δ 函数之和:
ρ ( r ) = δ ( r ) + ∑ r k i < R C f C ( r k i ) ω k δ ( r − r k i ) \rho(\mathbf{r}) = \delta({\mathbf{r}}) + \sum_{\mathbf{r}_{ki}\lt R_C}f_C(\mathbf{r}_{ki})\omega_k\delta(\mathbf{r}-\mathbf{r}_{ki}) ρ ( r ) = δ ( r ) + r ki < R C ∑ f C ( r ki ) ω k δ ( r − r ki )
其中 r k i \mathbf{r}_{ki} r ki 是原子 i i i 的第 k k k 个近邻的位置,ω k \omega_k ω k 是第 k k k 个近邻的权重,径向函数 f C ( r k i ) f_C(\mathbf{r}_{ki}) f C ( r ki ) 确保每个近邻的贡献在截断半径 R C R_C R C 附近平滑地变为零:
f C ( r ) = 0.5 [ cos ( π r R C ) + 1 ] f_C(\mathbf{r}) = 0.5\left[\cos\left(\frac{\pi r}{R_C}\right)+1\right] f C ( r ) = 0.5 [ cos ( R C π r ) + 1 ]
这个原子局域环境函数的角部分可以用球谐函数展开,球谐函数定义在 l = 0 , 1 , 2 , . . . l = 0, 1, 2, ... l = 0 , 1 , 2 , ... 和 m = − l , − l + 1 , . . . , l − 1 , l m = -l, -l+1, ..., l-1, l m = − l , − l + 1 , ... , l − 1 , l 的基础上。径向分布通常由一组径向基函数表示。然而,在这里,径向信息 r \mathbf{r} r 被映射到 4D 超球面函数 U m m ′ j ( θ 0 , θ , ϕ ) U^j_{mm^{'}}(\theta_0,\theta,\phi) U m m ′ j ( θ 0 , θ , ϕ ) 中,其中所有点(邻近原子)落入 3D 球面(在 4D 空间中),定向(角度)信息由三个角度给出:
r ≡ ( x y z ) → ϕ = arctan ( y / x ) θ = arccos ( z / r ) θ 0 = 3 4 π r / r c \mathbf{r} \equiv \begin{pmatrix} x \\ y \\ z \end{pmatrix} \rightarrow \begin{matrix} \phi = \arctan(y/x) \\ \theta = \arccos(z/\mathbf{r}) \\ \theta_0 = \frac{3}{4} \pi \mathbf{r} / \mathbf{r}_{c} \end{matrix} r ≡ x y z → ϕ = arctan ( y / x ) θ = arccos ( z / r ) θ 0 = 4 3 π r / r c
因此,上述原子局域环境函数可以用这些 4D 超球面函数 U m m ′ j ( θ 0 , θ , ϕ ) U^j_{mm^{'}}(\theta_0,\theta,\phi) U m m ′ j ( θ 0 , θ , ϕ ) 展开,展开系数为 u m m ′ j u^j_{mm^{'}} u m m ′ j :
ρ ( r ) = ∑ j = 0 , 1 2 , 1 , . . . ∞ ∑ m = − j , − j + 1 j ∑ m ′ = − j , − j + 1 , . . . j u m m ′ j U m m ′ j ( θ 0 , θ , ϕ ) \rho(\mathbf{r}) = \sum_{j=0,\frac{1}{2},1,...}^\infin \sum_{m=-j, -j+1}^j \sum_{m^{'}=-j,-j+1,...}^j u^j_{mm^{'}} U^j_{mm^{'}}(\theta_0,\theta,\phi) ρ ( r ) = j = 0 , 2 1 , 1 , ... ∑ ∞ m = − j , − j + 1 ∑ j m ′ = − j , − j + 1 , ... ∑ j u m m ′ j U m m ′ j ( θ 0 , θ , ϕ )
使用上述原子局域环境函数,可以计算 u m m ′ j u^j_{mm^{'}} u m m ′ j :
u m m ′ j = U m m ′ j ( 0 , 0 , 0 ) + ∑ r k i < R C f C ( r k i ) ω k U m m ′ j ( θ 0 ( k ) , θ ( k ) , ϕ ( k ) ) u^j_{mm^{'}} = U^j_{mm^{'}}(0,0,0) + \sum_{\mathbf{r}_{ki}\lt R_C}f_C(\mathbf{r}_{ki})\omega_kU^j_{mm^{'}}(\theta_0(k),\theta(k),\phi(k)) u m m ′ j = U m m ′ j ( 0 , 0 , 0 ) + r ki < R C ∑ f C ( r ki ) ω k U m m ′ j ( θ 0 ( k ) , θ ( k ) , ϕ ( k ))
其中,k k k 是邻近原子的索引,θ 0 ( k ) , θ ( k ) , ϕ ( k ) \theta_0(k),\theta(k),\phi(k) θ 0 ( k ) , θ ( k ) , ϕ ( k ) 是原子 i i i 的第 k k k 个近邻的位置矢量的三个角度。注意,u m m ′ j u^j_{mm^{'}} u m m ′ j 是由于其指数 m , m ′ m, m^{'} m , m ′ 而具有方向依赖性。它们可以与下面的缩并公式(使用三个 u m m ′ j u^j_{mm^{'}} u m m ′ j )缩并:
F ( j 1 , j 2 , j ) = ∑ m 1 , m 1 ′ = − j 1 j ∑ m 2 , m 2 ′ = − j 2 j ∑ m , m ′ = − j j ( u m m ′ j ) ∗ u m 1 m 1 ′ j 1 u m 2 m 2 ′ j 2 × C j 1 m 1 j 2 m 2 j m C j 1 m 1 ′ j 2 m 2 ′ j m F(j_1,j_2,j) = \sum^j_{m_1,m_1^{'}=-j_1} \sum^j_{m_2,m_2^{'}=-j_2} \sum^j_{m,m^{'}=-j} (u^{j}_{mm^{'}})^{*}u^{j_1}_{m_1m_1^{'}} u^{j_2}_{m_2m_2^{'}} \times C_{j_1 m_1 j_2 m_2}^{jm} C_{j_1 m_1^{'} j_2 m_2^{'}}^{jm} F ( j 1 , j 2 , j ) = m 1 , m 1 ′ = − j 1 ∑ j m 2 , m 2 ′ = − j 2 ∑ j m , m ′ = − j ∑ j ( u m m ′ j ) ∗ u m 1 m 1 ′ j 1 u m 2 m 2 ′ j 2 × C j 1 m 1 j 2 m 2 jm C j 1 m 1 ′ j 2 m 2 ′ jm
这里,C j 1 m 1 j 2 m 2 j m C j 1 m 1 ′ j 2 m 2 ′ j m C_{j_1 m_1 j_2 m_2}^{jm} C_{j_1 m_1^{'} j_2 m_2^{'}}^{jm} C j 1 m 1 j 2 m 2 jm C j 1 m 1 ′ j 2 m 2 ′ jm 是 Clebsch-Gordan 系数,最终的标量特征是 F ( j 1 , j 2 , j ) F(j_1,j_2,j) F ( j 1 , j 2 , j ) 。通过设置不同的 j 1 , j 2 , j j_1,j_2,j j 1 , j 2 , j ,可以产生不同的特征。注意,在这些特征中,没有径向函数索引,而是有三个角动量索引。这是因为我们已经将径向距离信息转换为 3D 球面中的第三个角度信息。
这个特征类似于 DP 的嵌入网络。它使用切比雪夫多项式作为基础。
首先,我们将 S ( r i j ) S(\mathbf{r}_{ij}) S ( r ij ) 定义为加权的距离的倒数函数:
S ( r ) = f C ( r ) r S(\mathbf{r}) = \frac{f_C(\mathbf{r})}{\mathbf{r}} S ( r ) = r f C ( r )
f C ( r ) = { 1 , r < R C 2 1 2 cos ( π r − R C 2 R c − R C 2 ) + 1 2 , R C 2 ≤ r < R C 0 , r > R C f_C(\mathbf{r}) = \Bigg\lbrace{\begin{matrix} 1, \qquad\qquad\qquad \mathbf{r} \lt R_{C_2}\\ \frac{1}{2} \cos(\pi \frac{\mathbf{r} - R_{C_2}}{R_c - R_{C_2}}) + \frac{1}{2}, \quad R_{C_2} \leq \mathbf{r} \lt R_C \\ 0, \qquad\qquad\qquad \mathbf{r} \gt R_C \end{matrix}} f C ( r ) = { 1 , r < R C 2 2 1 cos ( π R c − R C 2 r − R C 2 ) + 2 1 , R C 2 ≤ r < R C 0 , r > R C
这里,R C 2 R_{C_2} R C 2 是一个平滑的截断参数,它允许在由 R C R_C R C 定义的局部区域的边界上平滑地将 r i \mathbf{r_i} r i 的分量减小到零。这个平滑函数比之前使用的 R C 2 R_{C_2} R C 2 更复杂一些。S ( r j i ) S(\mathbf{r}_{ji}) S ( r ji ) 减小了远离中心原子 i i i 的原子的权重。然后,我们定义径向函数 g M ( s ) g_M(s) g M ( s ) 为深度势能切比雪夫特征 中的切比雪夫多项式 C M C_M C M :
g M ( s ) = C M ( 2 R m i n S − 1 ) . g_M(s) = C_M(2R_{min} S - 1). g M ( s ) = C M ( 2 R min S − 1 ) .
这里,R m i n R_{min} R min 是最小 r \mathbf{r} r 的输入。
为了构造这样的特征,我们首先计算四个分量的向量:
T M ( k ) = ∑ r j i < R C X ^ j i ( k ) S ( r j i ) g M ( S ( r j i ) ) T_M(k) = \sum_{\mathbf{r}_{ji} \lt R_C} \hat{X}_{ji}(k) S(\mathbf{r}_{ji}) g_M(S(\mathbf{r}_{ji})) T M ( k ) = r ji < R C ∑ X ^ ji ( k ) S ( r ji ) g M ( S ( r ji ))
这里,k = 0 , 1 , 2 , 3 k = 0,1,2,3 k = 0 , 1 , 2 , 3 (四分量向量)。它们是由通常的 x , y , z x,y,z x , y , z 分量构成的,再加上 S S S 分量:
{ x j i , y j i , z j i } → { S ( r j i ) , x ^ j i , y ^ j i , z ^ j i } \{ x_{ji}, y_{ji}, z_{ji}\} \rightarrow \{ S(\mathbf{r}_{ji}), \hat x_{ji}, \hat y_{ji}, \hat z_{ji} \} { x ji , y ji , z ji } → { S ( r ji ) , x ^ ji , y ^ ji , z ^ ji }
其中 x ^ j i = X j i r j i , y ^ j i = Y j i r j i , z ^ j i = Z j i r j i \hat x_{ji} = \frac{X_{ji}}{\mathbf{r}_{ji}}, \hat y_{ji} = \frac{Y_{ji}}{\mathbf{r}_{ji}}, \hat z_{ji} = \frac{Z_{ji}}{\mathbf{r}_{ji}} x ^ ji = r ji X ji , y ^ ji = r ji Y ji , z ^ ji = r ji Z ji 是 r j i \mathbf{r}_{ji} r ji 的单位向量。
从这些 4D 向量中,我们可以缩并分量索引以得到标量特征:
F ( M 1 , M 2 ) = ∑ k = 0 3 T M 1 ( k ) T M 2 ( k ) F(M_1,M_2) = \sum_{k=0}^3 T_{M_1}(k) T_{M_2}(k) F ( M 1 , M 2 ) = k = 0 ∑ 3 T M 1 ( k ) T M 2 ( k )
这里,M 1 M_1 M 1 也编码了除切比雪夫外的原子类型的数量。因此,如果最大切比雪夫阶数是 M M M ,特征的数量是 M ⋅ n t y p e ⋅ ( M ⋅ n t y p e + 1 ) / 2 M \cdot n_{type} \cdot (M \cdot n_{type} +1 ) / 2 M ⋅ n t y p e ⋅ ( M ⋅ n t y p e + 1 ) /2 。我们可以通过设置不同的 M M M 来产生不同的特征。
这个特征类似于 DP-Chebyshev,但我们使用高斯函数代替切比雪夫多项式,并且位置和宽度参数由用户指定。
类似于 DP-Chebyshev,4D 向量构造如下:
T M ( k ) = ∑ r j i < R C X ^ j i ( k ) g M ( r j i ) T_M(k) = \sum_{\mathbf{r}_{ji} \lt R_C} \hat {X}_{ji}(k) g_M(\mathbf{r}_{ji}) T M ( k ) = r ji < R C ∑ X ^ ji ( k ) g M ( r ji )
X ^ ( 0 ) = S ( r ′ ) , X ^ ( 1 ) = x r , X ^ ( 2 ) = y r , X ^ ( 3 ) = z r \hat X(0) = S(\mathbf{r}^{'}), \hat X(1) = \frac{x}{\mathbf{r}}, \hat X(2) = \frac{y}{\mathbf{r}}, \hat X(3) = \frac{z}{\mathbf{r}} X ^ ( 0 ) = S ( r ′ ) , X ^ ( 1 ) = r x , X ^ ( 2 ) = r y , X ^ ( 3 ) = r z
g M ( r ) = f C ( r ) ⋅ exp ( − ( r − r M ) ω M ) g_M(\mathbf{r}) = f_C(\mathbf{r}) \ · \exp(-\frac{(\mathbf{r} - r_M)}{\omega M}) g M ( r ) = f C ( r ) ⋅ exp ( − ω M ( r − r M ) )
f C ( r ) = 1 2 cos ( π r R C ) + 1 2 f_C(\mathbf{r}) = \frac{1}{2} \cos(\frac{\pi \mathbf{r}}{R_C}) + \frac{1}{2} f C ( r ) = 2 1 cos ( R C π r ) + 2 1
缩并过程如下:
F ( M 1 , M 2 ) = ∑ k = 0 3 T M 1 ( k ) T M 2 F(M_1,M_2) = \sum_{k=0}^3 T_{M_1}(k) T_{M_2} F ( M 1 , M 2 ) = k = 0 ∑ 3 T M 1 ( k ) T M 2
这里,M 1 M_1 M 1 也编码了除切比雪夫外的原子类型的数量。因此,如果最大切比雪夫阶数是 M M M ,特征的数量是 M ⋅ n t y p e ⋅ ( M ⋅ n t y p e + 1 ) / 2 M \cdot n_{type} \cdot (M \cdot n_{type} +1 ) / 2 M ⋅ n t y p e ⋅ ( M ⋅ n t y p e + 1 ) /2 。我们可以通过设置不同的 M M M 来产生不同的特征。