numpy.polynomial.polynomial.polyfit #

多项式.多项式. polyfit ( x , y , deg , rcond = None , full = False , w = None ) [来源] #

多项式与数据的最小二乘拟合。

返回deg 次多项式的系数，该多项式是与点x处给定的数据值y的最小二乘拟合。如果y是 1-D，则返回的系数也将是 1-D。如果y是二维的，则进行多次拟合，y的每一列进行一次拟合，并且结果系数存储在二维返回的相应列中。拟合多项式的形式为

\[p(x) = c_0 + c_1 * x + ... + c_n * x^n,\]

其中n是deg。

参数：

x类似数组，形状 ( M ,): M 个样本（数据）点的 x 坐标。(x[i], y[i])
y类似数组，形状 ( M ,) 或 ( M , K ): 样本点的 y 坐标。通过为ypolyfit传递一个每列包含一个数据集的二维数组，可以（独立地）通过一次调用来拟合共享相同 x 坐标的多组样本点。
deg int 或一维 array_like: 拟合多项式的次数。如果deg是单个整数，则所有直到第 deg 项（包括第 deg项在内）的项都包含在拟合中。对于 NumPy 版本 >= 1.11.0，可以使用指定要包含的项的度数的整数列表。
rcond浮动，可选: 拟合的相对条件数。相对于最大奇异值小于rcond 的奇异值将被忽略。默认值为len(x)*eps，其中eps是平台 float 类型的相对精度，大多数情况下约为 2e-16。
满布尔值，可选: 开关决定返回值的性质。当False （默认）仅返回系数时；当时True，还返回来自奇异值分解的诊断信息（用于求解拟合的矩阵方程）。
w array_like，形状（M，），可选: 重量。如果不是“无”，则权重适用于处的w[i]未平方残差。理想情况下，选择权重以使产品的误差都具有相同的方差。当使用逆方差加权时，使用。默认值为无。y[i] - y_hat[i]x[i]w[i]*y[i]w[i] = 1/sigma(y[i])

1.5.0 版本中的新增内容。

返回：

coef ndarray，形状 ( deg + 1,) 或 ( deg + 1, K )

多项式系数从低到高排序。如果y是二维的，则coef的k列中的系数表示与y的第k列中的数据拟合的多项式。

[残差、等级、奇异值、rcond]列表

仅在以下情况下才返回这些值full == True

残差 – 最小二乘拟合的残差平方和
等级 – 缩放范德蒙德矩阵的数值等级
Single_values – 缩放 Vandermonde 矩阵的奇异值
rcond – rcond的值。

有关更多详细信息，请参阅numpy.linalg.lstsq。

加薪：

排名警告

如果最小二乘拟合中的矩阵存在秩不足，则引发该错误。仅在以下情况下才会发出警告。可以通过以下方式关闭警告：full == False

>>> import warnings
>>> warnings.simplefilter('ignore', np.RankWarning)

也可以看看

numpy.polynomial.chebyshev.chebfit
numpy.polynomial.legendre.legfit
numpy.polynomial.laguerre.lagfit
numpy.polynomial.hermite.hermfit
numpy.polynomial.hermite_e.hermefit
polyval: 计算多项式。
polyvander: 范德蒙德幂矩阵。
numpy.linalg.lstsq: 根据矩阵计算最小二乘拟合。
scipy.interpolate.UnivariateSpline: 计算样条拟合。

笔记

解是使加权平方误差之和最小化的多项式p的系数

\[E = \sum_j w_j^2 * |y_j - p(x_j)|^2,\]

哪里的\(w_j\)是权重。该问题通过建立（通常）超定矩阵方程来解决：

\[V(x) * c = w * y,\]

其中V是x的加权伪范德蒙矩阵，c是要求解的系数，w是权重，y是观测值。然后使用V的奇异值分解求解该方程。

如果V的某些奇异值太小而被忽略（并且full== False），则 aRankWarning将被提高。这意味着系数值的确定可能很差。拟合较低阶多项式通常会消除警告（但当然可能不是您想要的；如果您有独立的理由选择不起作用的程度，您可能必须：a）重新考虑这些原因，和/或 b) 重新考虑数据的质量）。rcond参数也可以设置为小于其默认值的值，但结果拟合可能是虚假的，并且舍入误差的贡献很大。

使用双精度的多项式拟合往往在（多项式）次数为 20 左右时“失败”。使用切比雪夫或勒让德级数的拟合通常条件更好，但很大程度上仍然取决于样本点的分布和数据的平滑度。如果配合质量不够，花键可能是一个不错的选择。

例子

>>> np.random.seed(123)
>>> from numpy.polynomial import polynomial as P
>>> x = np.linspace(-1,1,51) # x "data": [-1, -0.96, ..., 0.96, 1]
>>> y = x**3 - x + np.random.randn(len(x))  # x^3 - x + Gaussian noise
>>> c, stats = P.polyfit(x,y,3,full=True)
>>> np.random.seed(123)
>>> c # c[0], c[2] should be approx. 0, c[1] approx. -1, c[3] approx. 1
array([ 0.01909725, -1.30598256, -0.00577963,  1.02644286]) # may vary
>>> stats # note the large SSR, explaining the rather poor results
 [array([ 38.06116253]), 4, array([ 1.38446749,  1.32119158,  0.50443316, # may vary
          0.28853036]), 1.1324274851176597e-014]

同样的事情，没有增加噪音

>>> y = x**3 - x
>>> c, stats = P.polyfit(x,y,3,full=True)
>>> c # c[0], c[2] should be "very close to 0", c[1] ~= -1, c[3] ~= 1
array([-6.36925336e-18, -1.00000000e+00, -4.08053781e-16,  1.00000000e+00])
>>> stats # note the minuscule SSR
[array([  7.46346754e-31]), 4, array([ 1.38446749,  1.32119158, # may vary
           0.50443316,  0.28853036]), 1.1324274851176597e-014]