Statsmodels 0 14 4 Statsmodels 文档

Leo Migdal

-Dec 4, 2025, 9:14 AM

statsmodels 是一个 Python 模块，提供用于估计各种统计模型的类和函数，以及用于进行统计检验和统计数据探索的类和函数。每个估计器都提供广泛的统计结果列表。结果经过测试，与现有的统计包进行比较，以确保其正确性。该包是在开源的 Modified BSD (3-clause) 许可下发布的。在线文档托管在 statsmodels.org。 statsmodels 支持使用 R 风格公式和 pandas DataFrame 来指定模型。以下是一个使用普通最小二乘法的简单示例查看 dir(results) 以查看可用的结果。属性在 results.__doc__ 中描述，结果方法有自己的文档字符串。 Seabold, Skipper 和 Josef Perktold。 "statsmodels：Python 的计量经济学和统计建模。” 第九届 Python in Science 大会论文集。 2010 年。 statsmodels is using github to store the updated documentation. Two version are available:

Development, the latest build of the main branch API stability is not guaranteed for new features, although even in this case changes will be made in a backwards compatible way if possible. The stability of a new feature depends on how much time it was already in statsmodels main and how much usage it has already seen. If there are specific known problems or limitations, then they are mentioned in the docstrings. This release bring official Pyodide support to a statsmodel release. It is otherwise identical to the previous release.

Special thanks to Agriya Khetarpal for working through Pyodide-specific issues, and improving other areas of statsmodels while doing so. 从 0.5.0 版本开始，statsmodels 允许用户使用 R 风格公式拟合统计模型。在内部，statsmodels 使用 patsy 包将公式和数据转换为用于模型拟合的矩阵。公式框架非常强大；本教程只触及了皮毛。在 patsy 文档中可以找到公式语言的完整描述请注意，除了通常的 statsmodels.api 之外，我们还调用了 statsmodels.formula.api。实际上，statsmodels.api 在这里只用于加载数据集。 formula.api 包含了许多与 api 中相同的函数（例如 OLS、GLM），但它也为大多数这些模型保留了小写形式的对应函数。一般来说，小写模型接受 formula 和 df 参数，而大写模型则采用 endog 和 exog 设计矩阵。 formula 接受一个字符串，该字符串以 patsy 公式的形式描述模型。 df 接受一个 pandas 数据帧。支持公式的模型具有以下通用调用签名：(formula, data, subset=None, *args, **kwargs) 首先，我们拟合了入门页面上描述的线性模型。下载数据、子集列，并进行列表级删除以移除缺失观测值查看上面打印的摘要，请注意 patsy 确定了 *Region* 的元素是文本字符串，因此它将 *Region* 视为分类变量。 patsy 的默认值也是包含截距，因此我们自动删除了 *Region* 类别之一。

一个简单的例子是使用 AR(1) 模型来预测通货膨胀。在预测之前，让我们先看一下这个序列下一步是制定我们想要用于预测的计量经济模型。在本例中，我们将使用 statsmodels 中的 SARIMAX 类来使用 AR(1) 模型。构建模型后，我们需要估计其参数。这是使用 fit 方法完成的。 summary 方法生成了一些方便的表格，显示了结果。使用结果对象中的 forecast 或 get_forecast 方法生成样本外预测。默认置信水平为 95%，但可以通过设置 alpha 参数来控制，其中置信水平定义为 \((1 - \alpha) \times 100\%\)。在上面的例子中，我们指定了 90% 的置信水平，使用 alpha=0.10。这个非常简单的案例研究旨在帮助您快速上手使用 statsmodels。从原始数据开始，我们将展示估计统计模型和绘制诊断图所需的步骤。我们只使用 statsmodels 或其 pandas 和 patsy 依赖项提供的函数。

pandas 基于 numpy 数组提供丰富的数据结构和数据分析工具。 pandas.DataFrame 函数提供标记的 (可能异构的) 数据数组，类似于 R 的“data.frame”。pandas.read_csv 函数可用于将逗号分隔值文件转换为 DataFrame 对象。 patsy 是一个 Python 库，用于描述统计模型和使用类似于 R 的公式构建设计矩阵。本示例使用 API 接口。有关导入 API 接口 (statsmodels.api 和 statsmodels.tsa.api) 与直接从定义模型的模块导入之间的区别，请参见导入路径和结构。我们下载了Guerry 数据集，这是一个用于支持 Andre-Michel Guerry 1833 年的《法国道德统计学论文》的历史数据集合。该数据集以逗号分隔值格式 (CSV) 形式托管在Rdatasets 存储库中。我们可以将文件下载到本地，然后使用 read_csv 加载它，但是 pandas 会自动为我们完成所有这些操作 statsmodels is a Python module that provides classes and functions for the estimation of many different statistical models, as well as for conducting statistical tests, and statistical data exploration. An extensive list of result statistics are available for each estimator.

The results are tested against existing statistical packages to ensure that they are correct. The package is released under the open source Modified BSD (3-clause) license. The online documentation is hosted at statsmodels.org. statsmodels supports specifying models using R-style formulas and pandas DataFrames. Here is a simple example using ordinary least squares: You can also use numpy arrays instead of formulas:

Have a look at dir(results) to see available results. Attributes are described in results.__doc__ and results methods have their own docstrings. Please use following citation to cite statsmodels in scientific publications: statsmodels.api: 横截面模型和方法。通常使用 import statsmodels.api as sm 导入。 statsmodels.tsa.api: 时间序列模型和方法。通常使用 import statsmodels.tsa.api as tsa 导入。 statsmodels.formula.api: 用于使用公式字符串和 DataFrame 指定模型的便捷接口。此 API 直接公开支持公式 API 的模型的 from_formula 类方法。通常使用 import statsmodels.formula.api as smf 导入

API 重点关注模型以及最常用的统计检验和工具。导入路径和结构解释了这两个 API 模块的设计以及如何从 API 导入与直接从定义模型的模块导入的不同之处。有关可用模型、统计信息和工具的完整列表，请参阅用户指南中的详细主题页面。 WLS(endog, exog[, weights, missing, hasconst]) 在现实生活中，响应变量和目标变量之间的关系很少是线性的。在这里，我们利用 statsmodels 的输出可视化并识别将线性回归模型拟合到非线性关系时可能出现的潜在问题。主要目标是重现 James 等人著作的统计学习导论 (ISLR) 书籍中“潜在问题”部分 (第 3.3.3 章) 中讨论的可视化方法，Springer 出版。落在 Cook 距离曲线之外的点被认为是会影响拟合的观测值，也就是有影响力的观测值。高杠杆率准则也可以使用以下惯例显示：\(h_{ii} > {2p \over n}\).

People Also Search

Statsmodels 是一个 Python 模块，提供用于估计各种统计模型的类和函数，以及用于进行统计检验和统计数据探索的类和函数。每个估计器都提供广泛的统计结果列表。结果经过测试，与现有的统计包进行比较，以确保其正确性。该包是在开源的 Modified BSD (3-clause) 许可下发布的。在线文档托管在 Statsmodels.org。 Statsmodels

Statsmodels 0 14 4 Statsmodels 文档

People Also Search

Development, The Latest Build Of The Main Branch API Stability

Special Thanks To Agriya Khetarpal For Working Through Pyodide-specific Issues,

一个简单的例子是使用 AR(1) 模型来预测通货膨胀。在预测之前，让我们先看一下这个序列下一步是制定我们想要用于预测的计量经济模型。在本例中，我们将使用 Statsmodels 中的 SARIMAX 类来使用 AR(1) 模型。

Pandas 基于 Numpy 数组提供丰富的数据结构和数据分析工具。 Pandas.DataFrame 函数提供标记的 (可能异构的) 数据数组，类似于 R

Statsmodels 0 14 4 Statsmodels 文档

People Also Search

Development, The Latest Build Of The Main Branch API Stability

Special Thanks To Agriya Khetarpal For Working Through Pyodide-specific Issues,

一个简单的例子是使用 AR(1) 模型来预测通货膨胀。在预测之前，让我们先看一下这个序列 下一步是制定我们想要用于预测的计量经济模型。在本例中，我们将使用 Statsmodels 中的 SARIMAX 类来使用 AR(1) 模型。

Pandas 基于 Numpy 数组提供丰富的 数据结构和数据分析工具。 Pandas.DataFrame 函数提供标记的 (可能异构的) 数据数组，类似于 R

一个简单的例子是使用 AR(1) 模型来预测通货膨胀。在预测之前，让我们先看一下这个序列下一步是制定我们想要用于预测的计量经济模型。在本例中，我们将使用 Statsmodels 中的 SARIMAX 类来使用 AR(1) 模型。

Pandas 基于 Numpy 数组提供丰富的数据结构和数据分析工具。 Pandas.DataFrame 函数提供标记的 (可能异构的) 数据数组，类似于 R