```markdown

Python 中 pd.read_excel 使用指南

在 Python 中，使用 pandas 库的 pd.read_excel() 函数可以轻松地读取 Excel 文件（包括 .xls 和 .xlsx 格式）。本篇文章将介绍如何使用 pd.read_excel() 读取 Excel 文件，并处理其中的数据。

安装 pandas 和 openpyxl

首先，确保安装了 pandas 库以及用于处理 Excel 文件的 openpyxl 库。可以通过以下命令进行安装：

bash pip install pandas openpyxl

基本用法

1. 读取 Excel 文件

```python import pandas as pd

读取默认的第一个工作表

df = pd.read_excel('file.xlsx')

显示数据

print(df) ```

此代码将读取当前目录下名为 file.xlsx 的 Excel 文件，并将其加载为一个 DataFrame 对象。

2. 读取指定工作表

如果 Excel 文件中有多个工作表，且你想读取其中某个特定的工作表，可以使用 sheet_name 参数指定工作表的名称或索引：

```python

通过工作表名称读取

df = pd.read_excel('file.xlsx', sheet_name='Sheet2')

通过工作表索引读取（索引从0开始）

df = pd.read_excel('file.xlsx', sheet_name=1) ```

3. 读取多个工作表

可以通过将 sheet_name 设置为 None 来读取 Excel 文件中的所有工作表。此时，返回的是一个字典，键为工作表名称，值为对应的 DataFrame。

```python dfs = pd.read_excel('file.xlsx', sheet_name=None)

显示所有工作表的数据

for sheet_name, df in dfs.items(): print(f"工作表: {sheet_name}") print(df) ```

参数详解

pd.read_excel() 函数有许多参数可供使用，下面是一些常用的参数说明：

sheet_name: 指定要读取的工作表名称或索引，默认为 0（即第一个工作表）。也可以使用 None 来读取所有工作表。
header: 指定用于列名的行号，默认为 0。如果没有标题行，可以将其设置为 None。
index_col: 指定列用作行索引，默认为 None。
usecols: 用于指定要读取的列，支持列名、列号或者列名范围。
dtype: 用于指定列的数据类型，可以传入字典格式，例如 {'column_name': 'int64'}。
skiprows: 跳过开头的行数。
nrows: 读取指定数量的行。
engine: 指定解析器引擎，可以选择 openpyxl 或 xlrd（注意：xlrd 不支持 .xlsx 格式文件）。

示例：读取特定列和跳过行

```python df = pd.read_excel('file.xlsx', usecols=['A', 'B'], skiprows=2)

print(df) ```

该代码会读取 Excel 文件的 A 和 B 列，并跳过前两行。

处理 Excel 中的日期和缺失值

1. 解析日期

如果 Excel 文件中包含日期列，pandas 会自动将其解析为日期格式。你可以通过 parse_dates 参数指定哪些列应当被解析为日期。

```python df = pd.read_excel('file.xlsx', parse_dates=['date_column'])

print(df) ```

2. 处理缺失值

在读取 Excel 文件时，pandas 会自动处理一些常见的缺失值标记（如 NaN 或空值）。你可以使用 na_values 参数自定义缺失值的标记。

```python df = pd.read_excel('file.xlsx', na_values=['NA', 'missing'])

print(df) ```

读取 Excel 文件的进阶技巧

1. 读取指定范围的数据

如果只想读取 Excel 文件中的某一部分数据，可以使用 skiprows 和 nrows 参数来指定读取的范围。

```python

跳过前两行，读取接下来的五行

df = pd.read_excel('file.xlsx', skiprows=2, nrows=5)

print(df) ```

2. 设置列名

如果 Excel 文件中没有列名或者列名不正确，你可以通过 names 参数提供一个自定义的列名列表。

```python df = pd.read_excel('file.xlsx', header=None, names=['A', 'B', 'C'])

print(df) ```

总结

pd.read_excel() 是 pandas 库中一个非常强大的函数，能够帮助我们从 Excel 文件中读取数据。通过灵活使用各个参数，可以轻松地处理各种 Excel 文件，包括不同工作表的读取、日期处理、缺失值处理等。掌握这些技巧后，你可以更加高效地使用 Excel 数据进行数据分析和处理。

```

热搜
行业
快讯
专题