如何用pandas高效输出数据均值数据分析必备技能详解处理缺失值异常值及结果格式化的实用技巧让你的数据分析报告更加专业赢得职场竞争优势

威震华夏关云长 · 发表于 2025-9-25 11:10:00

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

在数据分析领域，均值是最基础且最常用的统计指标之一。它能够帮助我们快速了解数据的集中趋势，为后续分析提供重要参考。本文将详细介绍如何使用Python的pandas库高效计算和输出数据均值，同时处理数据中的缺失值和异常值，并通过格式化技巧使结果呈现更加专业。掌握这些技能，不仅能提高你的数据分析效率，还能让你的分析报告更具说服力，从而在职场中脱颖而出。

1. Pandas计算均值的基础方法

Pandas是Python数据分析的核心库，它提供了多种计算数据均值的方法。掌握这些基础方法是进行高效数据分析的第一步。

1.1 Series对象的均值计算

对于一维数据（Series对象），计算均值非常简单：

import pandas as pd
import numpy as np
# 创建一个Series对象
s = pd.Series([10, 20, 30, 40, 50])
# 计算均值
mean_value = s.mean()
print(f"Series的均值为: {mean_value}")
# 输出: Series的均值为: 30.0

复制代码

1.2 DataFrame对象的均值计算

对于二维数据（DataFrame对象），我们可以计算各列的均值：

# 创建一个DataFrame对象
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 40, 50],
'C': [100, 200, 300, 400, 500]
})
# 计算各列的均值
column_means = df.mean()
print("各列的均值:")
print(column_means)

复制代码

输出结果：

各列的均值:
A 3.0
B 30.0
C 300.0
dtype: float64

复制代码

我们也可以计算各行的均值：

# 计算各行的均值
row_means = df.mean(axis=1)
print("\n各行的均值:")
print(row_means)

复制代码

输出结果：

各行的均值:
0 37.0
1 74.0
2 111.0
3 148.0
4 185.0
dtype: float64

复制代码

1.3 分组计算均值

在实际数据分析中，我们经常需要根据某个分类变量分组计算均值：

# 创建一个包含分类变量的DataFrame
df_grouped = pd.DataFrame({
'Category': ['A', 'A', 'B', 'B', 'A', 'B'],
'Value': [10, 15, 20, 25, 30, 35]
})
# 按Category分组计算Value的均值
grouped_means = df_grouped.groupby('Category')['Value'].mean()
print("分组均值:")
print(grouped_means)

复制代码

输出结果：

分组均值:
Category
A 18.333333
B 26.666667
Name: Value, dtype: float64

复制代码

2. 高效处理缺失值

现实世界的数据往往不完美，缺失值是常见问题。正确处理缺失值对于计算准确的均值至关重要。

2.1 识别缺失值

首先，我们需要识别数据中的缺失值：

# 创建包含缺失值的DataFrame
df_missing = pd.DataFrame({
'A': [1, 2, np.nan, 4, 5],
'B': [10, np.nan, 30, np.nan, 50],
'C': [100, 200, 300, 400, np.nan]
})
# 检查缺失值
print("缺失值统计:")
print(df_missing.isnull().sum())

复制代码

输出结果：

缺失值统计:
A 1
B 2
C 1
dtype: int64

复制代码

2.2 删除缺失值

最简单的处理方式是删除包含缺失值的行或列：

# 删除包含缺失值的行
df_dropped_rows = df_missing.dropna()
print("\n删除缺失值行后的DataFrame:")
print(df_dropped_rows)
# 删除包含缺失值的列
df_dropped_cols = df_missing.dropna(axis=1)
print("\n删除缺失值列后的DataFrame:")
print(df_dropped_cols)

复制代码

2.3 填充缺失值

删除数据可能会导致信息丢失，更常用的方法是填充缺失值：

# 用0填充缺失值
df_filled_zero = df_missing.fillna(0)
print("\n用0填充缺失值:")
print(df_filled_zero)
# 用均值填充缺失值
df_filled_mean = df_missing.fillna(df_missing.mean())
print("\n用均值填充缺失值:")
print(df_filled_mean)
# 使用前向填充（用前一个非缺失值填充）
df_filled_ffill = df_missing.fillna(method='ffill')
print("\n前向填充:")
print(df_filled_ffill)
# 使用后向填充（用后一个非缺失值填充）
df_filled_bfill = df_missing.fillna(method='bfill')
print("\n后向填充:")
print(df_filled_bfill)

复制代码

2.4 插值法填充缺失值

对于时间序列数据，插值法是处理缺失值的常用方法：

# 创建时间序列数据
date_rng = pd.date_range(start='2020-01-01', end='2020-01-10')
ts = pd.Series([1, 2, np.nan, 4, 5, np.nan, np.nan, 8, 9, 10], index=date_rng)
# 线性插值
ts_linear = ts.interpolate(method='linear')
print("\n线性插值:")
print(ts_linear)
# 时间插值
ts_time = ts.interpolate(method='time')
print("\n时间插值:")
print(ts_time)
# 多项式插值
ts_poly = ts.interpolate(method='polynomial', order=2)
print("\n多项式插值:")
print(ts_poly)

复制代码

3. 处理异常值

异常值可能会严重影响均值的计算结果，因此识别和处理异常值是数据分析的重要步骤。

3.1 识别异常值

常用的异常值识别方法包括Z-score方法和IQR方法：

# 创建包含异常值的DataFrame
np.random.seed(42)
df_outliers = pd.DataFrame({
'Normal': np.random.normal(0, 1, 100),
'With_Outliers': np.append(np.random.normal(0, 1, 95), [10, -10, 15, -15, 20])
})
# Z-score方法识别异常值
from scipy import stats
z_scores = stats.zscore(df_outliers)
abs_z_scores = np.abs(z_scores)
outlier_indices = np.where(abs_z_scores > 3)
print("Z-score方法识别的异常值位置:", outlier_indices)
# IQR方法识别异常值
Q1 = df_outliers.quantile(0.25)
Q3 = df_outliers.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers_iqr = ((df_outliers < lower_bound) | (df_outliers > upper_bound)).any(axis=1)
print("\nIQR方法识别的异常值行:")
print(df_outliers[outliers_iqr])

复制代码

3.2 处理异常值

处理异常值的方法包括删除、替换和转换：

# 删除异常值
df_no_outliers = df_outliers[~outliers_iqr]
print("\n删除异常值后的数据形状:", df_no_outliers.shape)
# 用中位数替换异常值
df_median_replace = df_outliers.copy()
for col in df_median_replace.columns:
median_val = df_median_replace[col].median()
df_median_replace.loc[(df_median_replace[col] < lower_bound[col]) |
(df_median_replace[col] > upper_bound[col]), col] = median_val
print("\n用中位数替换异常值后的数据:")
print(df_median_replace.tail())
# 对数转换处理异常值
df_log_transformed = np.log1p(df_outliers['With_Outliers'].clip(lower=0)) # 确保所有值>0
print("\n对数转换后的数据:")
print(df_log_transformed.tail())

复制代码

3.3 鲁棒统计方法

除了处理异常值，我们还可以使用对异常值不敏感的鲁棒统计方法：

# 计算均值和中位数
mean_val = df_outliers['With_Outliers'].mean()
median_val = df_outliers['With_Outliers'].median()
trimmed_mean = stats.trim_mean(df_outliers['With_Outliers'], 0.1) # 剔除10%的极端值
print(f"均值: {mean_val}")
print(f"中位数: {median_val}")
print(f"修剪均值: {trimmed_mean}")

复制代码

4. 结果格式化的实用技巧

计算完均值后，如何以专业、清晰的方式呈现结果同样重要。

4.1 基本格式化

Pandas提供了多种格式化数值的方法：

# 创建示例数据
df_format = pd.DataFrame({
'Value1': [1234.56789, 2345.6789, 3456.789],
'Value2': [0.123456, 0.234567, 0.345678],
'Percentage': [0.2345, 0.3456, 0.4567]
})
# 设置浮点数精度
pd.set_option('display.float_format', '{:.2f}'.format)
print("设置浮点数精度后的DataFrame:")
print(df_format)
# 重置格式
pd.reset_option('display.float_format')

复制代码

4.2 使用style方法格式化

Pandas的style方法提供了更丰富的格式化选项：

# 使用style方法格式化
styled_df = df_format.style.format({
'Value1': '{:,.2f}', # 千位分隔符，保留两位小数
'Value2': '{:.4f}', # 保留四位小数
'Percentage': '{:.2%}' # 百分比格式
})
print("\n使用style方法格式化:")
display(styled_df) # 在Jupyter Notebook中显示
# 添加条件格式
styled_df = df_format.style.format({
'Value1': '{:,.2f}',
'Value2': '{:.4f}',
'Percentage': '{:.2%}'
}).background_gradient(cmap='Blues') # 添加背景渐变
print("\n添加条件格式:")
display(styled_df)

复制代码

4.3 自定义格式化函数

对于更复杂的格式化需求，我们可以定义自定义函数：

# 自定义格式化函数
def custom_format(val):
if val > 3000:
return f"**{val:,.2f}**" # 大于3000的值加粗
else:
return f"{val:,.2f}"
# 应用自定义格式化
styled_df = df_format.style.format({
'Value1': custom_format,
'Value2': '{:.4f}',
'Percentage': '{:.2%}'
})
print("\n应用自定义格式化:")
display(styled_df)

复制代码

4.4 导出格式化结果

将格式化结果导出为Excel或HTML：

# 导出为Excel
styled_df.to_excel('formatted_results.xlsx', engine='openpyxl')
# 导出为HTML
html = styled_df.render()
with open('formatted_results.html', 'w') as f:
f.write(html)

复制代码

5. 综合应用实例

让我们通过一个综合实例，展示如何将上述技巧应用于实际数据分析中。

# 创建模拟数据集
np.random.seed(42)
dates = pd.date_range(start='2022-01-01', end='2022-12-31')
categories = ['Electronics', 'Clothing', 'Groceries', 'Furniture']
n_records = 1000
data = {
'Date': np.random.choice(dates, n_records),
'Category': np.random.choice(categories, n_records),
'Sales': np.random.lognormal(mean=4, sigma=1, size=n_records),
'Quantity': np.random.randint(1, 10, size=n_records),
'Discount': np.random.uniform(0, 0.3, size=n_records)
}
# 添加一些缺失值和异常值
for i in np.random.choice(n_records, size=50, replace=False):
data['Sales'][i] = np.nan
for i in np.random.choice(n_records, size=20, replace=False):
data['Quantity'][i] = np.nan
# 添加异常值
for i in np.random.choice(n_records, size=10, replace=False):
data['Sales'][i] = np.random.uniform(5000, 10000)
df_sales = pd.DataFrame(data)
# 计算单价
df_sales['Unit_Price'] = df_sales['Sales'] / df_sales['Quantity']
# 1. 数据清洗
# 处理缺失值
df_sales['Sales'] = df_sales['Sales'].fillna(df_sales.groupby('Category')['Sales'].transform('mean'))
df_sales['Quantity'] = df_sales['Quantity'].fillna(df_sales.groupby('Category')['Quantity'].transform('median'))
df_sales['Unit_Price'] = df_sales['Unit_Price'].fillna(df_sales.groupby('Category')['Unit_Price'].transform('mean'))
# 处理异常值
for category in categories:
category_data = df_sales[df_sales['Category'] == category]
# 使用IQR方法识别异常值
Q1 = category_data['Sales'].quantile(0.25)
Q3 = category_data['Sales'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 用类别内中位数替换异常值
median_val = category_data['Sales'].median()
df_sales.loc[(df_sales['Category'] == category) &
((df_sales['Sales'] < lower_bound) | (df_sales['Sales'] > upper_bound)), 'Sales'] = median_val
# 2. 计算各类别均值
category_stats = df_sales.groupby('Category').agg({
'Sales': ['mean', 'median', 'std'],
'Quantity': 'mean',
'Unit_Price': 'mean',
'Discount': 'mean'
}).round(2)
# 扁平化多级列索引
category_stats.columns = ['_'.join(col).strip() for col in category_stats.columns.values]
category_stats = category_stats.reset_index()
# 3. 格式化结果
formatted_stats = category_stats.style.format({
'Sales_mean': '${:,.2f}',
'Sales_median': '${:,.2f}',
'Sales_std': '${:,.2f}',
'Quantity_mean': '{:.1f}',
'Unit_Price_mean': '${:,.2f}',
'Discount_mean': '{:.1%}'
}).background_gradient(cmap='Blues', subset=['Sales_mean', 'Unit_Price_mean'])
# 显示结果
print("各类别销售统计:")
display(formatted_stats)
# 4. 创建月度趋势分析
df_sales['Month'] = df_sales['Date'].dt.to_period('M')
monthly_sales = df_sales.groupby(['Month', 'Category'])['Sales'].mean().unstack()
# 格式化月度趋势
monthly_trend = monthly_sales.style.format('${:,.2f}').background_gradient(cmap='Greens', axis=1)
print("\n月度平均销售趋势:")
display(monthly_trend)
# 5. 导出结果
formatted_stats.to_excel('category_sales_stats.xlsx', engine='openpyxl')
monthly_trend.to_excel('monthly_sales_trend.xlsx', engine='openpyxl')

复制代码

6. 提升数据分析报告的专业性

除了技术层面的处理，如何让你的数据分析报告更加专业，从而在职场中脱颖而出？

6.1 添加数据可视化

将均值分析结果可视化，可以更直观地传达信息：

import matplotlib.pyplot as plt
import seaborn as sns
# 设置图形风格
sns.set(style="whitegrid")
plt.figure(figsize=(12, 6))
# 绘制各类别平均销售额柱状图
ax = sns.barplot(x='Category', y='Sales_mean', data=category_stats, palette='viridis')
# 添加数据标签
for p in ax.patches:
ax.annotate(f"${p.get_height():,.2f}",
(p.get_x() + p.get_width() / 2., p.get_height()),
ha='center', va='center',
xytext=(0, 10),
textcoords='offset points')
# 设置标题和标签
plt.title('Average Sales by Category', fontsize=16, fontweight='bold')
plt.xlabel('Category', fontsize=12)
plt.ylabel('Average Sales ($)', fontsize=12)
# 调整布局
plt.tight_layout()
# 保存图形
plt.savefig('average_sales_by_category.png', dpi=300, bbox_inches='tight')
plt.show()

复制代码

6.2 创建交互式报告

使用Jupyter Notebook或Dash等工具创建交互式报告：

# 使用plotly创建交互式图表
import plotly.express as px
# 创建交互式柱状图
fig = px.bar(category_stats,
x='Category',
y='Sales_mean',
error_y='Sales_std',
title='Average Sales by Category with Standard Deviation',
labels={'Sales_mean': 'Average Sales ($)', 'Category': 'Product Category'},
color='Category',
text='Sales_mean')
# 格式化文本标签
fig.update_traces(texttemplate='$%{text:,.2f}', textposition='outside')
# 更新布局
fig.update_layout(
uniformtext_minsize=8,
uniformtext_mode='hide',
title_font_size=20,
xaxis_title_font_size=14,
yaxis_title_font_size=14
)
# 显示图表
fig.show()
# 保存为HTML
fig.write_html('interactive_sales_report.html')

复制代码

6.3 添加解释性文本

专业的数据分析报告不仅包含数字和图表，还应有清晰的解释：

# 创建一个包含解释性文本的报告
report = f"""
# 销售数据分析报告
## 执行摘要
本报告分析了{len(df_sales)}条销售记录，涵盖{len(categories)}个产品类别。分析期间，我们发现：
- 整体平均销售额为${df_sales['Sales'].mean():,.2f}
- 销售额最高的产品类别是{category_stats.loc[category_stats['Sales_mean'].idxmax(), 'Category']}，平均销售额为${category_stats['Sales_mean'].max():,.2f}
- 销售额最低的产品类别是{category_stats.loc[category_stats['Sales_mean'].idxmin(), 'Category']}，平均销售额为${category_stats['Sales_mean'].min():,.2f}
## 详细分析
### 各类别销售表现
{category_stats.to_string(index=False)}
### 关键发现
1. {category_stats.loc[category_stats['Sales_mean'].idxmax(), 'Category']}类别的平均销售额显著高于其他类别，这表明该类别产品可能是我们的主要收入来源。
2. {category_stats.loc[category_stats['Unit_Price_mean'].idxmax(), 'Category']}类别的平均单价最高，为${category_stats['Unit_Price_mean'].max():,.2f}。
3. {category_stats.loc[category_stats['Discount_mean'].idxmax(), 'Category']}类别的平均折扣率最高，为{category_stats['Discount_mean'].max():.1%}。
## 建议
基于以上分析，我们建议：
1. 增加{category_stats.loc[category_stats['Sales_mean'].idxmax(), 'Category']}类别的库存和营销投入，以进一步提高销售额。
2. 考虑调整{category_stats.loc[category_stats['Unit_Price_mean'].idxmin(), 'Category']}类别的定价策略，以提高利润率。
3. 评估{category_stats.loc[category_stats['Discount_mean'].idxmax(), 'Category']}类别的高折扣策略对整体盈利能力的影响。
## 方法说明
本报告使用Python的pandas库进行数据处理和分析。在计算均值前，我们进行了以下数据清洗步骤：
1. 使用类别内均值填充销售额缺失值
2. 使用类别内中位数填充数量缺失值
3. 使用IQR方法识别并处理异常值，用类别内中位数替换
这些步骤确保了分析结果的准确性和可靠性。
"""
# 保存报告
with open('sales_analysis_report.md', 'w') as f:
f.write(report)

复制代码

7. 职场竞争优势

掌握上述技能如何帮助你在职场中获得竞争优势？

7.1 提高工作效率

高效的数据处理能力可以显著减少工作时间：

# 传统方法 vs 高效方法对比
import time
# 创建大型数据集
large_df = pd.DataFrame({
'A': np.random.normal(0, 1, 1000000),
'B': np.random.normal(5, 2, 1000000),
'C': np.random.normal(-5, 3, 1000000)
})
# 添加一些缺失值和异常值
for i in np.random.choice(1000000, size=50000, replace=False):
large_df.loc[i, 'A'] = np.nan
for i in np.random.choice(1000000, size=1000, replace=False):
large_df.loc[i, 'B'] = np.random.uniform(20, 30)
# 传统方法 - 使用循环
start_time = time.time()
traditional_means = []
for col in large_df.columns:
# 删除缺失值
col_data = large_df[col].dropna()
# 识别异常值
Q1 = col_data.quantile(0.25)
Q3 = col_data.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 过滤异常值
filtered_data = col_data[(col_data >= lower_bound) & (col_data <= upper_bound)]
# 计算均值
traditional_means.append(filtered_data.mean())
traditional_time = time.time() - start_time
print(f"传统方法耗时: {traditional_time:.4f}秒")
# 高效方法 - 使用向量化操作
start_time = time.time()
# 定义处理函数
def robust_mean(series):
# 删除缺失值
clean_series = series.dropna()
# 识别异常值
Q1 = clean_series.quantile(0.25)
Q3 = clean_series.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 过滤异常值并计算均值
return clean_series[(clean_series >= lower_bound) & (clean_series <= upper_bound)].mean()
# 应用函数
efficient_means = large_df.apply(robust_mean)
efficient_time = time.time() - start_time
print(f"高效方法耗时: {efficient_time:.4f}秒")
print(f"效率提升: {traditional_time/efficient_time:.1f}倍")

复制代码

7.2 提升分析质量

专业的数据处理方法可以提高分析结果的准确性和可靠性：

# 比较不同处理方法对均值的影响
np.random.seed(42)
test_data = pd.Series(np.append(np.random.normal(100, 15, 990), [10, 10, 10, 300, 300, 300, 300, 300, 300, 300]))
# 原始数据均值
raw_mean = test_data.mean()
print(f"原始数据均值: {raw_mean:.2f}")
# 删除缺失值后的均值
no_outliers_mean = test_data[(test_data >= 50) & (test_data <= 150)].mean()
print(f"删除异常值后的均值: {no_outliers_mean:.2f}")
# 使用修剪均值
trimmed_mean = stats.trim_mean(test_data, 0.05) # 剔除5%的极端值
print(f"修剪均值: {trimmed_mean:.2f}")
# 使用中位数
median_val = test_data.median()
print(f"中位数: {median_val:.2f}")
# 分析结果
print("\n分析:")
print(f"原始数据均值受到异常值影响，比真实中心趋势高出{raw_mean - no_outliers_mean:.2f}")
print(f"修剪均值和中位数提供了对异常值更鲁棒的估计")

复制代码

7.3 增强沟通效果

专业的数据呈现方式可以更有效地传达分析结果：

# 创建对比图表 - 原始数据 vs 处理后数据
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
# 原始数据分布
sns.histplot(test_data, kde=True, ax=ax1)
ax1.set_title('原始数据分布', fontsize=14, fontweight='bold')
ax1.axvline(raw_mean, color='red', linestyle='--', label=f'均值: {raw_mean:.2f}')
ax1.legend()
# 处理后数据分布
clean_data = test_data[(test_data >= 50) & (test_data <= 150)]
sns.histplot(clean_data, kde=True, ax=ax2)
ax2.set_title('处理后数据分布', fontsize=14, fontweight='bold')
ax2.axvline(no_outliers_mean, color='red', linestyle='--', label=f'均值: {no_outliers_mean:.2f}')
ax2.legend()
plt.tight_layout()
plt.savefig('data_distribution_comparison.png', dpi=300, bbox_inches='tight')
plt.show()

复制代码

结论

掌握使用pandas高效计算数据均值的技能，包括处理缺失值、异常值以及结果格式化，是现代数据分析的基本要求。通过本文介绍的方法和技巧，你可以：

1. 使用pandas的各种方法高效计算数据均值
2. 识别并适当处理数据中的缺失值
3. 检测和处理异常值，确保分析结果的准确性
4. 使用格式化技巧使结果呈现更加专业
5. 创建包含可视化、交互性和解释性文本的综合报告

这些技能不仅能提高你的工作效率，还能提升分析质量，增强沟通效果，从而在职场中获得竞争优势。随着数据驱动决策在各行各业的重要性不断增加，掌握这些技能将使你在职场中更具价值，为你的职业发展铺平道路。

通过不断实践和应用这些技巧，你将能够创建更加专业、有说服力的数据分析报告，为组织提供更准确的洞察和建议，最终成为团队中不可或缺的数据分析专家。

	通知：关于部分勋章领取条件及购买价格调整的通知	05-18 21:22
	通知：本站资源由网友上传分享，如有违规等问题请到版务模块进行投诉，资源失效请在帖子内回复要求补档，会尽快处理！	10-23 09:31

活动公告

如何用pandas高效输出数据均值数据分析必备技能详解处理缺失值异常值及结果格式化的实用技巧让你的数据分析报告更加专业赢得职场竞争优势

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

塔罗

立华奏

站长推荐 /1

友情链接

Tencent QQ

活动公告

如何用pandas高效输出数据均值 数据分析必备技能 详解处理缺失值异常值及结果格式化的实用技巧 让你的数据分析报告更加专业 赢得职场竞争优势

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

塔罗

立华奏

站长推荐 /1

友情链接

Tencent QQ

如何用pandas高效输出数据均值数据分析必备技能详解处理缺失值异常值及结果格式化的实用技巧让你的数据分析报告更加专业赢得职场竞争优势