Pandas日期输出技巧详解让你的时间数据分析更加高效精准

威震华夏关云长 · 发表于 2025-9-17 12:30:05

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

1. 引言

在数据分析和处理过程中，时间序列数据是非常常见的数据类型。无论是金融数据分析、销售趋势分析、网站流量分析还是传感器数据处理，时间序列数据都扮演着重要角色。Pandas作为Python数据分析的核心库，提供了强大而灵活的日期时间处理功能，掌握这些技巧可以大大提高时间数据分析的效率和准确性。

本文将详细介绍Pandas中日期时间的处理技巧，从基础的数据类型介绍到高级的时间序列操作，帮助读者全面掌握Pandas日期时间处理的精髓。

2. Pandas中日期时间数据类型

在Pandas中，主要有四种与日期时间相关的数据类型：

• datetime64[ns]: 精确到纳秒的时间戳数据类型
• timedelta[ns]: 时间差数据类型，表示两个时间点之间的差值
• period: 表示时间段的数据类型，如某天、某月、某季度等
• offset: 表示日期偏移量的数据类型

让我们首先了解如何创建这些类型的对象：

import pandas as pd
import numpy as np
# 创建datetime64[ns]类型
dates = pd.Series(pd.date_range('20230101', periods=5))
print(dates)
print(dates.dtype)
# 创建timedelta类型
timedeltas = pd.Series(pd.timedelta_range(start='1 day', periods=5, freq='D'))
print(timedeltas)
print(timedeltas.dtype)
# 创建period类型
periods = pd.Series(pd.period_range('2023-01-01', periods=5, freq='M'))
print(periods)
print(periods.dtype)

复制代码

3. 日期数据的创建和转换

3.1 从字符串创建日期时间对象

在实际数据处理中，我们经常需要将字符串格式的日期转换为Pandas的日期时间对象。Pandas提供了to_datetime()函数来完成这个任务：

# 基本转换
date_str = '2023-01-01'
date_obj = pd.to_datetime(date_str)
print(f"字符串 '{date_str}' 转换为日期时间对象: {date_obj}")
# 处理不同格式的日期字符串
date_formats = [
'01/01/2023', # 月/日/年
'2023.01.01', # 年.月.日
'01-Jan-2023', # 日-月-年
'20230101' # 纯数字
]
for fmt in date_formats:
date_obj = pd.to_datetime(fmt)
print(f"字符串 '{fmt}' 转换为日期时间对象: {date_obj}")

复制代码

3.2 批量转换日期数据

当处理包含日期字符串的DataFrame或Series时，我们可以批量转换：

# 创建包含日期字符串的DataFrame
df = pd.DataFrame({
'date_str': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05'],
'value': [10, 20, 30, 40, 50]
})
# 转换日期列
df['date'] = pd.to_datetime(df['date_str'])
print(df)
print(df.dtypes)
# 指定日期格式
df['date_custom'] = pd.to_datetime(df['date_str'], format='%Y-%m-%d')
print(df[['date_str', 'date', 'date_custom']])

复制代码

3.3 处理缺失值和错误日期

在转换日期时，我们经常会遇到缺失值或格式错误的日期：

# 包含缺失值和错误日期的数据
date_series = pd.Series(['2023-01-01', '2023-02-30', None, 'invalid_date', '2023-01-05'])
# 默认情况下，错误日期会引发异常
try:
pd.to_datetime(date_series)
except ValueError as e:
print(f"错误: {e}")
# 使用errors参数处理错误日期
date_series_clean = pd.to_datetime(date_series, errors='coerce') # 将错误日期转为NaT
print(date_series_clean)
# 使用errors='ignore'保留原始值
date_series_ignore = pd.to_datetime(date_series, errors='ignore')
print(date_series_ignore)

复制代码

4. 日期数据的格式化输出

4.1 基本日期格式化

Pandas提供了多种方法来格式化日期输出：

# 创建日期Series
dates = pd.Series(pd.date_range('20230101', periods=5))
# 使用strftime方法格式化日期
dates_formatted = dates.dt.strftime('%Y-%m-%d')
print("基本日期格式化:")
print(dates_formatted)
# 不同格式的日期输出
formats = {
'YYYY-MM-DD': '%Y-%m-%d',
'DD/MM/YYYY': '%d/%m/%Y',
'Month Day, Year': '%B %d, %Y',
'Weekday, Month Day, Year': '%A, %B %d, %Y',
'YYYYMMDD': '%Y%m%d'
}
for name, fmt in formats.items():
print(f"{name}: {dates.dt.strftime(fmt).tolist()}")

复制代码

4.2 提取日期组件

我们可以从日期对象中提取各种组件：

# 创建日期Series
dates = pd.Series(pd.date_range('20230101', periods=5))
# 提取日期组件
date_components = pd.DataFrame({
'year': dates.dt.year,
'month': dates.dt.month,
'day': dates.dt.day,
'hour': dates.dt.hour,
'minute': dates.dt.minute,
'second': dates.dt.second,
'weekday': dates.dt.dayofweek, # 0=Monday, 6=Sunday
'day_name': dates.dt.day_name(),
'month_name': dates.dt.month_name(),
'quarter': dates.dt.quarter,
'is_month_start': dates.dt.is_month_start,
'is_month_end': dates.dt.is_month_end,
'is_quarter_start': dates.dt.is_quarter_start,
'is_quarter_end': dates.dt.is_quarter_end,
'is_year_start': dates.dt.is_year_start,
'is_year_end': dates.dt.is_year_end,
'is_leap_year': dates.dt.is_leap_year
})
print("日期组件:")
print(date_components)

复制代码

4.3 自定义日期格式

有时候我们需要更灵活的日期格式化方式：

# 创建日期Series
dates = pd.Series(pd.date_range('20230101', periods=5))
# 自定义格式化函数
def custom_date_format(dt):
"""自定义日期格式化函数"""
return f"{dt.day_name()[:3]}, {dt.month_name()[:3]} {dt.day}, {dt.year}"
# 应用自定义格式化
custom_formatted = dates.apply(custom_date_format)
print("自定义日期格式:")
print(custom_formatted)
# 使用lambda函数进行自定义格式化
lambda_formatted = dates.apply(lambda x: f"{x.year}年{x.month}月{x.day}日")
print("中文日期格式:")
print(lambda_formatted)

复制代码

5. 时间序列数据的筛选和操作

5.1 基于日期的筛选

处理时间序列数据时，经常需要根据日期范围筛选数据：

# 创建时间序列DataFrame
date_rng = pd.date_range(start='2023-01-01', end='2023-01-31', freq='D')
df = pd.DataFrame({
'date': date_rng,
'value': np.random.randint(0, 100, size=(len(date_rng)))
})
# 设置日期为索引
df.set_index('date', inplace=True)
# 筛选特定日期的数据
specific_date = df.loc['2023-01-15']
print("特定日期的数据:")
print(specific_date)
# 筛选日期范围的数据
date_range_data = df.loc['2023-01-10':'2023-01-20']
print("\n日期范围的数据:")
print(date_range_data)
# 使用between_time筛选特定时间范围内的数据
df_with_time = df.copy()
df_with_time.index = pd.date_range(start='2023-01-01', periods=len(df), freq='H')
morning_data = df_with_time.between_time('06:00', '12:00')
print("\n早上6点到12点的数据:")
print(morning_data.head())

复制代码

5.2 日期运算

Pandas支持对日期进行各种运算：

# 创建日期Series
dates = pd.Series(pd.date_range('20230101', periods=5))
# 日期加减
dates_plus_1_day = dates + pd.Timedelta(days=1)
dates_minus_1_week = dates - pd.Timedelta(weeks=1)
print("原始日期:")
print(dates)
print("\n加1天:")
print(dates_plus_1_day)
print("\n减1周:")
print(dates_minus_1_week)
# 日期之间的差值
date_diff = dates.diff()
print("\n日期之间的差值:")
print(date_diff)
# 计算两个日期之间的工作日
from pandas.tseries.offsets import BDay
dates_plus_5_business_days = dates + BDay(5)
print("\n加5个工作日:")
print(dates_plus_5_business_days)

复制代码

5.3 日期偏移和滚动

Pandas提供了丰富的日期偏移和滚动功能：

# 创建日期Series
dates = pd.Series(pd.date_range('20230101', periods=5))
# 使用DateOffset进行日期偏移
dates_month_start = dates + pd.DateOffset(months=1, day=1)
print("下个月的第一天:")
print(dates_month_start)
# 使用MonthEnd获取月末
from pandas.tseries.offsets import MonthEnd
dates_month_end = dates + MonthEnd()
print("当月的最后一天:")
print(dates_month_end)
# 使用YearBegin获取年初
from pandas.tseries.offsets import YearBegin
dates_year_begin = dates + YearBegin()
print("当年的第一天:")
print(dates_year_begin)
# 使用QuarterEnd获取季度末
from pandas.tseries.offsets import QuarterEnd
dates_quarter_end = dates + QuarterEnd()
print("当季的最后一天:")
print(dates_quarter_end)

复制代码

6. 日期范围生成和操作

6.1 生成日期范围

Pandas的date_range()函数可以灵活地生成日期范围：

# 基本日期范围
basic_range = pd.date_range(start='2023-01-01', end='2023-01-10')
print("基本日期范围:")
print(basic_range)
# 指定周期数
period_range = pd.date_range(start='2023-01-01', periods=10)
print("\n指定周期数的日期范围:")
print(period_range)
# 指定频率
freq_range = pd.date_range(start='2023-01-01', periods=10, freq='D') # 日频率
print("\n日频率日期范围:")
print(freq_range)
# 不同频率的日期范围
freq_ranges = {
'小时': pd.date_range(start='2023-01-01', periods=10, freq='H'),
'工作日': pd.date_range(start='2023-01-01', periods=10, freq='B'),
'周': pd.date_range(start='2023-01-01', periods=10, freq='W'),
'月': pd.date_range(start='2023-01-01', periods=10, freq='M'),
'季度': pd.date_range(start='2023-01-01', periods=10, freq='Q'),
'年': pd.date_range(start='2023-01-01', periods=10, freq='Y')
}
for name, rng in freq_ranges.items():
print(f"\n{name}频率日期范围:")
print(rng)

复制代码

6.2 自定义频率

Pandas允许我们使用自定义的频率生成日期范围：

# 自定义频率
custom_freq_range = pd.date_range(start='2023-01-01', periods=10, freq='2D') # 每2天
print("每2天的日期范围:")
print(custom_freq_range)
# 使用字符串别名
custom_freq_range_2 = pd.date_range(start='2023-01-01', periods=10, freq='W-MON') # 每周一
print("\n每周一的日期范围:")
print(custom_freq_range_2)
# 使用DateOffset对象
from pandas.tseries.offsets import Day, WeekOfMonth
custom_freq_range_3 = pd.date_range(start='2023-01-01', periods=10, freq=WeekOfMonth(week=0, weekday=0)) # 每月第一个周一
print("\n每月第一个周一的日期范围:")
print(custom_freq_range_3)

复制代码

6.3 日期范围操作

我们可以对日期范围进行各种操作：

# 创建日期范围
date_range = pd.date_range(start='2023-01-01', end='2023-01-31', freq='D')
# 转换为PeriodIndex
period_index = date_range.to_period()
print("日期范围转换为PeriodIndex:")
print(period_index[:5])
# 转换为DatetimeIndex
datetime_index = period_index.to_timestamp()
print("\nPeriodIndex转换为DatetimeIndex:")
print(datetime_index[:5])
# 日期范围交集
date_range_1 = pd.date_range(start='2023-01-01', end='2023-01-15', freq='D')
date_range_2 = pd.date_range(start='2023-01-10', end='2023-01-31', freq='D')
intersection = date_range_1.intersection(date_range_2)
print("\n两个日期范围的交集:")
print(intersection)
# 日期范围并集
union = date_range_1.union(date_range_2)
print("\n两个日期范围的并集:")
print(union)

复制代码

7. 时区处理

7.1 时区转换

处理全球数据时，时区转换是一个重要问题：

# 创建无时区的日期时间
dates_no_tz = pd.date_range('2023-01-01', periods=5)
print("无时区的日期时间:")
print(dates_no_tz)
# 本地化时区
dates_with_tz = dates_no_tz.tz_localize('UTC')
print("\nUTC时区的日期时间:")
print(dates_with_tz)
# 转换时区
dates_est = dates_with_tz.tz_convert('US/Eastern')
print("\n美国东部时区的日期时间:")
print(dates_est)
# 转换为其他时区
dates_china = dates_with_tz.tz_convert('Asia/Shanghai')
print("\n中国时区的日期时间:")
print(dates_china)

复制代码

7.2 处理夏令时

夏令时转换可能会导致一些特殊情况：

# 创建包含夏令时转换的日期范围
dst_dates = pd.date_range('2023-03-10', '2023-03-13', freq='H', tz='US/Eastern')
print("包含夏令时转换的日期时间:")
print(dst_dates)
# 处理不存在的时间（由于夏令时转换）
try:
# 2023年美国夏令时开始于3月12日凌晨2点，时钟直接跳到3点
# 所以2023-03-12 02:30:00这个时间不存在
non_existent_time = pd.Timestamp('2023-03-12 02:30:00', tz='US/Eastern')
except Exception as e:
print(f"\n错误: {e}")
# 处理不明确的时间（由于夏令时结束）
try:
# 2023年美国夏令时结束于11月5日凌晨2点，时钟回到1点
# 所以2023-11-05 01:30:00这个时间可能出现两次
ambiguous_time = pd.Timestamp('2023-11-05 01:30:00', tz='US/Eastern')
except Exception as e:
print(f"\n错误: {e}")
# 正确处理不明确的时间
ambiguous_time_handled = pd.Timestamp('2023-11-05 01:30:00', tz='US/Eastern', ambiguous=True)
print("\n正确处理的不明确时间:")
print(ambiguous_time_handled)

复制代码

8. 时间重采样和滚动窗口计算

8.1 重采样技术

重采样是将时间序列数据从一个频率转换到另一个频率的过程：

# 创建高频数据
high_freq_data = pd.DataFrame(
{'value': np.random.randint(0, 100, size=90)},
index=pd.date_range('2023-01-01', periods=90, freq='D')
)
# 降采样（从高频率到低频率）
daily_to_monthly = high_freq_data.resample('M').mean() # 按月采样，计算每月平均值
print("日数据降采样为月数据:")
print(daily_to_monthly)
# 升采样（从低频率到高频率）
monthly_to_daily = daily_to_monthly.resample('D').asfreq() # 按日采样，填充NaN
print("\n月数据升采样为日数据:")
print(monthly_to_daily.head(10))
# 使用不同的聚合方法
resample_methods = {
'sum': high_freq_data.resample('M').sum(),
'mean': high_freq_data.resample('M').mean(),
'median': high_freq_data.resample('M').median(),
'min': high_freq_data.resample('M').min(),
'max': high_freq_data.resample('M').max(),
'first': high_freq_data.resample('M').first(),
'last': high_freq_data.resample('M').last()
}
for method, data in resample_methods.items():
print(f"\n按月{method}采样:")
print(data)

复制代码

8.2 滚动窗口计算

滚动窗口计算是时间序列分析中常用的技术：

# 创建时间序列数据
ts_data = pd.DataFrame(
{'value': np.random.randn(100).cumsum()},
index=pd.date_range('2023-01-01', periods=100, freq='D')
)
# 计算滚动平均值
rolling_mean = ts_data['value'].rolling(window=7).mean() # 7日滚动平均
print("7日滚动平均:")
print(rolling_mean.head(10))
# 计算滚动标准差
rolling_std = ts_data['value'].rolling(window=7).std() # 7日滚动标准差
print("\n7日滚动标准差:")
print(rolling_std.head(10))
# 计算滚动最大值和最小值
rolling_max = ts_data['value'].rolling(window=7).max() # 7日滚动最大值
rolling_min = ts_data['value'].rolling(window=7).min() # 7日滚动最小值
# 可视化滚动统计量
import matplotlib.pyplot as plt
plt.figure(figsize=(12, 6))
plt.plot(ts_data.index, ts_data['value'], label='原始数据')
plt.plot(rolling_mean.index, rolling_mean, label='7日滚动平均')
plt.fill_between(rolling_std.index, rolling_mean - rolling_std, rolling_mean + rolling_std,
color='gray', alpha=0.2, label='±1标准差')
plt.legend()
plt.title('滚动统计量')
plt.xlabel('日期')
plt.ylabel('值')
plt.grid(True)
plt.show()

复制代码

8.3 扩展窗口和指数加权窗口

除了固定大小的滚动窗口，Pandas还支持扩展窗口和指数加权窗口：

# 创建时间序列数据
ts_data = pd.DataFrame(
{'value': np.random.randn(100).cumsum()},
index=pd.date_range('2023-01-01', periods=100, freq='D')
)
# 扩展窗口计算
expanding_mean = ts_data['value'].expanding().mean() # 扩展窗口平均
expanding_max = ts_data['value'].expanding().max() # 扩展窗口最大值
expanding_min = ts_data['value'].expanding().min() # 扩展窗口最小值
# 指数加权窗口
ewm_mean = ts_data['value'].ewm(span=20).mean() # 20日指数加权平均
# 可视化不同窗口计算结果
plt.figure(figsize=(12, 6))
plt.plot(ts_data.index, ts_data['value'], label='原始数据', alpha=0.5)
plt.plot(expanding_mean.index, expanding_mean, label='扩展窗口平均')
plt.plot(ewm_mean.index, ewm_mean, label='指数加权平均')
plt.legend()
plt.title('扩展窗口和指数加权窗口')
plt.xlabel('日期')
plt.ylabel('值')
plt.grid(True)
plt.show()

复制代码

9. 实际应用案例

9.1 股票数据分析

让我们使用Pandas的日期时间功能来分析股票数据：

# 假设我们有一段时间的股票数据
np.random.seed(42)
date_rng = pd.date_range(start='2022-01-01', end='2022-12-31', freq='D')
# 排除周末
date_rng = date_rng[date_rng.dayofweek < 5]
# 生成模拟股票数据
prices = 100 + np.cumsum(np.random.randn(len(date_rng)) * 0.5)
volume = np.random.randint(100000, 500000, size=len(date_rng))
stock_data = pd.DataFrame({
'Date': date_rng,
'Price': prices,
'Volume': volume
})
# 设置日期为索引
stock_data.set_index('Date', inplace=True)
# 计算移动平均线
stock_data['MA_5'] = stock_data['Price'].rolling(window=5).mean()
stock_data['MA_20'] = stock_data['Price'].rolling(window=20).mean()
stock_data['MA_60'] = stock_data['Price'].rolling(window=60).mean()
# 计算日收益率
stock_data['Daily_Return'] = stock_data['Price'].pct_change() * 100
# 计算波动率（20日滚动标准差）
stock_data['Volatility'] = stock_data['Daily_Return'].rolling(window=20).std()
# 按月份重采样
monthly_data = stock_data.resample('M').agg({
'Price': ['first', 'last', 'max', 'min'],
'Volume': 'sum',
'Daily_Return': 'mean',
'Volatility': 'mean'
})
print("月度股票数据统计:")
print(monthly_data)
# 可视化股票价格和移动平均线
plt.figure(figsize=(12, 6))
plt.plot(stock_data.index, stock_data['Price'], label='股价')
plt.plot(stock_data.index, stock_data['MA_5'], label='5日均线')
plt.plot(stock_data.index, stock_data['MA_20'], label='20日均线')
plt.plot(stock_data.index, stock_data['MA_60'], label='60日均线')
plt.legend()
plt.title('股价与移动平均线')
plt.xlabel('日期')
plt.ylabel('价格')
plt.grid(True)
plt.show()

复制代码

9.2 网站流量分析

接下来，我们使用Pandas分析网站流量数据：

# 创建模拟网站流量数据
np.random.seed(42)
date_rng = pd.date_range(start='2023-01-01', end='2023-03-31', freq='H')
# 生成模拟流量数据，考虑日内和周内模式
base_traffic = 1000
hour_pattern = np.array([0.5, 0.3, 0.2, 0.2, 0.3, 0.6, 1.2, 2.0, 2.5, 2.3, 2.0, 1.8,
1.7, 1.8, 1.9, 2.0, 2.5, 3.0, 3.5, 3.2, 2.5, 2.0, 1.5, 1.0])
weekday_pattern = np.array([0.8, 0.9, 1.0, 1.0, 1.0, 1.2, 0.7])
traffic = []
for date in date_rng:
hour_factor = hour_pattern[date.hour]
weekday_factor = weekday_pattern[date.dayofweek]
random_factor = np.random.normal(1, 0.1)
traffic_value = base_traffic * hour_factor * weekday_factor * random_factor
traffic.append(max(0, int(traffic_value)))
web_traffic = pd.DataFrame({
'DateTime': date_rng,
'Visitors': traffic
})
# 设置日期时间为索引
web_traffic.set_index('DateTime', inplace=True)
# 提取时间组件
web_traffic['Hour'] = web_traffic.index.hour
web_traffic['DayOfWeek'] = web_traffic.index.dayofweek
web_traffic['Date'] = web_traffic.index.date
web_traffic['Month'] = web_traffic.index.month
# 按小时分析流量
hourly_traffic = web_traffic.groupby('Hour')['Visitors'].mean()
# 按星期分析流量
weekday_names = ['周一', '周二', '周三', '周四', '周五', '周六', '周日']
weekly_traffic = web_traffic.groupby('DayOfWeek')['Visitors'].mean()
weekly_traffic.index = [weekday_names[i] for i in weekly_traffic.index]
# 按日期分析流量
daily_traffic = web_traffic.groupby('Date')['Visitors'].sum()
# 按月分析流量
monthly_traffic = web_traffic.groupby('Month')['Visitors'].sum()
# 可视化不同时间维度的流量
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
# 按小时流量
hourly_traffic.plot(ax=axes[0, 0], kind='bar')
axes[0, 0].set_title('按小时平均流量')
axes[0, 0].set_xlabel('小时')
axes[0, 0].set_ylabel('平均访客数')
# 按星期流量
weekly_traffic.plot(ax=axes[0, 1], kind='bar')
axes[0, 1].set_title('按星期平均流量')
axes[0, 1].set_xlabel('星期')
axes[0, 1].set_ylabel('平均访客数')
# 按日期流量
daily_traffic.plot(ax=axes[1, 0])
axes[1, 0].set_title('每日流量趋势')
axes[1, 0].set_xlabel('日期')
axes[1, 0].set_ylabel('访客数')
# 按月流量
monthly_traffic.plot(ax=axes[1, 1], kind='bar')
axes[1, 1].set_title('按月流量')
axes[1, 1].set_xlabel('月份')
axes[1, 1].set_ylabel('访客数')
plt.tight_layout()
plt.show()
# 检测异常流量
# 计算Z分数来检测异常值
daily_traffic_df = daily_traffic.reset_index()
daily_traffic_df.columns = ['Date', 'Visitors']
daily_traffic_df['Z_Score'] = (daily_traffic_df['Visitors'] - daily_traffic_df['Visitors'].mean()) / daily_traffic_df['Visitors'].std()
anomalies = daily_traffic_df[abs(daily_traffic_df['Z_Score']) > 2]
print("流量异常日期:")
print(anomalies)

复制代码

9.3 销售数据分析

最后，我们使用Pandas分析销售数据：

# 创建模拟销售数据
np.random.seed(42)
date_rng = pd.date_range(start='2022-01-01', end='2022-12-31', freq='D')
# 排除周末
date_rng = date_rng[date_rng.dayofweek < 5]
# 生成模拟销售数据，考虑季节性和趋势
base_sales = 1000
trend = np.linspace(0, 500, len(date_rng))
seasonality = 200 * np.sin(2 * np.pi * np.arange(len(date_rng)) / 365.25)
random_factor = np.random.normal(0, 100, len(date_rng))
sales = base_sales + trend + seasonality + random_factor
sales = np.maximum(0, sales).astype(int)
sales_data = pd.DataFrame({
'Date': date_rng,
'Sales': sales
})
# 设置日期为索引
sales_data.set_index('Date', inplace=True)
# 提取时间组件
sales_data['Year'] = sales_data.index.year
sales_data['Month'] = sales_data.index.month
sales_data['Day'] = sales_data.index.day
sales_data['Quarter'] = sales_data.index.quarter
sales_data['Weekday'] = sales_data.index.dayofweek
sales_data['WeekOfYear'] = sales_data.index.isocalendar().week
# 按不同时间维度聚合销售数据
monthly_sales = sales_data.groupby(['Year', 'Month'])['Sales'].sum()
quarterly_sales = sales_data.groupby(['Year', 'Quarter'])['Sales'].sum()
weekday_sales = sales_data.groupby('Weekday')['Sales'].mean()
# 计算同比和环比增长
# 环比增长
monthly_sales_df = monthly_sales.reset_index()
monthly_sales_df.columns = ['Year', 'Month', 'Sales']
monthly_sales_df['MoM_Growth'] = monthly_sales_df['Sales'].pct_change() * 100
# 同比增长
yearly_comparison = pd.DataFrame()
for year in monthly_sales_df['Year'].unique():
year_data = monthly_sales_df[monthly_sales_df['Year'] == year].copy()
year_data.set_index('Month', inplace=True)
yearly_comparison[year] = year_data['Sales']
yearly_comparison['YoY_Growth'] = yearly_comparison.pct_change(axis=1)[2022] * 100
print("月度销售数据:")
print(monthly_sales_df.head(10))
print("\n同比增长:")
print(yearly_comparison.head(10))
# 可视化销售数据
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
# 每日销售趋势
sales_data['Sales'].plot(ax=axes[0, 0])
axes[0, 0].set_title('每日销售趋势')
axes[0, 0].set_xlabel('日期')
axes[0, 0].set_ylabel('销售额')
# 月度销售
monthly_sales.plot(ax=axes[0, 1], kind='bar')
axes[0, 1].set_title('月度销售')
axes[0, 1].set_xlabel('年-月')
axes[0, 1].set_ylabel('销售额')
# 季度销售
quarterly_sales.plot(ax=axes[1, 0], kind='bar')
axes[1, 0].set_title('季度销售')
axes[1, 0].set_xlabel('年-季度')
axes[1, 0].set_ylabel('销售额')
# 星期销售
weekday_names = ['周一', '周二', '周三', '周四', '周五']
weekday_sales.index = [weekday_names[i] for i in weekday_sales.index]
weekday_sales.plot(ax=axes[1, 1], kind='bar')
axes[1, 1].set_title('星期平均销售')
axes[1, 1].set_xlabel('星期')
axes[1, 1].set_ylabel('平均销售额')
plt.tight_layout()
plt.show()
# 预测未来销售（简单移动平均法）
window = 30 # 30天移动平均
sales_data['MA_30'] = sales_data['Sales'].rolling(window=window).mean()
# 获取最后一个移动平均值
last_ma = sales_data['MA_30'].iloc[-1]
# 预测未来30天的销售
future_dates = pd.date_range(start=sales_data.index[-1] + pd.Timedelta(days=1), periods=30, freq='D')
# 排除周末
future_dates = future_dates[future_dates.dayofweek < 5]
# 简单预测：使用最后一个移动平均值加上随机波动
future_sales = last_ma + np.random.normal(0, 50, len(future_dates))
future_sales = np.maximum(0, future_sales).astype(int)
future_sales_df = pd.DataFrame({
'Date': future_dates,
'Predicted_Sales': future_sales
})
print("\n未来销售预测:")
print(future_sales_df)
# 可视化历史销售和预测
plt.figure(figsize=(12, 6))
plt.plot(sales_data.index, sales_data['Sales'], label='历史销售')
plt.plot(sales_data.index, sales_data['MA_30'], label='30日移动平均')
plt.plot(future_sales_df['Date'], future_sales_df['Predicted_Sales'], 'ro-', label='预测销售')
plt.axvline(x=sales_data.index[-1], color='gray', linestyle='--')
plt.legend()
plt.title('销售预测')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.grid(True)
plt.show()

复制代码

10. 总结

本文详细介绍了Pandas中日期时间处理的各个方面，包括：

1. 日期时间数据类型的基础知识
2. 日期数据的创建和转换方法
3. 日期数据的格式化输出技巧
4. 时间序列数据的筛选和操作
5. 日期范围生成和操作
6. 时区处理
7. 时间重采样和滚动窗口计算
8. 实际应用案例

通过掌握这些技巧，你可以更加高效精准地处理时间序列数据，从而更好地进行数据分析和决策。无论是金融数据分析、网站流量分析还是销售数据分析，Pandas的日期时间功能都能为你提供强大的支持。

希望本文能帮助你更好地理解和应用Pandas的日期时间处理功能，提高你的数据分析效率和准确性。如果你有任何问题或建议，欢迎留言讨论。

	通知：关于部分勋章领取条件及购买价格调整的通知	05-18 21:22
	通知：本站资源由网友上传分享，如有违规等问题请到版务模块进行投诉，资源失效请在帖子内回复要求补档，会尽快处理！	10-23 09:31

活动公告

Pandas日期输出技巧详解让你的时间数据分析更加高效精准

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

塔罗

立华奏

站长推荐 /1

友情链接

Tencent QQ

活动公告

Pandas日期输出技巧详解 让你的时间数据分析更加高效精准

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

塔罗

立华奏

站长推荐 /1

友情链接

Tencent QQ

Pandas日期输出技巧详解让你的时间数据分析更加高效精准