01_家庭用电预测:线性回归算法(时间与功率&功率与电流之间的关系)

小编 2026-06-14 阅读:1096 评论:0
# 引入所需要的全部包 from sklearn.model_selection import train_test_split from sklearn.linear_model import Line...
# 引入所需要的全部包
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import pandas as pd
from pandas import DataFrame
import time
## 设置字符集,防止中文乱码
mpl.rcParams[\'font.sans-serif\']=[u\'simHei\']
mpl.rcParams[\'axes.unicode_minus\']=False
# 加载数据
# 日期、时间、有功功率、无功功率、电压、电流、厨房用电功率、洗衣服用电功率、热水器用电功率
path1=\'datas/household_power_consumption_1000.txt\'
df = pd.read_csv(path1, sep=\';\', low_memory=False)#没有混合类型的时候可以通过low_memory=F调用更多内存,加快效率)
df.head() ## 获取前五行数据查看查看
Date Time Global_active_power Global_reactive_power Voltage Global_intensity Sub_metering_1 Sub_metering_2 Sub_metering_3
0 16/12/2006 17:24:00 4.216 0.418 234.84 18.4 0.0 1.0 17.0
1 16/12/2006 17:25:00 5.360 0.436 233.63 23.0 0.0 1.0 16.0
2 16/12/2006 17:26:00 5.374 0.498 233.29 23.0 0.0 2.0 17.0
3 16/12/2006 17:27:00 5.388 0.502 233.74 23.0 0.0 1.0 17.0
4 16/12/2006 17:28:00 3.666 0.528 235.68 15.8 0.0 1.0 17.0
# 查看格式信息
df.info()
<class \'pandas.core.frame.DataFrame\'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
Date                     1000 non-null object
Time                     1000 non-null object
Global_active_power      1000 non-null float64
Global_reactive_power    1000 non-null float64
Voltage                  1000 non-null float64
Global_intensity         1000 non-null float64
Sub_metering_1           1000 non-null float64
Sub_metering_2           1000 non-null float64
Sub_metering_3           1000 non-null float64
dtypes: float64(7), object(2)
memory usage: 70.4+ KB
# 异常数据处理(异常数据过滤)
new_df = df.replace(\'?\', np.nan)#替换非法字符为np.nan
datas = new_df.dropna(axis=0,how = \'any\') # 只要有一个数据为空,就进行行删除操作
datas.describe().T#观察数据的多种统计指标
                          count mean std min 25% 50% 75% max
Global_active_power 1000.0 2.418772 1.239979 0.206 1.806 2.414 3.308 7.706
Global_reactive_power 1000.0 0.089232 0.088088 0.000 0.000 0.072 0.126 0.528
Voltage 1000.0 240.035790 4.084420 230.980 236.940 240.650 243.295 249.370
Global_intensity 1000.0 10.351000 5.122214 0.800 8.400 10.000 14.000 33.200
Sub_metering_1 1000.0 0.000000 0.000000 0.000 0.000 0.000 0.000 0.000
Sub_metering_2 1000.0 2.749000 8.104053 0.000 0.000 0.000 1.000 38.000
Sub_metering_3 1000.0 5.756000 8.066941 0.000 0.000 0.000 17.000 19.000
## 创建一个时间函数格式化字符串
def date_format(dt):
    import time
    t = time.strptime(\' \'.join(dt), \'%d/%m/%Y %H:%M:%S\')
    return (t.tm_year, t.tm_mon, t.tm_mday, t.tm_hour, t.tm_min, t.tm_sec)
# 获取x和y变量, 并将时间转换为数值型连续变量
X = datas.iloc[:,0:2]
X = X.apply(lambda x: pd.Series(date_format(x)), axis=1)
Y = datas[\'Global_active_power\']
X.head(2)
0 1 2 3 4 5
0 2006 12 16 17 24 0
1 2006 12 16 17 25 0
## 对数据集进行测试集合训练集划分
# X:特征矩阵(类型一般是DataFrame)
# Y:特征对应的Label标签(类型一般是Series)
# test_size: 对X/Y进行划分的时候,测试集合的数据占比, 是一个(0,1)之间的float类型的值
# random_state: 数据分割是基于随机器进行分割的,该参数给定随机数种子;给一个值(int类型)的作用就是保证每次分割所产生的数数据集是完全相同的
X_train,X_test,Y_train,Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
X_train.describe().T
count mean std min 25% 50% 75% max
0 800.0 2006.00000 0.000000 2006.0 2006.0 2006.0 2006.0 2006.0
1 800.0 12.00000 0.000000 12.0 12.0 12.0 12.0 12.0
2 800.0 16.59875 0.490458 16.0 16.0 17.0 17.0 17.0
3 800.0 10.75500 8.068386 0.0 4.0 8.0 19.0 23.0
4 800.0 29.72375 17.266517 0.0 15.0 30.0 45.0 59.0
5 800.0 0.00000 0.000000 0.0 0.0 0.0 0.0 0.0
## 数据标准化
# StandardScaler:将数据转换为标准差为1的数据集(有一个数据的映射)
# 如果一个API名字有fit,那么就有模型训练的含义
# 如果一个API名字中有transform, 那么就表示对数据具有转换的含义操作
# 如果一个API名字中有predict,那么就表示进行数据预测,会有一个预测结果输出
ss = StandardScaler()
X_train = ss.fit_transform(X_train) # 训练并转换
X_test = ss.transform(X_test) ## 直接使用在模型构建数据上进行一个数据标准化操作 
pd.DataFrame(X_train).describe().T
count mean std min 25% 50% 75% max
0 800.0 0.000000e+00 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
1 800.0 0.000000e+00 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
2 800.0 2.445821e-15 1.000626 -1.221561 -1.221561 0.818625 0.818625 0.818625
3 800.0 -8.604228e-17 1.000626 -1.333814 -0.837742 -0.341670 1.022529 1.518601
4 800.0 8.104628e-17 1.000626 -1.722545 -0.853268 0.016009 0.885286 1.696611
5 800.0 0.000000e+00 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
## 模型训练
lr = LinearRegression()
lr.fit(X_train, Y_train) ## 训练模型
## 模型校验
y_predict = lr.predict(X_test) ## 预测结果

print(\"训练R2:\",lr.score(X_train, Y_train))
print(\"测试R2:\",lr.score(X_test, Y_test))
mse = np.average((y_predict-Y_test)**2)
rmse = np.sqrt(mse)
print(\"rmse:\",rmse)
训练R2: 0.24409311805909026
测试R2: 0.12551628513735869
rmse: 1.1640923459736248
## 模型保存/持久化
# 在机器学习部署的时候,实际上其中一种方式就是将模型进行输出;另外一种方式就是直接将预测结果输出
# 模型输出一般是将模型输出到磁盘文件
from sklearn.externals import joblib

joblib.dump(ss, \"data_ss.model\") ## 将标准化模型保存
joblib.dump(lr, \"data_lr.model\") ## 将模型保存

ss = joblib.load(\"data_ss.model\") ## 加载模型
lr = joblib.load(\"data_lr.model\") ## 加载模型
# 使用加载的模型进行预测
data1 = [[2006, 12, 17, 12, 25, 0]]
data1 = ss.transform(data1)
print(data1)
lr.predict(data1)
## 预测值和实际值画图比较
t=np.arange(len(X_test))
plt.figure(facecolor=\'w\')#建一个画布,facecolor是背景色
plt.plot(t, Y_test, \'r-\', linewidth=2, label=\'真实值\')
plt.plot(t, y_predict, \'g-\', linewidth=2, label=\'预测值\')
plt.legend(loc = \'upper left\')#显示图例,设置图例的位置
plt.title(\"线性回归预测时间和功率之间的关系\", fontsize=20)
plt.grid(b=True)#加网格
plt.show()

 

\"\"

## 功率和电流之间的关系
X = datas.iloc[:,2:4]
Y2 = datas.iloc[:,5]

## 数据分割
X2_train,X2_test,Y2_train,Y2_test = train_test_split(X, Y2, test_size=0.2, random_state=0)

## 数据归一化
scaler2 = StandardScaler()
X2_train = scaler2.fit_transform(X2_train) # 训练并转换
X2_test = scaler2.transform(X2_test) ## 直接使用在模型构建数据上进行一个数据标准化操作 

## 模型训练
lr2 = LinearRegression()
lr2.fit(X2_train, Y2_train) ## 训练模型

## 结果预测
Y2_predict = lr2.predict(X2_test)

## 模型评估
print(\"电流预测准确率: \", lr2.score(X2_test,Y2_test))
print(\"电流参数:\", lr2.coef_)

## 绘制图表
#### 电流关系
t=np.arange(len(X2_test))
plt.figure(facecolor=\'w\')
plt.plot(t, Y2_test, \'r-\', linewidth=2, label=u\'真实值\')
plt.plot(t, Y2_predict, \'g-\', linewidth=2, label=u\'预测值\')
plt.legend(loc = \'lower right\')
plt.title(u\"线性回归预测功率与电流之间的关系\", fontsize=20)
plt.grid(b=True)
plt.show()

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

上一篇:.htaccess文件 下一篇:apache安全加固
热门文章
  • 机房智能化温湿度解决方式之POE供电以太网温湿度传感器

    机房智能化温湿度解决方式之POE供电以太网温湿度传感器
    机房智能化温湿度解决方式之POE供电以太网温湿度传感器 北京盈创力和电子科技有限公司 智能型TCP网口温湿度记录仪 北京IP网络温湿度记录仪厂家,北京盈创力和 北京智能型TCP网口温湿度记录仪IP网络温湿度记录仪是一种新型的基于TCP/IP协议双绞线以太网标准温湿度采集模块,利用它可以实现现场温度值、相对湿度值的采集,同时利用其自身的RJ45通信接口可以方便地和机房监控主机或交换机集线器进行联网。 工作于-40℃~85℃工业级带...
  • Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering

    Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering
    Problem Statement 我们考虑一个具有马尔可夫性质、非线性、非高斯的状态空间模型(State Space Model):对于一个时间序列上的观测结果{yt,t∈N}\\{ y_t , t \\in N \\}{yt​,t∈N},我们认为每个观测结果yty_tyt​的生成依赖于一个无法直接观察的隐变量xt∈{xt,t∈N}x_t \\in \\{x_t , t \\in N \\}xt​∈{xt​,t∈N},即:p(...
  • HTTP状态保持的原理

    HTTP状态保持的原理
    a)在用户登录之后,浏览器返回响应的时候会在响应中添加上cookieb)浏览器接收到cookie之后会自动保存c)当用户再次请求同一服务器中的其他网页的时候,浏览器会自动带上之前保存的cookied)服务接收到请求之后可以请 request 对象中取到cookie 判断当前用户是否登录  Http是无状态的,就是连接时数据互通,关闭后...
  • Hive 系统函数及示例

    Hive 系统函数及示例
    查看所有系统函数 show functions; 函数分类 内置函数【系统函数】 数学函数: floor、round、ceil、cos、log2等 字符串函数: length、reverse、trim、lower、get_json_object、repeat等 收集函数: size 转换函数: cast 日期函数: year、month、datediff、date、date_add等 条件函数: coalesce、case…w...
  • CSRF的原理和防范措施

    CSRF的原理和防范措施
    a)攻击原理:i.用户C访问正常网站A时进行登录,浏览器保存A的cookieii.用户C再访问攻击网站B,网站B上有某个隐藏的链接或者图片标签会自动请求网站A的URL地址,例如表单提交,传指定的参数iii.而攻击网站B在访问网站A的时候,浏览器会自动带上网站A的cookieiv.所以网站A在接收到请求之后可判断当前用户是登录状态,所以...
标签列表