百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

机器学习(一):利用最小二乘法建立线性回归模型

off999 2024-10-14 12:13 40 浏览 0 评论

在之前的文章中,我们主要学习了几个与机器学习相关的Python库(numpy、pandas、matplotlib、seaborn),从本篇开始我们进入算法部分的学习,对于算法部分中涉及到的数学知识,请大家私下查阅。本篇文章我们主要掌握一些与机器学习有关的基础概念、并来看下线性回归模型的建立、推导和Python代码实现。

机器学习相关概念

统计模型:它是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。后面要讲的线性回归模型、决策树分类、朴素贝叶斯等都是一种统计模型。

监督学习(supervised learning):也可称为有标签的学习,学习中的监督来及训练数据集中标记的实例。举个例子,有一批心脏病人的训练数据集,数据集特征有性别、年龄、体重等,标签列为是否二次患心脏病,那么通过已给定的标签值去寻找规律的学习就是监督学习,说的直白点就是有标签的学习。

无监督学习(unsupervised learning):无标签的学习,本质上是聚类的同义词,学习过程中是无监督的,因为输入实例每一类别标记。比如,一个班级中有100个同学,根据每个人的特征分出男女生的过程就是个无监督的学习。

半监督学习(semi-supervised learning):是一类机器学习技术,在学习模型时,它使用标记和未标记的实例。标记的实例用来学习类模型,而未标记的实例用来进一步改进类边界。

主动学习(active learning):是一种机器学习方法,它让用户在学习过程中扮演主动角色。主动学习方法可能要去用户对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。

线性回归

对于线性回归,我们还是拿个例子来讲。比如我们在办理信用卡时,银行会根据我们的工龄、收入、固定资产拥有等情况而给出相应的额度,这里我们简化问题,假设额度和个人的工龄和收入有关,那么将额度看做因变量,工龄和工资作为自变量,就有以下的线性方程是(式1):

其中,hθ表示预测的额度,θ0是偏置项,大家可以理解为每个人的最低额度,θ1是工龄的系数,θ2是工资的系数。而机器学习的算法要做的是事情就是根据训练数据(实际已存在的)拟合出一个线性平面,使得空间中的点尽可能落在这个平面上。所以问题就转换根据训练数据计算特征系数的问题了,那么这个系数怎么求呢?首先,我们给式1的θ0乘以一个x0,并令x0=1,则得出式2:

式2就用矩阵乘法的形式表示了h0(额度)的值,而这是预测值,和实际值肯定是存在差异的,这里我们用ε表示,根据式2可以得到式3:

于是线性回归算法的问题被转换为求θ系数并且使得误差最小。那么如何使得误差最小呢,这里假设这个误差是独立且有相同的分布,且这个分布服从均值为0方差为θ^2的高斯分布。于是得到误差的分布式4:

将式4带入式3得到式5:

式5表示对于样本中每一个单独样本θ取某个值和样本值xi,yi组合的概率,由于样本集中有很多样本点,于是有得到似然函数(所有样本点都取那个值出现的概率)式6:

对于式6我们当然希望某个参数和我们的数据组合刚好是真实值,即似然函数的概率最大,为了求解方便,我们对似然函数两边取对数,得到式7:

对式7进行对数化简得到式8:

在式7中我们已经知道,要是求得的θ刚好使预测值等于真实值,那么就意味着似然函数取得最大值,由于式7中化简得到式8,所以问题就转换为使得式8中的后半部分取得最小,即最小二乘法,式9:

将式2带入式9,得到目标函数式10:

我们知道,如果使得使式10最小,就对它求导数,使得导数为0(即斜率为零,函数存在驻点,存在最值),由此得到θ的推导式11:

以上一些列的推导变化就是为了得到θ的表达式(表达式不再含未知数),看其他很绕,这里主要掌握两点,第一线性回归模型等式,第二最小二乘法(它通过最小化误差的平方和寻找数据的最佳函数匹配)。

Python代码实现

我们先看下训练数据集结构,代码如下:

import numpy as np
from sklearn import datasets
liner_data = datasets.load_diabetes()
liner_data

这里我们根据θ的推导式,定义一个线性回归类,并写出训练方法:

class LinearRegression():
 def __init__(self):
 self.θ = None
 def fit(self, X, y):
 X = np.insert(X, 0, 1, axis=1)
 X_ = np.linalg.inv(X.T.dot(X))
#这里求出θ值
 self.θ = X_.dot(X.T).dot(y) 
 def predict(self, X):
 X = np.insert(X, 0, 1, axis=1)
 y_pred = X.dot(self.θ)
 return y_predra

然后我们将数据传递到写好的训练函数中,训练出θ值并预测y值:

liner_data = datasets.load_diabetes()
X = liner_data.data[:, np.newaxis, 2]
#训练数据集,测试数据集
x_train, x_test = X[:-20], X[-20:]
y_train, y_test = liner_data.target[:-20], liner_data.target[-20:]
clf = LinearRegression()
#开始训练数据 
clf.fit(x_train, y_train)
#得出预测值
y_pred = clf.predict(x_test)

将预测得到的y值和对应的x值画出对应的图像,如下:

plt.scatter(x_test[:,0], y_test, color='black')
plt.plot(x_test[:,0], y_pred, color='blue', linewidth=3)
plt.show()

以上就是线性关于线性回归的内容,可以看到,其实Python实现线性回归的 代码很短,我们可以直接使用别人的也没有问题,但是我觉得们必须知道线性回归的推导过程是有必要的,其中涉及的数学基础(如导数、概率分布、矩阵乘法等)必须要掌握才能更好的理解线性回归算法。

相关推荐

rar解压软件官网(rar解压器官方免费下载)
rar解压软件官网(rar解压器官方免费下载)

winrar是解压软件。你没有安装winrar,所以打不开用winrar加压的软件。在网上下载个安装后就能用了。去安装解压软件啊,网上到处都有,直接在网上搜索就可以,软件下好后安装,将其设置在右键中,以后右键单击就可以解压相应winrar文...

2026-01-23 09:43 off999

音频编辑转换器(音频编辑转换器怎么用)

高转低音频转换器接法是指将一种信号转换成另一种信号的装置。信号是信息存在的形式或载体。在自动化仪表设备和自动控制系统中,常将一种信号转换成另一种与标准量或参考量比较后的信号,以便将两类仪表联接起来,因...

安卓游戏中心下载安装(安卓游戏中心app)

格来云游戏、Nibiru游戏城、快游戏、蟋蟀游戏大厅、石头游戏。以上app资源丰富,且支持外设连接,更新及时。1、格来云游戏:格来云游戏是动视云科技开发的APP,格来云不依赖玩家的电脑性能和储存,连...

正当防卫3手游下载(正当防卫三正版下载)

通过QQ浏览器,或者应用商店下载即可。华为手机上下载《正当防卫4》(JustCause4)的方法如下:方法一:使用华为应用市场(华为AppGallery)1.打开华为应用市场。2.在搜索框中输...

可以免费下载所有歌曲的网站

一、http://51Ape.Com一个免费提供无损音乐下载的网站,专注于Ape音乐、Flac音乐以及Wav等各类高品质无损音乐的免费下载,是目前国内比较好的免费音乐下载网站。二、91听歌网提供无损音...

龙珠斗士z手游版下载(龙珠斗士z手游版下载ios)

召唤神龙,实现愿望。龙珠z斗士中只要集齐七颗龙珠就可以召唤出神龙,来实现自己的愿望。在漫画动画各类手游中都是这样首先进入游戏主界面,点击“斗士”按钮进入选角界面,在选角界面中选择你要使用的角色并确认...

可以手动插人物的游戏手游(可以手动插人物的游戏手游app)

在手游对局中,左上角有一个开关,可切换手动开火和自动开火,切换到自动开火后,准星描到敌方人物即会自动开火。当然,并不是所有模式中都有自动开火开关,是特定的一些模式有该开关,比如挑战模式、刀战模式等。另...

手机铃声最好听的歌(手机铃声最好听的歌曲有哪些)

Everythingisnotwhatitseems超喜欢这首的,绝对不会撞见跟你铃声一样的Push艾薇儿的新歌,很好听,也很适合做铃声Foreverandalways钢琴版副歌部分很好听布兰妮的3也...

千千静听官网(十大免费音乐网站)

千千静听起源于2002年,千千静听是一款完全免费的音乐播放软件,集播放、音效、转换、歌词等众多功能于一身。其小巧精致、操作简捷、功能强大的特点,深得用户喜爱,被网友评为中国十大优秀软件之一,并且成为目...

成品ppt网站国外(免费生成ppt的网站)

免费ppt成品怎么下载?不确定您要下载哪类的ppt。如果想要下载初中语文课件的话,免费成品ppt可以通过无忧无虑中学语文网下载,上面按照年级,教材版本分门别类的课件资源,教案参考,还有相应的练习题,甚...

免费的连连看游戏大全(连连看游戏app推荐)

在4399小游戏里,点击儿童小游戏,里面就有不及时的连连看。《连连看》只要将相同的两张牌用三根以内的直线连在一起消除即可。连连看,又称对对卡,是指图案配对的一种益智游戏,有多种形式,如卡片游戏、电子...

图片文字提取免费工具(图片文字提取免费工具在线)

1.打开手机,进入图库,点击打开一张图片。2.点击【分享】图标进入页面。3.点击【提取文字】。注意,只有手机已安装WPS才会出现此图标。第一种方法需要用到我们的聊天神器:QQ,进入任一聊天框并给...

一键群发500微信群软件(有没有微信一键群发5000人的软件)
一键群发500微信群软件(有没有微信一键群发5000人的软件)

1/8进入设置打开微信进入个人页面后,点击【设置】。2/8进入通用点击【通用】。3/8进入辅助功能点击【辅助功能】。4/8进入群发助手点击【群发助手】。5/8开始群发点击【开始群发】。6/8新建群发点击下方【新建群发】。7/8选择好友在这里...

2026-01-23 06:43 off999

万能驱动离线安装包(万能驱动离线版win10)

一、驱动人生()1、驱动人生为了针对用户的离线使用需求,专门推出了离线版的软件,能够在没有网络的情况下使用。2、通过内置的网卡驱动程序,帮助用户优先安装网卡驱动,进而可以连接网络并继续在网上下载安装驱...

中国象棋天天象棋(中国象棋天天象棋手机版)

天天象棋中的专区对局就是ai区,也就是软件区,专门给引擎下棋的,以前3.0版本里有,我玩过,没啥特别的,一开始匹配的都是新手,因为那个模式有独立的段位机制,后面更新之后就给禁掉了,跟ai对局没意思,还...

取消回复欢迎 发表评论: