机器学习(一):利用最小二乘法建立线性回归模型
off999 2024-10-14 12:13 41 浏览 0 评论
在之前的文章中,我们主要学习了几个与机器学习相关的Python库(numpy、pandas、matplotlib、seaborn),从本篇开始我们进入算法部分的学习,对于算法部分中涉及到的数学知识,请大家私下查阅。本篇文章我们主要掌握一些与机器学习有关的基础概念、并来看下线性回归模型的建立、推导和Python代码实现。
机器学习相关概念
统计模型:它是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。后面要讲的线性回归模型、决策树分类、朴素贝叶斯等都是一种统计模型。
监督学习(supervised learning):也可称为有标签的学习,学习中的监督来及训练数据集中标记的实例。举个例子,有一批心脏病人的训练数据集,数据集特征有性别、年龄、体重等,标签列为是否二次患心脏病,那么通过已给定的标签值去寻找规律的学习就是监督学习,说的直白点就是有标签的学习。
无监督学习(unsupervised learning):无标签的学习,本质上是聚类的同义词,学习过程中是无监督的,因为输入实例每一类别标记。比如,一个班级中有100个同学,根据每个人的特征分出男女生的过程就是个无监督的学习。
半监督学习(semi-supervised learning):是一类机器学习技术,在学习模型时,它使用标记和未标记的实例。标记的实例用来学习类模型,而未标记的实例用来进一步改进类边界。
主动学习(active learning):是一种机器学习方法,它让用户在学习过程中扮演主动角色。主动学习方法可能要去用户对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。
线性回归
对于线性回归,我们还是拿个例子来讲。比如我们在办理信用卡时,银行会根据我们的工龄、收入、固定资产拥有等情况而给出相应的额度,这里我们简化问题,假设额度和个人的工龄和收入有关,那么将额度看做因变量,工龄和工资作为自变量,就有以下的线性方程是(式1):
其中,hθ表示预测的额度,θ0是偏置项,大家可以理解为每个人的最低额度,θ1是工龄的系数,θ2是工资的系数。而机器学习的算法要做的是事情就是根据训练数据(实际已存在的)拟合出一个线性平面,使得空间中的点尽可能落在这个平面上。所以问题就转换根据训练数据计算特征系数的问题了,那么这个系数怎么求呢?首先,我们给式1的θ0乘以一个x0,并令x0=1,则得出式2:
式2就用矩阵乘法的形式表示了h0(额度)的值,而这是预测值,和实际值肯定是存在差异的,这里我们用ε表示,根据式2可以得到式3:
于是线性回归算法的问题被转换为求θ系数并且使得误差最小。那么如何使得误差最小呢,这里假设这个误差是独立且有相同的分布,且这个分布服从均值为0方差为θ^2的高斯分布。于是得到误差的分布式4:
将式4带入式3得到式5:
式5表示对于样本中每一个单独样本θ取某个值和样本值xi,yi组合的概率,由于样本集中有很多样本点,于是有得到似然函数(所有样本点都取那个值出现的概率)式6:
对于式6我们当然希望某个参数和我们的数据组合刚好是真实值,即似然函数的概率最大,为了求解方便,我们对似然函数两边取对数,得到式7:
对式7进行对数化简得到式8:
在式7中我们已经知道,要是求得的θ刚好使预测值等于真实值,那么就意味着似然函数取得最大值,由于式7中化简得到式8,所以问题就转换为使得式8中的后半部分取得最小,即最小二乘法,式9:
将式2带入式9,得到目标函数式10:
我们知道,如果使得使式10最小,就对它求导数,使得导数为0(即斜率为零,函数存在驻点,存在最值),由此得到θ的推导式11:
以上一些列的推导变化就是为了得到θ的表达式(表达式不再含未知数),看其他很绕,这里主要掌握两点,第一线性回归模型等式,第二最小二乘法(它通过最小化误差的平方和寻找数据的最佳函数匹配)。
Python代码实现
我们先看下训练数据集结构,代码如下:
import numpy as np from sklearn import datasets liner_data = datasets.load_diabetes() liner_data
这里我们根据θ的推导式,定义一个线性回归类,并写出训练方法:
class LinearRegression(): def __init__(self): self.θ = None def fit(self, X, y): X = np.insert(X, 0, 1, axis=1) X_ = np.linalg.inv(X.T.dot(X)) #这里求出θ值 self.θ = X_.dot(X.T).dot(y) def predict(self, X): X = np.insert(X, 0, 1, axis=1) y_pred = X.dot(self.θ) return y_predra
然后我们将数据传递到写好的训练函数中,训练出θ值并预测y值:
liner_data = datasets.load_diabetes() X = liner_data.data[:, np.newaxis, 2] #训练数据集,测试数据集 x_train, x_test = X[:-20], X[-20:] y_train, y_test = liner_data.target[:-20], liner_data.target[-20:] clf = LinearRegression() #开始训练数据 clf.fit(x_train, y_train) #得出预测值 y_pred = clf.predict(x_test)
将预测得到的y值和对应的x值画出对应的图像,如下:
plt.scatter(x_test[:,0], y_test, color='black') plt.plot(x_test[:,0], y_pred, color='blue', linewidth=3) plt.show()
以上就是线性关于线性回归的内容,可以看到,其实Python实现线性回归的 代码很短,我们可以直接使用别人的也没有问题,但是我觉得们必须知道线性回归的推导过程是有必要的,其中涉及的数学基础(如导数、概率分布、矩阵乘法等)必须要掌握才能更好的理解线性回归算法。
相关推荐
-
- k歌软件下载(屁颠虫k歌软件下载)
-
这个简单,直接在“应用市场”软件搜索“全民K歌”就能找到这款APP,然后下载安装就可以了在你的手机搜索全民K歌这个软件下载就可以了!可以在应用宝里面下载这个软件的你可以直接点击上方的搜索框按钮然后在里面搜下想要找的软件或者游戏类型,然后点击...
-
2026-01-23 11:15 off999
- 微信android平板版(安卓市场(平板版))
-
华为平板没有微信是因为美国政府禁令导致谷歌取消对华为的服务支持,包括谷歌应用商店和谷歌服务框架。微信是谷歌服务框架下的应用程序,华为平板无法正常访问谷歌服务框架,因此也无法使用微信。另外,华为也推出了...
- 手机迅雷ios老版本直装(手机迅雷ios旧版下载beta)
-
IOS用很多软件都能替代迅雷,就算迅雷不能使用的话,也可以使用其他的软件来代替,软件的种类也是非常多的。可以先下载一个第三方助手,然后尝试一下能不能把迅雷下载下来,大多数情况下,下载一个第三方助手就可...
- 可以和虚拟人物聊天的软件(可以和虚拟人物聊天的软件,用QQ直接登陆)
-
在火星App中与多个虚拟人物对话,其实是一个相当有趣且简单的体验。首先,你需要确保已经下载并安装了火星App,并打开它。接着,在App的界面中,你可以找到虚拟人物的选项。点击进去后,你会看到多个虚拟人...
- 三年片在线观看免费大全电影
-
第一位:极限影音这是中国第一家免费电影网站。虽然域名有点难记,但它在很多免费电影网站上都有很好的服务。这是个好名声。你可以在这里得到最快和最新的免费电影。第二位:007免费在线电影这个网站是一个很好的...
- 旧版qq(旧版qq豌豆荚)
-
手机QQ软件好多更新都不好用,可能是刚开始不稳定。建议用回旧版本先。你可以打开QQ主页,然后按软件QQ下载,里面有个链接是旧版本下载的,点开下载你以前的版本就可以了 一、检查qq版本是否过于陈旧...
- 湖南卫视直播在线观看高清电视台
-
1.解锁手机,找到桌面上的央视频APP,打开。2.进入主页面后,点击页面底部的“电视”选项。3.进入电视页面后,默认显示的是CCTV的频道,上方切换到“卫视”频道。4.在打开的卫视图标中我们就...
-
- rar解压软件官网(rar解压器官方免费下载)
-
winrar是解压软件。你没有安装winrar,所以打不开用winrar加压的软件。在网上下载个安装后就能用了。去安装解压软件啊,网上到处都有,直接在网上搜索就可以,软件下好后安装,将其设置在右键中,以后右键单击就可以解压相应winrar文...
-
2026-01-23 09:43 off999
- 音频编辑转换器(音频编辑转换器怎么用)
-
高转低音频转换器接法是指将一种信号转换成另一种信号的装置。信号是信息存在的形式或载体。在自动化仪表设备和自动控制系统中,常将一种信号转换成另一种与标准量或参考量比较后的信号,以便将两类仪表联接起来,因...
- 安卓游戏中心下载安装(安卓游戏中心app)
-
格来云游戏、Nibiru游戏城、快游戏、蟋蟀游戏大厅、石头游戏。以上app资源丰富,且支持外设连接,更新及时。1、格来云游戏:格来云游戏是动视云科技开发的APP,格来云不依赖玩家的电脑性能和储存,连...
- 正当防卫3手游下载(正当防卫三正版下载)
-
通过QQ浏览器,或者应用商店下载即可。华为手机上下载《正当防卫4》(JustCause4)的方法如下:方法一:使用华为应用市场(华为AppGallery)1.打开华为应用市场。2.在搜索框中输...
- 可以免费下载所有歌曲的网站
-
一、http://51Ape.Com一个免费提供无损音乐下载的网站,专注于Ape音乐、Flac音乐以及Wav等各类高品质无损音乐的免费下载,是目前国内比较好的免费音乐下载网站。二、91听歌网提供无损音...
- 龙珠斗士z手游版下载(龙珠斗士z手游版下载ios)
-
召唤神龙,实现愿望。龙珠z斗士中只要集齐七颗龙珠就可以召唤出神龙,来实现自己的愿望。在漫画动画各类手游中都是这样首先进入游戏主界面,点击“斗士”按钮进入选角界面,在选角界面中选择你要使用的角色并确认...
- 可以手动插人物的游戏手游(可以手动插人物的游戏手游app)
-
在手游对局中,左上角有一个开关,可切换手动开火和自动开火,切换到自动开火后,准星描到敌方人物即会自动开火。当然,并不是所有模式中都有自动开火开关,是特定的一些模式有该开关,比如挑战模式、刀战模式等。另...
- 手机铃声最好听的歌(手机铃声最好听的歌曲有哪些)
-
Everythingisnotwhatitseems超喜欢这首的,绝对不会撞见跟你铃声一样的Push艾薇儿的新歌,很好听,也很适合做铃声Foreverandalways钢琴版副歌部分很好听布兰妮的3也...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
win7系统还原步骤图解(win7还原电脑系统的步骤)
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
linux软件(linux软件图标)
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
