当前位置：网站首页 > 技术资源 > 正文

机器学习入门:第一部分（机器学习入门知识）

off999 2024-09-23 11:37 44 浏览 0 评论

第一部分

机器学习是啥

通过大量学习, 确定函数模型, 进而预测新的情况

函数y=wx+b

训练

已知大量的x和y,

通过模型训练得到最优的w和b

预测

给我一个x,使用y=wx+b将y计算出来

机器学习算法的三要素:

模型 y=wx+b

决定了一种函数空间(无限个函数)

损失函数:

通过一个函数值来评估函数的好和坏

损失函数值越小,模型越好

损失函数值越大,模型越差

将寻找最优模型的问题转换成一个寻找函数最小值的问题(寻找能够让损失函数取得最小值的参数)

优化方法:

用什么方法找到让损失函数取得最小值的参数凸优化

最小二乘法

梯度下降法

smo

机器学习工作流程

人和机器

人的学习：用大量参数学习少量数据

机器学习：用少量参数学习大量数据

流程

机器学习只能对数值型数据进行计算

机器学习工作流程总结

1.获取数据

2.数据基本处理

3.特征工程

4.机器学习(模型训练)

5.模型评估

结果达到要求，上线服务

没有达到要求，重新上面步骤

数据集简介

基本概念

样本：一行

特征：一列 x

目标：特殊的一列 y

数据类型

监督数据：既有x也有y

y离散：分类选择题

y连续：回归计算题

无监督数据：只有x，没有y

数据集分割

训练集：用于模型训练练习

测试集：用于模型评估考试

特征工程

数据变成更适合模型学习的形式

特征提取— 将非数值变成数值

特征预处理— 将数值变成更容易学习的数值

特征降维— 将高维数据降到低维

减小计算量

防止过拟合

机器学习算法分类

监督学习：数据有x和y

y连续：回归房价预测，票房预测，点击率预测，销量预测，销售额预测

y离散：分类

非监督学习：数据只有x没有y

聚类

半监督— 一半有y，一半没有y

强化学习— 训猴

聪明的汉斯

机器学习模型评估

分类评估— 分对错

准确率

精确率

召回率

F1值

AUC

回归- 不能分对错，看误差（预测值-真实值）大小

R方 [0,1] 决定系数

RMSE 根均方误差

RMSE是一个衡量回归模型误差率的常用公式, 不过, 它仅能比较误差是相同单位的模型

开根号: (累加:(第i个样本预测值-第i个样本真实值)**2) / 样本数量

MSE 均方误差

(累加:(第i个样本预测值-第i个样本真实值)**2) / 样本数量

MAE 平均绝对误差

欠拟合

表现：模型在训练集和测试集都不好

原因：模型过于简单，数据过于复杂

过拟合

表现：模型在训练集上拟合很好，测试集拟合很差

原因：

模型过于复杂，学习了很多训练集特有的特征，而测试集没有

数据过于简单

k近邻算法简介

原理：

你的朋友好人多，你就是好人

你的朋友坏人多，你就是坏人

流程

计算预测样本跟所有训练样本之间的距离

升序排序

选择最近的k个训练样本做为近邻

统计近邻样本中类别的频次，频次最高的类别作为预测类别

实现

特性

没有训练过程

没有得到模型

训练不干事,预测跑断腿

预测的时候要计算预测样本跟所有样本的距离,运算量很大

预测效率低下

#1.指定k值几个朋友?

k=3

#2.计算所有点到预测点的距离

# 方式1:

# distances=[sqrt(sum((x_train-x)**2)) for x_train in X_train]

# 方式2:

#distances=np.sqrt(np.sum(np.square(X_train-x),axis=1))

# 方式3:

distances=np.sum(np.square(X_train-x),axis=1)

#3.距离排序

#返回升序排序后的下标序列

nearest=np.argsort(distances)

# nearest,distances

#4.取出topk类别

#取出k近邻样本的类别值

topk=[y_train[i] for i in nearest[:k]]

#5.统计近邻中的类别频次

from collections import Counter

counter=Counter(topk)

#6.取频次最高的类别作为预测类别

counter.most_common(1)[0][0]

可以优化的方面:

1. python自带的sqrt, sum等方法速度太慢. 我们可以使用np自带的 np.sqrt np.square np.sum来进行计算. 速度会提升很多

2. 求和之后的结果, 是一个正值, 所以我们可以开平方, 也可以不开, 因为在x>0的部分, x**2 函数时单调递增的, 所以开不开平方都是一样的, 这样可以显著提高速度

3.pandas中支持数组索引. 例如:

y_train[[这是个数组]] 这样也可以把y_train中的数据取出来, 速度相比 [for] 这样的使用更快

抛弃原有特征,使用样本间距离对样本特征进行重新构建,然后进行预测

我是好人还是坏人跟我是一个什么样的人没有关系

可解释性差

无法解释x和y之间的关系

python开根号

上一篇：【Rust和Python】编程学习:下一个质数
下一篇：Redis哈希类型使用命令（redis 哈希算法）

机器学习入门:第一部分（机器学习入门知识）

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

python入门到脱坑输入与输出—str()函数

16949认证费用是多少（16949审核员太难考了）

linux软件（linux软件图标）

Python三目运算基础与进阶_python三目运算符判断三个变量

失业程序员复习python笔记——条件与循环

机器学习入门:第一部分（机器学习入门知识）

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

python入门到脱坑 输入与输出—str()函数

16949认证费用是多少（16949审核员太难考了）

linux软件（linux软件图标）

Python三目运算基础与进阶_python三目运算符判断三个变量

失业程序员复习python笔记——条件与循环

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数