机器不学习:Java如何跨语言调用Python/R训练的模型
off999 2024-10-10 07:50 39 浏览 0 评论
机器不学习 www.jqbxx.com : 深度聚合机器学习、深度学习算法及技术实战
在 如何使用sklearn进行在线实时预测(构建真实世界中可用的模型) 这篇文章中,我们使用 sklearn + flask 构建了一个实时预测的模型应用。无论是 sklearn 还是 flask,都是用 Python 编写的,在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用,这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。很明显,之前方式就无法满足要求了。
文章目录 [展示]
PMML
概念
PMML 是 Predictive Model Markup Language 的缩写,翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言,用于表达数据挖掘模型,可以用来在不同的应用程序中交换模型。也就是说它定义了一个标准,不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理细节,我们这里不做深究,感兴趣的可以参见:http://dmg.org/pmml/v4-3/GeneralStructure.html
PMML 能做什么
介绍完了 PMML 的概念后,大家可能还是很懵逼,不清楚它有什么用。先来相对正式的说下它的用处:对于 PMML,使用一个应用程序很容易在一个系统上开发模型,并且只需通过发送XML配置文件就可以在另一个系统上使用另一个应用程序部署模型。也就是说我们可以通过 Python 或 R 训练模型,将模型转为 PMML 文件,再使用 Java 根据 PMML 文件来构建 Java 程序。来看一张关于 PMML 用途的图片。
这一张图的信息量爆炸我,我来一一说明下:
- 整个流程分为两部分:离线和在线。
- 离线部分流程是将样本进行特征工程,然后进行训练,生成模型。一般离线部分常用 Python 中的 sklearn、R 或者 Spark ML 来训练模型。
- 在线部分是根据请求得到样本数据,对这些数据采用与离线特征工程一样的方式来处理,然后使用模型进行评估。一般在线部分常用 Java、C++ 来开发。
- 离线部分与在线部分是通过 PMML 连接的,也就是说离线训练好了模型之后,将模型导出为 PMML 文件,在线部分加载该 PMML 文件生成对应的评估模型。
我们可以看到,PMML 是连接离线与在线环节的关键,一般导出 PMML 文件和 加载 PMML 文件都需要各个语言来做单独的实现。不过幸运的是,已经有很多大神实现了这些,可以参见:https://github.com/jpmml 。
实战环节
训练并导出 PMML
我们这里仍然是通过 sklearn 训练一个随机森林模型,我们需要借助 sklearn2pmml 将 sklearn 训练的模型导出为 PMML 文件。如果没有 sklearn2pmml,请输入以下命令来安装:
pip install --user git+https://github.com/jpmml/sklearn2pmml.git
Bash
我们来看下如何使用 sklearn2pmml 。
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn2pmml import PMMLPipeline, sklearn2pmml
iris = load_iris()
# 创建带有特征名称的 DataFrame
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
# 创建模型管道
iris_pipeline = PMMLPipeline([
("classifier", RandomForestClassifier())
])
# 训练模型
iris_pipeline.fit(iris_df, iris.target)
# 导出模型到 RandomForestClassifier_Iris.pmml 文件
sklearn2pmml(iris_pipeline, "RandomForestClassifier_Iris.pmml")
Python
导出成功后,我们将在当前路径看到一个 PMML 文件:RandomForestClassifier_Iris.pmml。
导入 PMML 并进行评估
生成了 PMML 文件后,接下来我们要做的就是使用 Java 导入(加载)PMML文件。这里借助了 Java 的第三方依赖:pmml-evaluator。我们需要在 pom.xml 文件中加入以下依赖:
<dependency>
<groupId>org.jpmml</groupId>
<artifactId>pmml-evaluator</artifactId>
<version>1.4.1</version>
</dependency>
<dependency>
<groupId>org.jpmml</groupId>
<artifactId>pmml-evaluator-extension</artifactId>
<version>1.4.1</version>
</dependency>
Bash
引入 PMML 文件并进行评估的代码如下:
import org.dmg.pmml.FieldName;
import org.dmg.pmml.PMML;
import org.jpmml.evaluator.*;
import org.jpmml.model.PMMLUtil;
import org.xml.sax.SAXException;
import javax.xml.bind.JAXBException;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
public class ClassificationModel {
private Evaluator modelEvaluator;
/**
* 通过传入 PMML 文件路径来生成机器学习模型
*
* @param pmmlFileName pmml 文件路径
*/
public ClassificationModel(String pmmlFileName) {
PMML pmml = null;
try {
if (pmmlFileName != null) {
InputStream is = new FileInputStream(pmmlFileName);
pmml = PMMLUtil.unmarshal(is);
try {
is.close();
} catch (IOException e) {
System.out.println("InputStream close error!");
}
ModelEvaluatorFactory modelEvaluatorFactory = ModelEvaluatorFactory.newInstance();
this.modelEvaluator = (Evaluator) modelEvaluatorFactory.newModelEvaluator(pmml);
modelEvaluator.verify();
System.out.println("加载模型成功!");
}
} catch (SAXException e) {
e.printStackTrace();
} catch (JAXBException e) {
e.printStackTrace();
} catch (FileNotFoundException e) {
e.printStackTrace();
}
}
// 获取模型需要的特征名称
public List<String> getFeatureNames() {
List<String> featureNames = new ArrayList<String>();
List<InputField> inputFields = modelEvaluator.getInputFields();
for (InputField inputField : inputFields) {
featureNames.add(inputField.getName().toString());
}
return featureNames;
}
// 获取目标字段名称
public String getTargetName() {
return modelEvaluator.getTargetFields().get(0).getName().toString();
}
// 使用模型生成概率分布
private ProbabilityDistribution getProbabilityDistribution(Map<FieldName, ?> arguments) {
Map<FieldName, ?> evaluateResult = modelEvaluator.evaluate(arguments);
FieldName fieldName = new FieldName(getTargetName());
return (ProbabilityDistribution) evaluateResult.get(fieldName);
}
// 预测不同分类的概率
public ValueMap<String, Number> predictProba(Map<FieldName, Number> arguments) {
ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);
return probabilityDistribution.getValues();
}
// 预测结果分类
public Object predict(Map<FieldName, ?> arguments) {
ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);
return probabilityDistribution.getPrediction();
}
public static void main(String[] args) {
ClassificationModel clf = new ClassificationModel("RandomForestClassifier_Iris.pmml");
List<String> featureNames = clf.getFeatureNames();
System.out.println("feature: " + featureNames);
// 构建待预测数据
Map<FieldName, Number> waitPreSample = new HashMap<>();
waitPreSample.put(new FieldName("sepal length (cm)"), 10);
waitPreSample.put(new FieldName("sepal width (cm)"), 1);
waitPreSample.put(new FieldName("petal length (cm)"), 3);
waitPreSample.put(new FieldName("petal width (cm)"), 2);
System.out.println("waitPreSample predict result: " + clf.predict(waitPreSample).toString());
System.out.println("waitPreSample predictProba result: " + clf.predictProba(waitPreSample).toString());
}
}
Java
输出结果
加载模型成功!
feature: [sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)]
waitPreSample predict result: 1 waitPreSample predictProba result: {0=0.0, 1=0.5, 2=0.5}
Bash
可以看到,模型需要的特征为:[sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)],预测该样本最终属于目标编号为 1 的类型,预测该样本属于不同目标编号的概率分布,{0=0.0, 1=0.5, 2=0.5}。
小结
为了实现 Java 跨语言调用 Python/R 训练好的模型,我们借助 PMML 的规范,将模型固化为 PMML 文件,再使用该文件生成模型来评估。
相关推荐
- 安全教育登录入口平台(安全教育登录入口平台官网)
-
122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...
- 大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)
-
大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...
-
- 哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
-
要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...
-
2026-02-04 09:03 off999
- 电信宽带测速官网入口(电信宽带测速官网入口app)
-
这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...
- 植物大战僵尸95版手机下载(植物大战僵尸95 版下载)
-
1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...
- 免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)
-
1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...
- 2025世界杯赛程表(2025世界杯在哪个国家)
-
2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...
- 下载搜狐视频电视剧(搜狐电视剧下载安装)
-
搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...
- 永久免费听歌网站(丫丫音乐网)
-
可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...
- 音乐格式转换mp3软件(音乐格式转换器免费版)
-
有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...
- 电子书txt下载(免费的最全的小说阅读器)
-
1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...
- 最好免费观看高清电影(播放免费的最好看的电影)
-
在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...
- 孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)
-
要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...
欢迎 你 发表评论:
- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
