百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

如何使用 Java 调取 Python、R 的训练模型?

off999 2024-10-10 07:50 29 浏览 0 评论

在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。

PMML

PMML 是 Predictive Model Markup Language 的缩写,翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言,用于表达数据挖掘模型,可以用来在不同的应用程序中交换模型。

也就是说它定义了一个标准,不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理细节,我们这里不做深究,感兴趣的可以参见:http://dmg.org/pmml/v4-3/GeneralStructure.html。

PMML 能做什么

介绍完了 PMML 的概念后,大家可能还是很懵,不清楚它有什么用。先来相对正式地说下它的用处:对于 PMML,使用一个应用程序很容易在一个系统上开发模型,并且只需通过发送XML配置文件就可以在另一个系统上使用另一个应用程序部署模型。也就是说我们可以通过 Python 或 R 训练模型,将模型转为 PMML 文件,再使用 Java 根据 PMML 文件来构建 Java 程序。

来看一张关于 PMML 用途的图片:

这张图的信息来一一说明下:

  • 整个流程分为两部分:离线和在线。
  • 离线部分流程是将样本进行特征工程,然后进行训练、生成模型。一般离线部分常用 Python 中的 sklearn、R 或者 Spark ML 来训练模型。
  • 在线部分是根据请求得到样本数据,对这些数据采用与离线特征工程一样的方式来处理,然后使用模型进行评估。一般在线部分常用 Java、C++ 来开发。
  • 离线部分与在线部分是通过 PMML 连接的,也就是说离线训练好了模型之后,将模型导出为 PMML 文件,在线部分加载该 PMML 文件生成对应的评估模型。

我们可以看到,PMML 是连接离线与在线环节的关键,一般导出 PMML 文件和加载 PMML 文件都需要各个语言来做单独的实现。不过幸运的是,已经有很多大神实现了这些,可以参见:https://github.com/jpmml 。

实战环节

训练并导出 PMML

我们这里仍然是通过 sklearn 训练一个随机森林模型,我们需要借助 sklearn2pmml 将 sklearn 训练的模型导出为 PMML 文件。如果没有 sklearn2pmml,请输入以下命令来安装:

pip install --user git+https://github.com/jpmml/sklearn2pmml.git

我们来看下如何使用 sklearn2pmml 。

from sklearn.datasets import load_iris

from sklearn.ensemble import RandomForestClassifier

from sklearn2pmml import PMMLPipeline, sklearn2pmml

iris = load_iris()

# 创建带有特征名称的 DataFrame

iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

# 创建模型管道

iris_pipeline = PMMLPipeline([

("classifier", RandomForestClassifier())

])

# 训练模型

iris_pipeline.fit(iris_df, iris.target)

# 导出模型到 RandomForestClassifier_Iris.pmml 文件

sklearn2pmml(iris_pipeline, "RandomForestClassifier_Iris.pmml")

导出成功后,我们将在当前路径看到一个 PMML 文件:RandomForestClassifier_Iris.pmml。

导入 PMML 并进行评估

生成了 PMML 文件后,接下来我们要做的就是使用 Java 导入(加载)PMML文件。这里借助了 Java 的第三方依赖:pmml-evaluator。我们需要在 pom.xml 文件中加入以下依赖:

<dependency>

<groupId>org.jpmml</groupId>

<artifactId>pmml-evaluator</artifactId>

<version>1.4.1</version>

</dependency>

<dependency>

<groupId>org.jpmml</groupId>

<artifactId>pmml-evaluator-extension</artifactId>

<version>1.4.1</version>

</dependency>

引入 PMML 文件并进行评估的代码如下:

import org.dmg.pmml.FieldName;

import org.dmg.pmml.PMML;

import org.jpmml.evaluator.*;

import org.jpmml.model.PMMLUtil;

import org.xml.sax.SAXException;

import javax.xml.bind.JAXBException;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

public class ClassificationModel {

private Evaluator modelEvaluator;

/**

* 通过传入 PMML 文件路径来生成机器学习模型

*

* @param pmmlFileName pmml 文件路径

*/

public ClassificationModel(String pmmlFileName) {

PMML pmml = null;

try {

if (pmmlFileName != null) {

InputStream is = new FileInputStream(pmmlFileName);

pmml = PMMLUtil.unmarshal(is);

try {

is.close();

} catch (IOException e) {

System.out.println("InputStream close error!");

}

ModelEvaluatorFactory modelEvaluatorFactory = ModelEvaluatorFactory.newInstance();

this.modelEvaluator = (Evaluator) modelEvaluatorFactory.newModelEvaluator(pmml);

modelEvaluator.verify();

System.out.println("加载模型成功!");

}

} catch (SAXException e) {

e.printStackTrace();

} catch (JAXBException e) {

e.printStackTrace();

} catch (FileNotFoundException e) {

e.printStackTrace();

}

}

// 获取模型需要的特征名称

public List<String> getFeatureNames() {

List<String> featureNames = new ArrayList<String>();

List<InputField> inputFields = modelEvaluator.getInputFields();

for (InputField inputField : inputFields) {

featureNames.add(inputField.getName().toString());

}

return featureNames;

}

// 获取目标字段名称

public String getTargetName() {

return modelEvaluator.getTargetFields().get(0).getName().toString();

}

// 使用模型生成概率分布

private ProbabilityDistribution getProbabilityDistribution(Map<FieldName, ?> arguments) {

Map<FieldName, ?> evaluateResult = modelEvaluator.evaluate(arguments);

FieldName fieldName = new FieldName(getTargetName());

return (ProbabilityDistribution) evaluateResult.get(fieldName);

}

// 预测不同分类的概率

public ValueMap<String, Number> predictProba(Map<FieldName, Number> arguments) {

ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);

return probabilityDistribution.getValues();

}

// 预测结果分类

public Object predict(Map<FieldName, ?> arguments) {

ProbabilityDistribution probabilityDistribution = getProbabilityDistribution(arguments);

return probabilityDistribution.getPrediction();

}

public static void main(String[] args) {

ClassificationModel clf = new ClassificationModel("RandomForestClassifier_Iris.pmml");

List<String> featureNames = clf.getFeatureNames();

System.out.println("feature: " + featureNames);

// 构建待预测数据

Map<FieldName, Number> waitPreSample = new HashMap<>();

waitPreSample.put(new FieldName("sepal length (cm)"), 10);

waitPreSample.put(new FieldName("sepal width (cm)"), 1);

waitPreSample.put(new FieldName("petal length (cm)"), 3);

waitPreSample.put(new FieldName("petal width (cm)"), 2);

System.out.println("waitPreSample predict result: " + clf.predict(waitPreSample).toString());

System.out.println("waitPreSample predictProba result: " + clf.predictProba(waitPreSample).toString());

}

}

输出结果:

加载模型成功!

feature: [sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)]

waitPreSample predict result: 1

waitPreSample predictProba result: {0=0.0, 1=0.5, 2=0.5}

可以看到,模型需要的特征为:[sepal length (cm), petal width (cm), sepal width (cm), petal length (cm)],预测该样本最终属于目标编号为 1 的类型,预测该样本属于不同目标编号的概率分布,{0=0.0, 1=0.5, 2=0.5}。

小结

为了实现 Java 跨语言调用 Python/R 训练好的模型,我们借助 PMML 的规范,将模型固化为 PMML 文件,再使用该文件生成模型来评估。

作者:1or0,专注于机器学习研究。

声明:本文为公众号 AI派 投稿,版权归对方所有。

“征稿啦!”

CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。

如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱(guorui@csdn.net)。

相关推荐

阿里云国际站ECS:阿里云ECS如何提高网站的访问速度?

TG:@yunlaoda360引言:速度即体验,速度即业务在当今数字化的世界中,网站的访问速度已成为决定用户体验、用户留存乃至业务转化率的关键因素。页面加载每延迟一秒,都可能导致用户流失和收入损失。对...

高流量大并发Linux TCP性能调优_linux 高并发网络编程

其实主要是手里面的跑openvpn服务器。因为并没有明文禁p2p(哎……想想那么多流量好像不跑点p2p也跑不完),所以造成有的时候如果有比较多人跑BT的话,会造成VPN速度急剧下降。本文所面对的情况为...

性能测试100集(12)性能指标资源使用率

在性能测试中,资源使用率是评估系统硬件效率的关键指标,主要包括以下四类:#性能测试##性能压测策略##软件测试#1.CPU使用率定义:CPU处理任务的时间占比,计算公式为1-空闲时间/总...

Linux 服务器常见的性能调优_linux高性能服务端编程

一、Linux服务器性能调优第一步——先搞懂“看什么”很多人刚接触Linux性能调优时,总想着直接改配置,其实第一步该是“看清楚问题”。就像医生看病要先听诊,调优前得先知道服务器“哪里...

Nginx性能优化实战:手把手教你提升10倍性能!

关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构而核心,下面我重点详解Nginx性能@mikechen文章来源:mikechen.cc1.worker_processe...

高并发场景下,Spring Cloud Gateway如何抗住百万QPS?

关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen。高并发场景下网关作为流量的入口非常重要,下面我重点详解SpringCloudGateway如何抗住百万性能@m...

Kubernetes 高并发处理实战(可落地案例 + 源码)

目标场景:对外提供HTTPAPI的微服务在短时间内收到大量请求(例如每秒数千至数万RPS),要求系统可弹性扩容、限流降级、缓存减压、稳定运行并能自动恢复。总体思路(多层防护):边缘层:云LB...

高并发场景下,Nginx如何扛住千万级请求?

Nginx是大型架构的必备中间件,下面我重点详解Nginx如何实现高并发@mikechen文章来源:mikechen.cc事件驱动模型Nginx采用事件驱动模型,这是Nginx高并发性能的基石。传统...

Spring Boot+Vue全栈开发实战,中文版高清PDF资源

SpringBoot+Vue全栈开发实战,中文高清PDF资源,需要的可以私我:)SpringBoot致力于简化开发配置并为企业级开发提供一系列非业务性功能,而Vue则采用数据驱动视图的方式将程序...

Docker-基础操作_docker基础实战教程二

一、镜像1、从仓库获取镜像搜索镜像:dockersearchimage_name搜索结果过滤:是否官方:dockersearch--filter="is-offical=true...

你有空吗?跟我一起搭个服务器好不好?

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。昨天闲的没事的时候,随手翻了翻写过的文章,发现一个很严重的问题。就是大多数时间我都在滔滔不绝的讲理论,却很少有涉及动手...

部署你自己的 SaaS_saas如何部署

部署你自己的VPNOpenVPN——功能齐全的开源VPN解决方案。(DigitalOcean教程)dockovpn.io—无状态OpenVPNdockerized服务器,不需要持久存储。...

Docker Compose_dockercompose安装

DockerCompose概述DockerCompose是一个用来定义和管理多容器应用的工具,通过一个docker-compose.yml文件,用YAML格式描述服务、网络、卷等内容,...

京东T7架构师推出的电子版SpringBoot,从构建小系统到架构大系统

前言:Java的各种开发框架发展了很多年,影响了一代又一代的程序员,现在无论是程序员,还是架构师,使用这些开发框架都面临着两方面的挑战。一方面是要快速开发出系统,这就要求使用的开发框架尽量简单,无论...

Kubernetes (k8s) 入门学习指南_k8s kubeproxy

Kubernetes(k8s)入门学习指南一、什么是Kubernetes?为什么需要它?Kubernetes(k8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。它...

取消回复欢迎 发表评论: