spark+python环境搭建(spark 搭建)
off999 2024-10-15 12:05 40 浏览 0 评论
最近项目需要用到spark大数据相关技术,周末有空spark环境搭起来...
目标
spark,python运行环境部署在linux服务器
个人通过vscode开发
通过远程python解释器执行代码准备
腾讯云服务器一台
个人笔记本一台
vscode
spark3.2,anaconda3,jdk1.8spark安装
# 下载spark安装包
wget https://dlcdn.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
# 创建安装目录/export/server
mkdir /export/server
# 安装包解压
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C "/export/server"
# 创建spark安装目录软连接
ln -s /export/server/spark-3.2.1-bin-hadoop3.2/ /export/server/spark
# 进入spark可执行程序目录,执行pyspark
cd /export/server/spark/bin; ./pyspark => JAVA_HOME is not set
提示jdk未安装,下一步进行jdk安装...jdk安装
# 将准备好的jdk安装包jdk-8u161-linux-x64.tar.gz解压至/export/server目录
tar -zxvf /home/dev/jdk-8u161-linux-x64.tar.gz -C /export/server
# 创建jdk安装目录软连接
ln -s jdk1.8.0_161/ jdk8
# 添加JAVA_HOME环境变量
vi /etc/profile,添加
export JAVA_HOME=/export/server/jdk8
export PATH=$PATH:$JAVA_HOME/bin
# 再次执行/export/server/spark>bin/pyspark => env: python3: No such file or directory
提示python3没有安装,下一步进行python3安装...Anaconda3安装(即python)
# 下载anaconda3安装包
wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh
# 安装anoconda3
sh Anaconda3-2022.05-Linux-x86_64.sh
在安装过程中的交互提示依次输入: enter => yes => /export/server/anaconda3 => yes
直到安装完成
# 重新登录终端看见(base)开头表示安装成功
# vi /etc/profile,添加
export PYSPARK_PYTHON=/export/server/anaconda3/bin/python
# 再次执行/export/server/spark>bin/pyspark => pyspark启动成功,进入交互页面
# 输入python测试代码:
>>>
>>> sc.parallelize([1,2,3,4,5]).map(lambda x: x+1).collect()
[2, 3, 4, 5, 6] #运行结果
# pyspark运行时,在新开的终端检查4040端口监听情况
netstat -anp|grep 4040
tcp6 0 0 :::4040 :::* LISTEN -
每一个Spark程序在运行的时候, 会绑定到Driver所在机器的4040端口上.
如果4040端口被占用, 会顺延到4041...,可通过浏览器访问 4040端口验证
# 通过spark-submit执行.py脚本,执行官方sample:
/export/server/spark>bin/spark-submit \
/export/server/spark/examples/src/main/python/pi.py 10
# 自定义脚本helloworld.py:
print("hello,world!")
# 通过spark-submit执行
/export/server/spark>bin/spark-submit /export/demo/helloworld.py
hello,world! # 输出PySpark库安装
conda create -n pyspark python=3.9 #创建虚拟环境pyspark
conda activate pyspark #切换虚拟环境为pyspark
# 检查虚拟环境pyspark的python解释器路径
type python => python is /export/server/anaconda3/envs/pyspark/bin/python
vi /etc/profile编辑
PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple #安装PySpark
# 验证PySpark
/export/server>python
>>> import pyspark # import pyspark不报错,表示pyspark库安装成功本地vscode开发远程代码、使用远程解释器执行配置
本地免密访问服务器配置:将本地的公钥(C:\\Users\\your account\\.ssh\\id_rsa.pub)内容
配置在需要免密访问的linux服务器用户的$HOME/.ssh/authorized_keys文件中
vscode安装remote development插件,重启vscode
vscode添加远程ssh targets:
a) 点击ssh targets "+"
b) 在弹出框输入 ssh username@ip 回车
c) 在弹出的下拉项中选择 C:\\Users\\your account\\.ssh\\config
d) 编辑config文件
Host xxx #无需编辑
HostName xxx #无需编辑
User xxx #无需编辑
ForwardAgent yes # 需要新增
IdentityFile C:\\Users\\your account\\.ssh\\id_rsa #需要新增
vscode安装python插件
vscode添加远程python解释器:
a) Ctrl + Shift + p打开命名面板
b) 输入Python: Select Interpreter选择解释器
c) 输入远程python解释器路径: /export/server/anaconda3/envs/pyspark/bin/pythonvscode开发,远程执行验证
vscode选择远程服务器打开目录
vscode中新建helloworld.py文件,并录入print("hello,world!")
vscode中执行helloworld.py#使用的是远程解释器
vscode提升缺少package,linux服务安装python包:
pip install jupyter notebook -i https://pypi.tuna.tsinghua.edu.cn/simple
在vscode中重新运行helloworld.py运行成功完成,以后就可以开心地编写pyspark代码了,再也不担心本机卡卡卡了(*_*),附完成图一张:
相关推荐
- 超级吞噬系统txt(超级吞噬系统txt完整版下载)
-
男主从未推倒柳儿,一直把柳儿当妹妹,出去历练升级从未带着她,后面男主把她安置好后,作者就再没写过她。两人一直分开。吞噬星空的九大超级势力有六大巅峰种族,人族,虫族,机械族,妖族,晶族,狱族,还有另外三...
- dos如何格式化硬盘并分区(怎么在dos下格式化分区工具)
-
1、方式一:在“开始”搜索框汇总输入“cmd”并回车,2、方式二:单击“开始”——所有程序——附件——命令提示符,3、查看分区数:在DOS界面下输入“wmicdiskdrivegetpartit...
- vivo系统升级最新版本(vivo系统升级到什么版本了)
-
您可以按照以下步骤来更新vivoY5s的操作系统:1.进入设置-系统更新。2.点击“检查更新”,确保您的手机已经连接上WiFi并检测到有可用的更新。3.如果有可用的更新,请按照提示下载并安...
- 电脑做系统软件排行榜(做电脑系统的软件)
-
1、360安全卫士是一款由奇虎360公司推出的功能强、效果好、受用户欢迎的安全杀毒软件。360安全卫士拥有查杀木马、清理插件、修复漏洞、电脑体检、电脑救援、保护隐私,电脑专家,清理垃圾,清理痕迹多种功...
- win7热点(win7热点无ip分配)
-
1、点击桌面左下角的开始按钮,在搜索栏输入cmd,右击上方出现的cmd.exe,在弹出菜单中选择以管理员身份运行。2、然后在“命令提示符”里输入“netshwlansethostednetwor...
- centos下载安装(centos安装软件教程)
-
首先要知道您需要下载linux哪个发行版,目前比较流行的是ubuntu,所以以ubuntu为例说明:1、访问ubuntu官方网站www.ubuntu.com2、点击右上角的DownLoad(下载),...
- 360老版本卫士2014版(360卫士8.7.0)
-
先打开360官网,下载360软件管家,再从360软件管家里下载360卫士这是明显的中毒表现:1、关闭系统还原;2、重启,按F8,进入安全模式。3、在安全模式里,打开360杀毒。4、全盘查杀。要耐心等待...
- iso文件是什么格式(iso是啥格式)
-
pic是一种图片格式的文件,不过以pic为后缀的图片文件并不多见,所以有很多人都不知道pic是什么以及pic文件应该用什么打开。可以将pic文件修改为jpg文件格式,打开方式如下:1、第一步,首先在电...
- 8t硬盘安装win7系统(8t硬盘用什么分区)
-
7-8吨。t就是吨的英文缩写。吨是音译专用字,用于重量单位或船只容积单位。繁体字“吨”由“口”和“顿”字构成,“口”字表示它是音译外来语用字,“顿”字近似地表示其读音。◎质量单位,公制一吨等于100...
- cdr格式怎么转换成psd(cdr格式怎么转换成ezd)
-
CDR文件是CorelDRAW的原始文件格式,而PSD文件是AdobePhotoshop的原始文件格式。因此,要将CDR文件转换为PSD格式,您可以使用以下两种方法:1.打开CorelDRAW并打...
-
- 免费p图软件(电脑免费p图软件)
-
分享几款免费看vip电影电视剧的app,只要在各大播放器上映的电影,在这几款app都可以看到。1、火星影视2、新电影天堂3、呲哩呲哩4、鲨鱼影视这些软件直接可以百度下载,爱奇艺,腾讯视频电脑上有哪些画画的软件好用,要免费的,windows自...
-
2025-12-25 01:03 off999
- 英特尔i5处理器性能排行榜(英特尔i5处理器性能介绍)
-
性能从高到低:i5-11600k(f),i5-11600(f),i5-11500,i5-10600k(f),i5-11400(f),i5-11600t,i5-10600(f),i5-11500t,i5...
-
- 视频修复软件免费版(高清视频修复软件免费版)
-
视频修复软件众多,电脑端用会声会影,可以进行编辑,特效,完善音视频你所构建大多部分内容。另外如果是视频损坏的话也可以用另外一款软件也是比较适合,比如AllMediaFixer是多媒体文件修复工具,如果你有一些多媒体文件无法播放时,可能这...
-
2025-12-24 23:51 off999
- 电脑黑屏只能看见鼠标(联想电脑黑屏只有鼠标箭头怎么办)
-
1、按电脑上面的重启按钮,然后按住键盘上面的F8。 2、按键盘上面的方向键选择,安全模式里面的第一个选项。 3、进入桌面后点击控制面板,选择卸载。 4、然后右键卸载最近安装的软件,接着点击左下角...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
