Spark实战项目:交通实战项目(附加学习视频)
off999 2024-12-25 14:48 84 浏览 0 评论
前言
今天为大家带来是关于spark的实战项目。本次项目小编整理成了视频和文档的形势以及罗列了每一个重要的笔记和学习路线方便大家学习和参考!
1.数据表
2.数据来源
3.数据模拟
4.项目业务
- 卡扣监控
- 车流量top5的卡扣
- top5卡扣下所有车辆详细信息
- 获取车辆高速通过的TOPN卡扣
- 车辆高速这5个卡扣每个卡扣下车辆速度top10
- 碰撞分析
- 车辆轨迹
- 随机抽取车辆
- 计算卡扣流量转换率
数据表
monitor_flow_action 车流量监控表
monitor_camera_info 卡扣摄像头基本关系表数据来源
1.如果任务在本地执行,数据是每次运行模拟
2.如果任务在集群中运行,数据来源是Hive表
数据模拟
本地模拟
数据导入到Hive中
项目业务
1.卡扣监控
正常的卡扣数 7
异常的卡扣数 2
正常的摄像头个数 1000
异常的摄像头个数 5
异常的摄像头详细信息
0001:33333,44444~00005:12814,87463,99123
monitor_flow_action:
(0006,11111_22222,33333,44444,55555)
monitor_camera_info:
(0006,11111_22222,33333,44444,55555)
提交任务命令:
./spark-submit --master spark://node1:7077,node2:7077 --jars /root/test/mysql-connector-java-5.1.47.jar,/root/test/fastjson-1.2.11.jar --driver-class-path /root/test/mysql-connector-java-5.1.47.jar:/root/test/fastjson-1.2.11.jar --class com.bjsxt.spark.skynet.MonitorFlowAnalyze /root/test/TrafficProject-1.0-SNAPSHOT.jar 1
./spark-submit --master spark://node1:7077,node2:7077 --class com.bjsxt.spark.skynet.MonitorFlowAnalyze /root/test/TrafficProject-1.0-SNAPSHOT-jar-with-dependencies.jar 12.车流量top5的卡扣
3.top5卡扣下所有车辆详细信息
4.获取车辆高速通过的TOPN卡扣
二次排序问题
A B
speed >=120 高速 1 1
90<=speed<120 中速 2 10
60<=speed<90 正常 3 2
speed<60 低速 10 20
5.车辆高速这5个卡扣每个卡扣下车辆速度top10
分组取topN问题
- 1.原生集合排序
- 2.定义定长数组
6.碰撞分析
01,02中这一天同时出现的车辆
01:(car,row) 02:(car,row)
(car,row).join(car,row)
01:car 02:car
car02.intersection(car02)
7.车辆轨迹
统计卡扣0001下所有车辆的轨迹 -- take(20)
8.随机抽取车辆
在一天中抽取1000辆车分析当前道路的运行情况。这些车辆要分布均匀
一天中通过了车辆10000车。要随机抽取1000量车来代表当前道路的运行情况。怎么抽?
sample(0.1) = 1000
00-01:100 -- 100/10000 * 1000 = 10
01-02:200 -- 20
02-03:50 -- 5
03-04:100 -- 10
04-05:100
06-07:100
07-08:2000 --200
08-09:2000 --200
...
...
按照小时段抽取车辆。
9.计算卡扣流量转换率
一辆车的轨迹:
0001->0002->0001->0003->0001->0002
卡扣0001到卡扣0002的车流量转化率:2/3
0001,0002,0003,0004,0005:
0001,0002:
经过卡扣0001又经过卡扣0002的车辆数/经过卡扣0001的车辆数
0001,0002,0003:
经过卡扣0001,0002又经过卡扣0003的车辆数/经过卡扣0001,0002的车辆数
0001,0002,0003,0004:
经过卡扣0001,0002,0003又经过卡扣0004的车辆数/经过卡扣0001,0002,0003的车辆数
0001,0002,0003,0004,0005:
经过卡扣0001,0002,0003,0004又经过卡扣0005的车辆数/经过卡扣0001,0002,0003,0004的车辆数
10.SparkSQL
计算每个区域中车流量top3道路
海淀区 建材城西路 10000 0001=3000|0002=4000|0003=3000
海淀区 建材城东路 8000 0004=3000|0005=5000
海淀区 安宁庄东路 7000
朝阳区 朝阳路01 9000
朝阳区 朝阳路02 8000
朝阳区 朝阳路03 7000
tmp_car_flow_basic:
area_id area_name road_id monitor_id car
select
area_name,road_id,car_count,monitor_infos
from
(select
area_name,road_id, car_count,monitor_infos,row_number() over (partition by area_name order by car_count desc) as rn
from
(select
area_name,road_id,count(car) as car_count,UDAF(monitor_id) as monitor_infos
from
tmp_car_flow_basic
group by
area_name,road_id) tmp_area_road_flow_count) tmp
where rn<=3
学习路线
- 01-代码调优
- 02-Spark数据本地化调节+内存调节+shuffle调优
- 03-Spark 堆外内存调节+解决数据倾斜01
- 04-解决数据倾斜02
- 05-解决数据倾斜03
- 06-项目-卡扣流量转换率
- 07-项目-卡扣流量转换率代码
- 08-项目-区域道路车流量top3
实战笔记
- Spark-day1
- Spark-day2
- Spark-day3
- Spark-day4
- Spark-day5
- Spark-day6
- Spark-day7
- Spark-day8
- Spark-day9
- Spark-day10
最后
小编把一些重点知识点整理成视频和文档,想要获取的小伙伴可以私信【学习】获取哦~~~
相关推荐
- 无敌系统流小说(无敌系统流的小说)
-
《嫡女之花开富贵》作者:伊人睽睽简介祖父是镇国将军,贵不可言;外公是帝师,才名满天下;父母亲琴瑟和鸣,恩爱无双,无妾室插足;穿越为书香门第的嫡小姐,且无任何庶兄妹,慕兰音认为,她这一生,必将佳期如梦...
-
- 键盘上windows键是哪个键(电脑键盘上windows键是哪个)
-
一、台式机键盘。Windows键,简称“Winkey”或“Win键”,是在计算机键盘左下角Ctrl和Alt键之间的按键,台式机全尺寸键盘的主键盘区左下角和右下角各有一个,图案是MicrosoftWindows的视窗徽标。二、笔记...
-
2026-01-13 11:51 off999
-
- 桌面图标设置在哪打开(桌面图标从哪里调出)
-
1、首先来到电脑桌面,此时桌面没有任何图标,如下图所示。2、我们先右键单击任务栏,会出现工具栏,这时我们在下拉的选项里选择“快速启动”按钮。3、单击快速启动按钮后会出现如图所示情况,这时在电脑屏幕的左下方会显示很多快捷按钮,一般情况下单击快...
-
2026-01-13 10:51 off999
- windows如何进入启动项(怎么进入启动选项)
-
方法步骤如下:1.点击应用在Windows设置界面点击应用选项进入。2.选择启动在左侧分类中选择启动选项。3.点击开关点击软件后方的开关即可启动或关闭开机启动项。1、在Window的文件资...
- win11下载安装
-
一、允许安装软件1、首先点击左下角的开始按键,然后点击“settings”进入设置。2、然后点击设置中的“应用”选项。3、在点击左侧任务栏中的“应用和功能”。4、点击下拉栏,然后选择其中的“任何来源”...
- win7支持的最高配置(win7支持的最高配置是多少)
-
答案是支持win7的最高配置应该是i99900k加b365主板。 不过这套配置市面上价格偏高。这种机器比同等酷睿13代处理器的价格还要高至少一千元以上。而且就性能而言要超过i99900...
- 指令引用的内存不能为read(指令引用的0x0000000内存.该内存不能为read)
-
出现“指令引用内存不能为read”的错误可能有多种原因,包括软件冲突、驱动问题、内存质量问题等。以下是一些可能的解决方案:1.检查是否有软件冲突:尝试关闭可能冲突的软件,例如杀毒软件、优化软件等。2...
- hp1010打印机驱动程序(hp deskjet1010打印机驱动)
-
1.把光盘到电脑里然后打开光盘找到“setup.exe”双击运行。2.这里点击“不用了,谢谢,我喜欢CD安装”;下载的驱动也点这个。3.到这个一步有6个软件需要安装,不用点选直接下一步即可。4.同意服...
- 电脑黑屏怎么关机(电脑黑屏怎么关机不会伤硬盘)
-
开机按F8不动到高级选项出现在松手,选“最近一次的正确配置”回车修复,还不行按F8进入安全模式还原一下系统或重装系统(如果开机没反应,放一下电,重新插拔一下硬件,如果总是开不了机就检修一下去)。如果是...
- 应用程序无法启动0xc0000005
-
4、设备主板故障也会导致无信号,建议联系专业的维修人员上门检修。5、设备显卡手指边与手指边插槽接触不良,清理一下显卡的金手指边,重新插回去,重新固定住即可。应用程序错误0xc0000005解决方法如下...
- 移动硬盘分区方法详解(移动硬盘分区步骤)
-
1、进入管理页面将新买的移动硬盘插入计算机的USB接口,右击此电脑后选择管理。2、选择压缩卷在页面里选择“磁盘管理”,右击移动硬盘,选择“压缩卷”。3、输入压缩空间的大小输入压缩空间的大小,点击右下角...
- windows7副本不是正版影响使用吗
-
会经常弹出提示和安全警告,如果我们安装了一个非正版的windows系统,就会经常弹出此windows副本不是正版的提示,那么此windows副本不是正版有什么影响呢,其实除了视觉外,功能也会有影响。w...
-
- 100个有效qq号以及密码2025(2021最新qq号和密码大全)
-
有关QQ登记全国之最的数据目前并没有最新数据更新,最新的该项数据是截止于2019年12月的数据,接下来为大家带来QQ等级全国第一的用户的有关数据,仅供大家娱乐之用:截止2019年12月,全国qq等级第一名的名字叫做“小风波”,QQ等级高达1...
-
2026-01-13 05:51 off999
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
