百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

神经网络提取PDF表格工具来了,支持图片,还能白嫖谷歌GPU资源

off999 2024-10-29 14:57 22 浏览 0 评论

贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

“表哥表姐”们还在为大量PDF文件中的表格发愁吗?

百度一下,网上有大量提取PDF表格的工具,但是,它们都只支持文本格式PDF。

但扫描生成的图片表格怎么办?

别着急,一种使用深度神经网络识别提取表格的开源工具可以帮助你。

兼容图片、高准确率、还不占用本地运算资源,如此实用的工具值得你拥有。

测试实例

如果在输入的PDF文件中检测的表格,模型会在边界框(bounding box)标出表格边框:

然后,表格数据会被转化为Panda数据框架,方便后续处理:

怎么样,是不是很实用?那这个工具如何使用呢?

使用姿势详解

神经网络算法,还不占用本地运算资源?

对,你没听错,这个工具的所有代码都可以在谷歌Colab上运行。也就是说你可以利用Colab云端资源完成训练和推理,无需本地安装。

这个工具使用到的深度神经网络是Keras-RetinaNet,首先要在Colab上安装Keras-RetinaNet,通过一下一行代码就可以完成:

git clone https://github.com/fizyr/keras-retinanet

同时需要安装必要的库:

pip install .python setup.py build_ext — inplace

训练Keras-RetinaNet识别表格

首先要构建或一个训练使用的数据库。

这里要用到Colab工具PDF2Img,将PDF文件转为JPG格式供算法学习。

然后将转好的图片保存在Images文件夹中。接下来需要手动给这些训练数据打标签,这里推荐使用在线标记工具makesense.ai。

将XML注释文件保存在注释文件夹中,并创建用于培训和测试的PDF文件列表,将该列表导入train.txt和test.txt中。

接下来,克隆Github项目https://github.com/ferrygun/PDFTableExtract,并安装beautifulsoup。

运行以下命令以将PASCALVOC格式转换为Keras-RetinaNet所需的格式:

python build_logos.py

运行上述命令后,会得到retinanet_classes.csv,retinanet_test.csv和retinanet_train.csv。

在retinanet_classses.csv中,由于只识别PDF文档中的表,所以只有到一个class,即class 0。

如果你在打标签的过程中加入页眉页脚等标签,相应能得到多个class。

完整的文件和文件夹结构的列表:

然后,将retinanet_classes.csv,retinanet_test.csv,retinanet_train.csv,train.txt和test.txt 导入keras-retinanet的根文件夹中:

接下来,运行Colab TrainOCR,可以根据要训练的JPG文件数量来调整训练的epoch数量。

训练完成后,就会得到权重文件output.h5,下载此文件并将其保存到本地主机。后面将使用该文件来运行测试。

这里需要注意的一点是,在Colab中,已将文件上传到Git并进行了Git克隆。

运行测试

运行测试前,还需要安装处理PDF文件必要的库。

PyPDF2是一个python工具库,能够提取文档信息,裁剪页面等。

使用以下命令安装此库:

pip install PyPDF2

Camelot是专门用于解析PDF页面表格的python库。

使用以下命令安装此库:

pip install camelot-py[cv]

PDF2IMG是将Python转换为PIL Image对象的python库。

使用以下命令安装此库:

pip install pdf2imag

在运行预测之前,需要使用从训练中获得的权重文件output.h5加载模型,并从retinanet_classes.csv定义标签class 0。

model_path = ‘output.h5’model = models.load_model(model_path, backbone_name=’resnet50’)labels = ‘retinanet_classes.csv’LABELS = open(labels).read().strip().split(‘\n’)LABELS = {int(L.split(‘,’)[1]): L.split(‘,’)[0] for L in LABELS}print(LABELS){0: ‘tabel’}

接下来运行测试

import numpy as npimport cv2import matplotlib.pyplot as pltimage_path = imgfname#image = cv2.imread(image_path)image = read_image_bgr(image_path)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)output = image.copy()output = cv2.cvtColor(output, cv2.COLOR_BGR2RGB)print(output.shape) # row (height) x column (width) x color (3)image = preprocess_image(image)(image, scale) = resize_image(image)image = np.expand_dims(image, axis=0)# detect objects in the input image and correct for the image scale(boxes, scores, labels) = model.predict_on_batch(image)boxes /= scaleconfidence =  0.2from google.colab.patches import cv2_imshowimport matplotlib.pyplot as pltlabel_out = []result = ""# loop over the detectionsfor (box, score, label) in zip(boxes[0], scores[0], labels[0]):  # filter out weak detections  if score < confidence:    continue  # convert the bounding box coordinates from floats to integers  box = box.astype("int")  # build the label and draw the label + bounding box on the output  # image  labeli = label  label = "{}: {:.2f}".format(LABELS[label], score)  print(label)  if LABELS[labeli] not in label_out:      label_out.append(LABELS[labeli])      cv2.rectangle(output, (box[0], box[1]), (box[2], box[3]), (255, 0, 0), 12)      print(box[0])      print(box[1])      print(box[2])      print(box[3])      #result            cv2.putText(output, label, (box[0], box[1] - 10), cv2.FONT_HERSHEY_SIMPLEX, 4.5, (255, 1, 1), 12)plt.figure(figsize=(20, 20))plt.imshow(output)plt.show()

如果检测的表格,模型会在边界框(bounding box)标出表格边框:

边界框坐标(x1,y1,x2,y2),将table_area输入到Camelot read_pdf函数中,table_area是已标准化的边界框。

interesting_areas=[]output = [[x1, y1, x2, y2]]for x in output:  [x1, y1, x2, y2] = bboxes_pdf(img, pdf_page, x)  bbox_camelot = [            ",".join([str(x1), str(y1), str(x2), str(y2)])        ][0]  # x1,y1,x2,y2 where (x1, y1) -> left-top and (x2, y2) -> right-bottom in PDF coordinate space        #print(bbox_camelot)  interesting_areas.append(bbox_camelot)print(interesting_areas)output_camelot = camelot.read_pdf(    filepath=pdf_file, pages=str(pg), flavor="stream", table_areas=interesting_areas)output_camelot[0].df

这样就可以将表格数据转化为Panda数据框架,方便后续处理:

图片怎么办

针对扫描图片格式的PDF表格,可以使用Ocrmypdf包来将图片格式PDF转为文本格式。

Ocrmypdf是一个python软件包,可将基于图像的pdf转换为基于文本的PDF。

安装ocrmypdf,可以通过以下命令行将其用于macOS和Linux:

brew install ocrmypdf

通过以下命令调用:

ocrmypdf input_file.pdf output_file.pdf

之后就可以按照上面的方法进行表格提取了。

怎么样,这款兼容图片,又能白嫖谷歌GPU的PDF表格工具对你有帮助吗?

传送门

项目地址:
https://github.com/ferrygun/PDFTableExtract

在线打标签工具:
https://www.makesense.ai/

相关推荐

Modbus RTU 指令基本功能介绍(modbus-rtu)

ModbusRTU协议概述:入门级知识点ModbusRTU协议,是工业自动化领域应用广泛的串行通信协议。它简单、可靠,在各种工业设备之间建立通信桥梁,实现数据的采集和控制。ModbusRTU...

AIOT开发选型:行空板 K10 与 M10 适用场景与选型深度解析

前言随着人工智能和物联网技术的飞速发展,越来越多的开发者、学生和爱好者投身于创意项目的构建。在众多的开发板中,行空板K10和M10以其独特的优势脱颖而出。本文旨在为读者提供一份详尽的行空板K...

程序员花了1个月时间,手搓低成本机械臂:跟着他你也能复刻一台

在开源硬件的广阔天地中,SO-ARM100作为一款备受瞩目的开源机械臂项目脱颖而出。它以标准化的四轴机械臂设计为核心,构建起一个开放共享的技术平台,为机械臂爱好者与开发者提供了绝佳的远程操作实践场域...

RPC接口测试技术-Tcp 协议的接口测试

首先明确Tcp的概念,针对Tcp协议进行接口测试,是指基于Tcp协议的上层协议比如Http,串口,网口,Socket等。这些协议与Http测试方法类似(具体查看接口自动化测试章...

同事开玩笑说:你这个python程序要是外流出去了,可能会有危险

引言公司因为业务原因,购入了一些高灵敏高精度的振动传感器。老板说:“拿去进行测试,看看数据如何?”吭哧吭哧接入数据,一看,确实精度和灵敏度非常高。具体多高呢?将传感器固定在相关的结构物上,在办公室中人...

STM32搭建简易环境监测站并通过网络实时上报

一、系统总体架构本系统以STM32F407为核心,搭建一个环境监测节点,能够采集温湿度、光照、空气质量等数据,并通过OLED屏显示,同时通过ESP8266模块实现局域网数据上报。适合室内空气监测、智慧...

STM32通过NB-IoT模块实现远程告警推送

一、项目概述本系统以STM32F103C8T6作为主控核心,通过串口控制NB-IoT通信模块(移远BC26),实现对外设状态的远程监测和异常自动告警推送(如温度超限、设备震动异常等)。支持通过UDP或...

MicroPython 玩转硬件系列3:上电执行程序

1.引言上一篇:MicroPython玩转硬件系列2:点灯实验我们在ESP32上实现了LED灯的闪烁,但是有一个问题,该功能的实现需要我们在串口终端里去手动执行代码,可不可以让ESP32上电后自动...

打标机与上位机通讯异常如何快速定位?串口工具验证流程拆解

打标机与上位机通信过程中出现的错误问题需要通过串口通信助手验证,主要原因在于串口通信的底层特性以及问题隔离的工程需求。以下是原理说明和验证方法:一、验证原理底层数据透明化串口通信本质上是基于二进制数据...

4G短信猫发送中文短信(Python)(4g短信)

4G短信猫发送中文短信(Python)4G短信猫发送中文短信的方式可以使用TEXT模式或者PDU模式。1.TEXT模式在TEXT模式下发送中文短信的指令序列:AT+CSCS="UCS2...

ESP32如何刷microPython固件(esp32 固件升级)

目录为什么要刷microPython固件固件和工具的获取刷固件的步骤检验是否成功1.为什么要刷固件microPython是由计算机工程师DamienGeorge设计出来的,他的初衷是——用Pyth...

CH9329双头线使用说明(双头线是干什么用的)

目录1.介绍说明2.测试说明3.修改为ASCII模式(CH9328字符模式)常见问题解答:1.介绍说明CH9329双头线是集成了CH9329+CH340芯片的成品线,主要作用是使用主控电脑发送串口指令...

Windows下最简单的ESP8266_ROTS_ESP-IDF环境搭建与腾讯云SDK编译

前言其实也没啥可说的,只是我感觉ESP-IDF对新手来说很不友好,很容易踩坑,尤其是对业余DIY爱好者搭建环境非常困难,即使有官方文档,或者网上的其他文档,但是还是很容易踩坑,多研究,记住两点就行了,...

CPU眼里的:Python 和 C(cpp和python)

“Python跟C语言有什么联系?它们在计算机系统中分别扮演着什么角色?”01提出问题Python可能是当今最热门的编程语言,凭借简洁易读的语法和强大的生态,成为许多新手程序员的首选。然而,作为一门解...

Python在工控领域的应用与优势(python工业控制系统)

前言之前利用Python编写了一些S7系列的PLC调试工具和组态开发,今天就具体讲讲Python在工控领域还有哪些应用与优势。Python在工业控制工控领域的应用逐渐增多,得益于其简洁的语法、丰富的生...

取消回复欢迎 发表评论: