百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python使用fitz和opencv库提取pdf中的表格

off999 2024-09-21 20:59 41 浏览 0 评论

首先说明下,如果能在网上找到开源的库并适用于自己的项目,那最好直接使用开源库,避免重复造轮子。

目前在网上可以找到一些python提取处理pdf表格的库,但是总有一些不令人满意的地方,于是打算自己利用图像处理方式来实现,提取pdf文件中的表格数据

tabula-py库,这个库源码是用java实现的可以参考https://github.com/tabulapdf/tabula-java。提取内容能力感觉是最强的,但是在运行过程中总是报错,例如java.io.EOFException,UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 0: invalid continuation byte

pdfplumber库,对我手上很多pdf中的表格无法提取,所以放弃了

camelot库在pip安装过程中有问题

既然上面的开源项目不能满足自己的要求,于是打算使用机器视觉的方式来提取表格相关的信息。大致处理流程如下:

1.获取pdf的page文档的长宽

2.创建一块相同大小cv2的mat画布

3.获取page的所有线条,并在画布上绘制线条

4.使用轮廓包围,查找到所有各自表格cell的框

5.使用page的get_text_selection方法获取到没cell的文字信息

其中有几个需要注意的细节部分:

1.可以创建一个单通道的画布,这样可以避免灰度化和二值化操作

2.使用白底黑线,并使用漫水填充边缘,这样可以避免轮廓分析

3.如果表格线条是双实线,可以用开闭运算去掉双实线

4.使用get_text_selection方法时需要注意文本是否已经超出cell框的边界,如果超过边界,则只能获取到边框内的文字。如果存在这种表格,可以根据判断文字区域的中心坐标是否在cell中来提取文字。

所有的代码如下

import fitz
import numpy as np
import cv2


def to_int(*kwargs):
    v = []
    for k in kwargs:
        v.append(int(k))
    return v


def page_to_words_list(page: fitz.fitz.Page) -> list:
    '''
    将每一页中的textWords信息使用list封装,这样方便后续使用
    :param page:
    :return:
    '''
    # 获取文字及坐标信息
    words = page.getTextWords()

    # 将元素转为list
    # 因为list[0],list[1]....对于不熟悉代码的人很容易忘记含义,所以用字典封装
    # words = [[w[0], w[1], w[2], w[3], w[4]] for w in words]
    # 此处更适合用实体类,但是调试print的时候不方便,虽然可以重写__str__
    word_list = [{'rect': [w[0], w[1], w[2], w[3]], 'text': w[4]} for w in words]
    return word_list


def draw_pdf_tables(page: fitz.fitz.Page):
    assert isinstance(page, fitz.fitz.Page), '必须传入fitz.Page对象'
    # 创建一个白色的画布
    pixmap = page.getPixmap(matrix=fitz.Matrix(1, 1))
    # 二进制数据,宽,高
    img = np.zeros([pixmap.h, pixmap.w], dtype=np.uint8) + 255
    draws = page.getDrawings()
    # 在白色的画布上,画上黑色的线条
    for draw in draws:
        items = draw['items']
        for item in items:
            # 线条
            if 'l' in item:
                p1, p2 = to_int(*item[1]), to_int(*item[2])
                img = cv2.rectangle(img, (p1[0], p1[1]), (p2[0], p2[1]), (0))
    # 使用漫水填充算法,将周围变为黑色
    # 这样也可以去掉单独的线条
    cv2.floodFill(img, None, (0, 0), (0), cv2.FLOODFILL_FIXED_RANGE)
    return img


def get_pdf_table(page: fitz.fitz.Page, words=None):
    '''
    :param page:
    :param words:
    :return:
    '''
    assert isinstance(page, fitz.fitz.Page), '必须传入fitz.Page对象'
    if words is None:
        words = page_to_words_list(page)
    img = draw_pdf_tables(page)
    # 查找相应的轮廓,得到每个表格cell的矩形框
    contours, hierarchy = cv2.findContours(img, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    # 如果少于10个cell,认为这不是一个表格,这个判可以根据实际情况去掉
    if len(contours) < 10:
        return [], img
    tabel_cell = []
    # 判断文字是否在表格cell中
    for c in contours:
        r = cv2.boundingRect(c)
        r = [r[0], r[1], r[0] + r[2], r[1] + r[3]]
        ws = []
        for word in words[:]:
            w = word['rect']
            center = [(w[0] + w[2]) / 2, (w[1] + w[3]) / 2]
            if inside_rectangle(center, r):
                ws.append(word)
        tabel_cell.append({'rect': r, 'words': ws})
    # 闭运算
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3))
    morp = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel, iterations=2)
    # 查找相应的轮廓,得到每个表格cell的矩形框
    contours, hierarchy = cv2.findContours(morp, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    tabels = []
    for c in contours:
        r = cv2.boundingRect(c)
        r = [r[0], r[1], r[0] + r[2], r[1] + r[3]]
        tabels.append(r)
    # 排序
    tabel_cell = sorted(tabel_cell, key=lambda data: (data['rect'][1], data['rect'][0]))
    tabels = sorted(tabels, key=lambda data: (data[1], data[0]))
    # 将cell合并到表中
    pdf_tabels = []
    for t in tabels:
        tabel = {'rect': t, 'cell': []}
        for cell in tabel_cell:
            c = cell['rect']
            center = [(c[0] + c[2]) / 2, (c[1] + c[3]) / 2]
            if inside_rectangle(center, t):
                tabel['cell'].append(cell)
        pdf_tabels.append(tabel)
    return pdf_tabels, img


def inside_rectangle(point, rect):
    '''
    判断点是否在框内
    :param point:
    :param rect:
    :return:
    '''
    x, y = point[0], point[1]
    x1, y1, x2, y2 = rect
    if x1 <= x <= x2 and y1 <= y <= y2:
        return True
    return False

最后看下效果图吧



返回的pdf_tabels是一个list列表,表示一页pdf中包含多个表格。每个表格是一个字典,有rect和cell两个字段,rect表示表格的区域位置。cell也是一个列表,表示一个表格格子,里面含有格子的坐标信息,以及文字信息。

最开始的时候我觉得返回这些信息比较繁琐,啰嗦,但是后续将pdf文件中的文档格式化输出的时候可以利用里面的信息做参考

相关推荐

笔记本无音频输出设备(笔记本无音频输出设备)

1、没有声卡驱动,解决方法就是找到笔记本的官网,下载电脑声卡的驱动安装即可。2、没有外界的音频播放设备,解决方法就是买一个外界的音频播放设备插到电脑主机的音频接口上即可。笔记本电脑显示未安装任何音频输...

iso文件能用手机打开吗(iso文件能用手机打开吗安全吗)

一般的压缩软件就可以打开的,比如,好压软件,这个打开只是解压形式的,如果你说的是运行iso文件,这个没有,况且安卓系统也不支持iso运行ISO文件一般用于光盘镜像文件的存储,如果想要在手机上运行ISO...

win7系统卡顿怎么优化(win7很慢很卡怎么优化)

1、首先打开安全卫士,进入安全卫士首页,单击软件窗口右下角的“更多”图标,打开扩展应用程序。2、单击选择“我的工具”。3、在我的工具菜单里面找到“人工服务”单击打开人工服务。4、在人工服务对话框有很多...

如何查看c盘微信聊天记录(如何查看c盘微信聊天记录内存大小)

微信群中的消息只要没删除基本都能保存,想要找微信群中几个多月前的消息可以直接根据日期来查找聊天记录。操作如下:1、打开想要查找记录的微信群,点击右上角人形图标;2、点击查找聊天内容;3、选择按日...

office2016家庭版激活密钥(office家庭版激活码2019)

走淘宝吧,因为零售版的密钥只能用一次。大概几块钱就能激活2016。如果你不在乎钱的话可以向我一样,订阅一个office365.实在不行可以和几个人一起买一个家庭版的365.出现这个情况,找微软申诉是没...

移动硬盘驱动器下载安装(移动硬盘驱动器下载安装教程)

1、右键单击您的桌面,选择“新建文件夹”,并命名该文件夹(例如“usb驱动程序”);2、然后到本站下载驱动程序;3、将其解压缩至在您的桌面上刚刚创建的usb驱动程序文件夹;4、单击开始菜单,然后选择设...

电脑硬盘格式化工具(电脑 格式化硬盘)

硬盘格式化工具很多,PQMACGIG8.0(中文就叫硬盘分区魔法师)是比较好的一个,这个是在WINDOWS下比叫好用,(个人感觉)FDISK也是比较好的一个,这个一般用在DOS下分区格式化WIN...

photoshop是一款什么软件(ps指的是什么软件)

这个说法是错误的,ps软件“即:photoshop”是由美国著名的“adobe阿多比”公司出品的专业的图像处理软件,它不是由微软公司出品的软件。众所周知的是,微软公司以设计视窗操作系统名满全球,它出...

ipad越狱的好处与坏处(ipad越狱好不好)

  好处一:  1、重命名、重组应用程序  如果你看着Sparrow(iOS最优秀邮件客户端)这个名字不爽,越狱之后就可以改成“Email”,如果你觉得“豆瓣电台”这个名字不给力,那就改成“中央人民广...

win7光盘重装系统步骤图解(win7光盘如何重装系统)

1.确认您的电脑支持从光盘启动。如果支持,可以直接将Windows7安装光盘插入电脑的光驱中。 2.打开电脑,按下F2、F10、F12或Delete等键进入BIOS设置界面。 ...

电脑已联网却无法上网(电脑已经联网了但是不能上网)

电脑连上网后,仍可能存在无法上网的情况,这可能是由多种原因造成的。以下是一些可能的原因和解决方法:1.浏览器问题:有时候,浏览器可能会出现故障,导致无法正常访问网络。您可以尝试清除浏览器的缓存和co...

u盘价格一览表(u盘单价)

不同品牌价格不同,不同内存价格也不同,例如8g、16g、32g、64g等多种容量大小的,根据容量的不同,报价在29元到120元之间不等。闪存盘虽然小,但相对来说却有很大的存储容量。U盘大多能够存储比一...

windows查看ip命令(windows如何查看ip地址)

查看电脑IP:    1)使用Windows+R键打开“运行”窗口,然后输入CMD进入命令提示窗口2)进入命令窗口之后,输入:ipconfig/all回车即可...

内存条的作用(内存条的作用和参数配置)

内存条是存储电脑运行所需的数据和程序,帮助CPU快速读取和运行,提高计算机的运行速度和处理能力。内存条也被称为随机存取存储器(RAM),是电脑中非常必要的一个组件。常见的内存条类型有DDR、DDR2、...

autocad2012安装失败(autocad2012无法安装)

如果您遇到CAD2012安装不了的问题,可能有几个原因导致这种情况。以下是一些常见的解决方法:1.确保系统要求:首先,请确保您的计算机符合CAD2012的系统要求。检查您的操作系统版本、内存、处理器...

取消回复欢迎 发表评论: