百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python 将PPT里面文字读取出来存为TXT文件

off999 2024-11-07 11:34 27 浏览 0 评论

在开发中遇到比较偏门的需求,要讲ppt文件里面的所有文字读取出来并存储为txt文件。我们使用win32com,win32con,win32gui,codecs,pythoncom这几个库来实现该需求,具体代码如下:

# coding:utf-8

import win32com

import win32con

import win32gui

import codecs

from win32com.client import Dispatch

import pythoncom

import os

from os.path import join

import sys

def getLocalEncoding():

u"""取得本地编码"""

import locale

import codecs

# print locale.getpreferredencoding()

return "%s" % codecs.lookup(locale.getpreferredencoding()).name

class MSOffice2txt():

def __init__(self, fileType=['doc', 'ppt']):

self.docCom = None

self.pptCom = None

pythoncom.CoInitialize()

if type(fileType) is not list:

return 'Error, please check the fileType, it must be list[]'

for ft in fileType:

if ft == 'doc':

self.docCom = self.docApplicationOpen()

elif ft == 'ppt':

self.pptCom = self.pptApplicationOpen()

def close(self):

self.docApplicationClose(self.docCom)

self.pptApplicationClose(self.pptCom)

def docApplicationOpen(self):

docCom = Dispatch('Word.Application')

docCom.Visible = 1

docCom.DisplayAlerts = 0

docHwnd = win32gui.FindWindow(None, 'Microsoft Word')

win32gui.ShowWindow(docHwnd, win32con.SW_HIDE)

return docCom

def docApplicationClose(self, docCom):

if docCom is not None:

docCom.Quit()

def doc2Txt(self, docCom, docFile, txtFile):

doc = docCom.Documents.Open(FileName=docFile, ReadOnly=1)

doc.SaveAs(txtFile, 2)

doc.Close()

def pptApplicationOpen(self):

pptCom = Dispatch('PowerPoint.Application')

pptCom.Visible = 1

pptCom.DisplayAlerts = 0

pptHwnd = win32gui.FindWindow(None, 'Microsoft PowerPoint')

win32gui.ShowWindow(pptHwnd, win32con.SW_HIDE)

return pptCom

def pptApplicationClose(self, pptCom):

if pptCom is not None:

pptCom.Quit()

def ppt2txt(self, pptCom, pptFile, txtFile):

ppt = pptCom.Presentations.Open(pptFile, ReadOnly=1, Untitled=0, WithWindow=0)

f = codecs.open(txtFile, "w", 'gb18030')

slide_count = ppt.Slides.Count

for i in xrange(1, slide_count + 1):

shape_count = ppt.Slides(i).Shapes.Count

for j in xrange(1, shape_count + 1):

if ppt.Slides(i).Shapes(j).HasTextFrame:

s = ppt.Slides(i).Shapes(j).TextFrame.TextRange.Text

f.write(s)

f.close()

ppt.Close()

def translate(self, filename, txtFilename):

if filename.endswith('doc') or filename.endswith('docx'):

if self.docCom is None:

self.docCom = self.docApplicationOpen()

self.doc2Txt(self.docCom, filename, txtFilename)

return True

elif filename.endswith('ppt') or filename.endswith('pptx'):

if self.pptCom is None:

self.pptCom = self.pptApplicationOpen()

self.ppt2txt(self.pptCom, filename, txtFilename)

return True

else:

return False

if __name__ == '__main__':

msoffice = MSOffice2txt()

#local_encoding = getLocalEncoding()

#reload(sys)

#sys.setdefaultencoding(getLocalEncoding())

#os.path.dirname(os.path.abspath(__file__))#

dirroot =os.path.dirname(sys.executable)

#dirroot = dirroot.decode(local_encoding)

print 'dirroot:'+dirroot

for root, dirs, files in os.walk(dirroot):

for OneFileName in files :

if OneFileName.endswith('ppt') or OneFileName.endswith('pptx'):

filename = os.path.join(root, OneFileName)

txtname = filename.replace('.ppt','.txt').replace('.pptx','.txt')

if msoffice.translate(filename, txtname):

print filename+' to txt successed! '+txtname

else:

print filename+' to txt failed!'+txtname

else:

continue

print 'Finished to txt!'

msoffice.close()

os.system('pause')

相关推荐

打米传奇手游可提现(打米传奇手游怎么提现)

个人感觉有些传奇游戏还是可以提现的,也就是现在所谓的搬砖服,不过想要提现也是需要付出的,普通的游戏玩家一天可以得到的收益并不是很高。想要获得高额收益是需要投资的。个人建议投资之前最好先观望一下,免的造...

虚拟号码发送短信平台(虚拟手机号收短信平台)

用虚拟手机号给别人发送短信的方法如下1、下载安装定时达人软件(安卓手机端),进入首页,点击下部的“添加新任务”,左边选择“通信”项。2、这时就可以看到右边的“虚拟电话”和“虚拟短信”选项。3、点击进入...

免费阅读软件(一念永恒小说免费阅读软件)

  追书免费全本小说、追书神器免费版、易追书、全本追书阅读器等软件都是比较好用的免费读书软件。具体介绍如下:  1、追书免费全本小说,免费阅读热门网络小说;  2、追书神器免费版,有海量的书库,更...

qq聊天软件免费下载安装(qq聊天应用下载)

首先右击你想下载的聊天记录的好友头像,这时把鼠标放到“聊天记录”上,你会看到三个选项,点击“查看聊天记录”,进入“信息管理器”界面。界面分为两部分,左边是你的好友名单,右边是详细的聊天记录,同...

下载官方浏览器(下载官方浏览器安装到桌面)

当我们在使用ie浏览器时或是操作电脑时,由于偶尔的不小心或是误点了某些安全提示,可能会导致ie浏览器无法使用下载功能,而导致ie浏览器无法下载文件和软件。首先我们来确认是安全软件阻止还是防火墙阻止还是...

万能种子搜索神器app(万能种子搜索神器2.9.9)

你好,万能播放器是一款功能强大的音视频播放软件,通常需要购买激活码或者注册码来激活使用。具体的激活方式可能因软件版本和开发者而异,以下是一般的激活步骤:1.购买激活码:前往官方网站或授权渠道购买激活...

word免费版电脑版(word office免费版)

不同版本也不一样1.目前电脑中office365是订阅制,没有永久免费的政策。office2016与office2019可以永久激活使用。2、永久激活版本在电脑中只要自带office2016或者off...

可以免费下载音乐的app(可以免费下载音乐的软件并传到U盘)

目前市场上有不少免费的音乐下载软件,比如QQ音乐、网易云音乐等。这些免费的音乐下载软件一般会提供不同种类的音乐,从流行歌曲到经典老歌都可以找到,除此之外,这些软件还会针对用户进行推荐,根据用户的音乐口...

office2007免安装绿色版(office2007绿色完整版)

把你的绿色版删除!附件的压缩包里有微软提供的卸载程序!运行一遍就可以了!office2007哪个版本好?针对office2007哪个版本好,office2007的版本主要有office2007官方下载...

魔兽官方对战平台(魔兽官方对战平台什么时候回归)

魔兽争霸的对战平台每个时间段都不一样。以前最后的就是浩方队员平台,还有QQ对战平台,后来又出来了vs对战平台。其中开始的浩方平台高手多,后来vs平台出来后大量高手都跑过去了,QQ平台一般菜鸟比较多。...

三国策略手游(三国策略手游试玩)

率土之滨官方版是一款超级好玩的全新策略三国竞技冒险手游,高清质风格的游戏画面能够带你体验全新的策略战斗,高度自由的竞技玩法,玩家可以在游戏中打造属于自己的三国世界1、《极无双》:3D动作军团征战手游《...

在线音频转换器(在线音频转换器Audio)

音频转换器是一种工具,它可以将一个音频格式转换成另外一个格式。使用它非常简单,首先打开音频转换器软件,然后选择需要转换的音频文件,设置输出格式和参数,最后点击转换按钮即可完成转换。注意,在设置输出格式...

拼音输入法哪个最好用(电脑打字常用输入法)

拼音输入法推荐使用谷歌拼音输入法。谷歌的拼音输入法,有五大特色:智能输入:选词和组句准确率高,能聪明地理解您的意图,短句长句,随想随打。时尚语汇:海量词库整合了互联网上的流行语汇和热门搜索词。...

ps软件官方免费下载电脑版免费

1:点击下载好的安装包先进行解压,然后点击“Photoshop_CS6_CHS_lite.exe”文件2:在弹开的界面中点击“自定义安装”,这里小编说明一下,如果用户选择“快速安装”的话,那么软件的安...

传奇盒子平台大全(传奇盒子赚钱)

在996传奇盒子中,会员玩家可以在“我的游戏”中通过“云玩”进入之前体验过的传奇游戏,开启挂机模式后,就能在“云多开”系统里观察到自己的云设备和正在进行云游戏状态的传奇游戏,如果点进手机后台,还能看到...

取消回复欢迎 发表评论: