网站远程图片,免费crm管理软件,淘宝代做网站,久久建筑网怎么样办公自动化系列1现在#xff0c;各类数据分析的书籍#xff0c;都可以在网上找到PDF版本#xff1b;同时#xff0c;百度文库、各类数据统计文库、行业研究等众多论文报告#xff0c;是通过PDF的形式去展示输出的#xff1b;但是#xff0c;令人都头疼的是#xff0c;各… 办公自动化系列1现在各类数据分析的书籍都可以在网上找到PDF版本同时百度文库、各类数据统计文库、行业研究等众多论文报告是通过PDF的形式去展示输出的但是令人都头疼的是各类数据分析书中PDF版本中的表格数据我们想转化成自己的数据库文件或者EXCEL文件却是很难编辑今天就给大家解决这个问题利用Python将PDF中的表格和数据读取出来并写入EXCEL中保存到本地先上代码代码只有30行源PDF文件中的表格数据代码# -*- coding: utf-8 -*-请确保你在运行这个代码的时候已经安装了pdfplumber库如果没有安装请在[附件-命令提示符]下输入pip install pdfplumberimport pdfplumberimport xlwt# 定义保存Excel的位置workbook xlwt.Workbook() #定义workbooksheet workbook.add_sheet(Sheet1) #添加sheeti 0 # Excel起始位置path input(请输入PDF文件位置)#path aaaaaa.PDF # 导入PDF路径pdf pdfplumber.open(path)print(\n)print(开始读取数据)print(\n)for page in pdf.pages: # 获取当前页面的全部文本信息包括表格中的文字 # print(page.extract_text()) for table in page.extract_tables(): # print(table) for row in table: print(row) for j in range(len(row)): sheet.write(i, j, row[j]) i 1 print(---------- 分割线 ----------)pdf.close()# 保存Excel表workbook.save(保存路径/文件名.xls)print(\n)print(写入excel成功)print(保存位置)print(保存路径/文件名.xls)print(\n)input(PDF取读完毕按任意键退出)最终导出的EXCEL文件简简单单30行代码就将PDF中的表格数据读取出来并写入EXCEL啦拓展1、pdfplumber简介Pdfplumber是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息也可以对表格进行提取并进行可视化调试。2、pdfplumber安装安装直接采用pip即可。命令行中输入pip install pdfplumber3、简单使用import pdfplumberwith pdfplumber.open(path/to/file.pdf) as pdf: first_page pdf.pages[0] print(first_page.chars[0])pdfplumber.pdf中包含了.metadata和.pages两个属性。.metadata是一个包含pdf信息的字典。.pages是一个包含页面信息的列表。每个pdfplumber.page的类中包含了几个主要的属性。.page_number 页码.width 页面宽度.height 页面高度.objects/.chars/.lines/.rects 这些属性中每一个都是一个列表每个列表都包含一个字典每个字典用于说明页面中的对象信息 包括直线字符 方格等位置信息。4、一些常用的方法.extract_text() 用来提取页面中的文本将页面的所有字符对象整理为的那个字符串.extract_words() 返回的是所有的单词及其相关信息.extract_tables() 提取页面的表格python自动化办公宝典其中 《python自动化办公宝典》 共包含六个章节97页不仅有详细的代码解释而且还有详细的图文说明通俗易懂让你轻松完成办公自动化。python使用openpyxl操作excelpython使用PyPDF2和pdfplumber操作pdfpython使用python-docx操作wordpython使用python-pptx操作PPTpython如何自动收发邮件python制作电话号码归属地查询工具后台回复关键词自动化 即可获得 下面这本书限时300积分兑换哦也可参加当当活动每满100减50感谢北京大学出版社的大力支持