可将PDF转为Word文件的Python库

　　《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的是一个可将PDF转为Word的Python库——pdf2docx。
　　基于 PyMuPDF 提取文本、图片、矢量等原始数据  基于规则解析章节、段落、表格、图片、文本等布局及样式  基于 python-docx 创建Word文档
　　主要功能
　　解析和创建页面布局 页边距 章节和分栏 (目前最多支持两栏布局) 页眉和页脚 [TODO]
　　解析和创建段落 OCR 文本 [TODO] 水平（从左到右）或竖直（自底向上）方向文本 字体样式例如字体、字号、粗/斜体、颜色 文本样式例如高亮、下划线和删除线 列表样式 [TODO] 外部超链接 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
　　解析和创建图片 内联图片 灰度 /RGB/CMYK 等颜色空间图片 带有透明通道图片 浮动图片（衬于文字下方）
　　解析和创建表格 边框样式例如宽度和颜色 单元格背景色 合并单元格 单元格垂直文本 隐藏部分边框线的表格 嵌套表格
　　支持多进程转换
　　pdf2docx 同时解析出了表格内容和样式，因此也可以作为一个表格内容提取工具。
　　限制目前暂不支持扫描PDF文字识别  仅支持从左向右书写的语言（因此不支持阿拉伯语）  不支持旋转的文字  基于规则的解析无法保证100%还原PDF样式
　　示例
　　安装 $ pip install pdf2docx
　　更新 $ pip install --upgrade pdf2docx
　　我们可以使用 Converter类 或包装方法 parse() 将所有/指定的 pdf 页面转换为 docx。如果 pdf 文件包含大量页面，则支持批量处理。 转换所有页面 from pdf2docx import Converter  pdf_file = ＂/path/to/sample.pdf＂ docx_file = ＂path/to/sample.docx＂  # convert pdf to docx cv = Converter(pdf_file) cv.convert(docx_file)      # all pages by default cv.close()
　　另一种使用 parse() 的方法： from pdf2docx import parse  pdf_file = ＂/path/to/sample.pdf＂ docx_file = ＂path/to/sample.docx＂  # convert pdf to docx parse(pdf_file, docx_file)转换指定页面
　　指定页面范围 start（如果省略则从第一页开始）和 end（如果省略则到最后一页）： # convert from the second page to the end (by default) cv.convert(docx_file, start=1)  # convert from the first page (by default) to the third (end=3, excluded) cv.convert(docx_file, end=3)  # convert from the second page and the third cv.convert(docx_file, start=1, end=3)
　　或者，通过以下方式设置单独的页面 pages： # convert the first, third and 5th pages cv.convert(docx_file, pages=[0,2,4])
　　-END-
　　开源协议：GPL-3.0
　　开源地址：https://github.com/dothinking/pdf2docx

反诈宣传，在我这挺成功的7号中午接到个电话，自称是快递公司，说我买的某东西快递单号是多少多少，现在丢失了，问我买成多少钱，要赔偿我，给我多加50元。我以前在快递公司待过，也确实会有加客户微信赔偿的情况，但中国做摊牌准备？做最坏打算，台湾踏上回归路8月多事之秋，中美渐行渐远，中国被动做摊牌准备？做最坏打算。8月2日美众议长佩洛西窜访我国台湾。当日深夜，佩洛西落地台湾之际，新华社发布消息，宣布中国人民解放军将于8月4日至7日（美国人关于中美台海冲突的兵棋推演细节曝光，原来推演这么复杂中国人民解放军在台南市附近进行两栖登陆，驻扎在台湾南部的一个美国海军陆战队正在试图阻止。美军用MLR的陆基反舰导弹减缓中国舰队的前进速度，但该部队的弹药不足，它需要尽快补给。美国派猫咪睡姿的9个秘密，别说你没看懂猫咪睡觉姿势真的是千变万化的什么样的都有完全是随它的心情而定的关于猫咪睡姿的9个秘密别说你还没看懂啊1躺尸式哎哟喂，舒展开身子睡觉也太巴适了吧！猫咪睡觉若是完全露出肚皮的话有危险它新车复古元素满满，沙滩兜风首选！MeyersManx2。0官图发布文懂车帝原创周桐懂车帝原创产品沙滩越野车是不少人去海边体验的项目之一，而在近日，一款基于甲壳虫底盘改造而来的MeyersManx2。0Electric沙滩车也正式在海外市场亮相。据河南郸城这样一个小县城的公交停运，为何会引发这么大的关注？河南省周口市郸城县再次出名了。上一次，是因为恶意返乡。今年年初，该县县长董鸿在会上说你只要返回，先隔离再拘留。针对此事，董鸿回应称视频经过剪辑，不真实，剪辑掉了不听劝阻，恶意返乡等港姐朱千雪转行当律师2年，自曝有意复出拍戏，但不想通宵工作8月13日，据港媒报道，TVB视帝陈豪与港姐朱千雪出席了美容活动，受访时朱千雪自曝有意复出拍戏。曝光的现场照中，陈豪穿着蓝色西装出镜，脖子上戴了长围巾点缀，造型很是有型有款。一旁的男怕八月，女怕腊月，啥意思？为啥男人怕八月？有道理吗？民间俗语大多是老百姓常年累月的智慧结晶，虽然很多并没有记载成册，但这些俗语则是老一辈口口相传留下来的生活经验总结，对后人起到警醒的作用。再过十几天就要进入八月，而在民间经常听长辈说天然气价格或会上涨？对俄出手可能被踢油气项目，日本经济麻烦了明明是共同出资的天然气项目，俄罗斯通过重组的手段加强了控制权，在这样一番至少气势上猛如虎的操作下，对于俄罗斯的经济而言究竟会有怎样的好处呢？日俄之间曾经发生过不愉快，这次重组，估计山东舰维护后出坞，为何没升级福建舰同款近防炮，下次维护或升级据大公报7月1日的报道，今年3月21日，按照海军安排，山东舰返回大连造船厂进行首次计划内可用性提升维护，目前已完成甲板涂层重铺划线及舰底清理刷漆等维护工作，并移出船坞继续进行后续的瑕不掩瑜！西游记中那些哭笑不得的穿帮镜头，太搞笑了1982年7月3日，导演杨洁在选定了四位主演后，西游记剧组也正式开机。试集除妖乌鸡国在扬州拍摄的第一个镜头太子王海宁跪拜国王雷鸣。彼时，国内的特效技术并不好，拍摄手段也比较单一。于

<<<<<<－>>>>>>

美元和吃瓜？美元这轮强势周期让很多吃瓜群众把瓜皮都啃了，没啥其他的主要还是因为吃惊，或者有点紧张好多大块头的按美刀一算身价持续缩水了不少，座下的沙发都有点隔应人了进口的石油玉米油这些过日子的基2022年9月末我国外汇储备规模为30290亿美元新华社北京10月7日电（记者刘开雄）国家外汇管理局7日发布数据显示，截至2022年9月末，我国外汇储备规模为30290亿美元，较8月末下降259亿美元，降幅为0。85。2022年9奔驰在豪华电动车市场拿什么与蔚小理竞争？以往我们说起自主品牌的品牌向上时，在中高端市场总是无法绕过BBA。时过境迁，当BBA试图在中国豪华新能源汽车市场上如同以往在燃油车市场一样取得统治地位时，也无法绕过先行一步的蔚小理户用光伏市场持续升温，超预期需求下机遇和挑战并存今年以来，全球能源危机持续蔓延并在俄乌冲突下进一步加剧。在全球范围能源安全隐忧及国内范围四川等多地限电潮的影响下，户用光伏市场作为重要的供电及补充能源形式正在持续升温，户用需求及景喜提5连败？湖网暴露致命缺陷湖人三分真差，篮网西弟成拒投季前赛虽然并不影响各队常规赛的战绩，但是在季前赛表现不好的球队，你很难相信他在常规赛会突然打出亮眼的表现，最近湖人与篮网的季前赛也一直在进行当中，但尴尬的是目前湖人已经迎来3连败篮天才扎堆！体坛恐怖的00后来了，将见证人类体育竞技新极限说起体坛，很多人都能感受到，80后的强势。梅西C罗詹姆斯博尔特菲尔普斯德约科维奇纳达尔费德勒小威汉密尔顿基普乔格包括中国的林丹李娜刘翔姚明苏炳添马龙以上这些运动员，很多都被誉为是GCBA三消息广州双雄伤停半年，张宁升级成核心，威姆斯的确下滑大家好呀，我是北柠，各位小伙伴们要养成先赞后看的习惯哦！广州队是现在CBA联赛里中游水平的一支球队，他们最近几个赛季一直都在进步，这让球迷们产生了一定的错觉，目前很多人都把广州队当（体育）中国拳手徐灿分歧判定憾负贝尼特斯新华社华盛顿10月7日电7日，前世界拳击协会（WBA）羽量级拳王中国拳手徐灿在美国佛罗里达州坦帕对阵墨西哥拳手布兰顿贝尼特斯。经过十回合的较量，徐灿以分歧判定遗憾落败。本场比赛原计上山容易下山难，为何伊布，布冯没有遇到C罗面临的困境？当今足坛以哈兰德，姆巴佩领衔的后浪崛起迅猛，梅西，莱万还在维护前浪的尊严。新陈交替这个自然界普遍遵循的规律也适应足坛的发展。对于年轻人的期盼与对于老将的尊敬是最基本的道德评判标准，马奎尔将因伤缺席两周的比赛马奎尔将在比赛中受伤将缺席长达两周的足球比赛。这名中后卫本赛季在替补席上度过了很多时间，曼联的前两场比赛都以失败告终。所以埃里克滕哈格在后场做出了一些改变，他选择了瓦拉内和利马作为中国突破霍尔推进系统技术难题，让卫星轨道提高300公里我在头条搞创作第二期近日，中国航天传来好消息，航天五院502所开发的霍尔推进系统，在一颗轨道卫星上完成了升轨，把卫星的轨道提高了300公里。这在全球是首次应用，不得不为中国科学家们