Есть отличная удаленная работа для php+codeception+jenkins+allure+docker спецов. 100% remote! Присоединиться к проекту

Pdf library for python. Какую библиотеку выбрать?!


(Анастасия Зайцева) #1

Доброго дня.
Власне, шукаю бібліотеку, для роботи з pdf файлами.
Потрібно реалізувати аналіз таблиць, які розміщені у pdf файлі. Формат таблиці приблизно такий:

_______________________________________________________________________
|Object | Message | Description                   | Solution          |
_______________________________________________________________________
|Human  | Headache  | head is in pain               | drink some pills  |
|       |_____________________________________________________________ |                                                                                                            |       | Sadness  | Don't want to do a thing      | visit friends,    |
|       |          | never smiles. Looks sad       | have a vacation   |

Була б вдячна за приклади використання функцій, які можуть знадобитись.
Я новачок, тому прошу вибачення за нечітке чи елементарне питання.


(Mykhailo Poliarush) #2

Ну из того что помню это:

Но давно не пользовался ими, так что надо проверять, работают ли они в вашем случае или нет.
Происследуйте функциональность, а если уже в тупик зайдете тогда, еще раз помогу.

А вот сразу пару ссылочек по теме


(Mykhailo Poliarush) #3

Вот нашел хорошую статью по этому поводу http://www.binpress.com/tutorial/manipulating-pdfs-with-python/167. Сделал выдержку библиотек и ссылок на них:

  • pdfrw : Last update: 2012. Read and write PDF files; watermarking, copying images from one PDF to another. Includes sample code. Python 2.5–2.7. MIT License. https://code.google.com/p/pdfrw/
  • slate : Active development. Simplifies extracting text from PDF files. Wrapper around PDFMiner. Includes documentation on GitHub and PyPI. Python 2.6. GPL License. https://github.com/timClicks/slate
  • PDFQuery : Active development. PDF scraping with Jquery or XPath syntax. Requires PDFMiner, pyquery and lxml libraries. Includes sample code, documentation. Seems to be Python 2.x. MIT License. https://github.com/jcushman/pdfquery
  • PDFMiner : Active development. Extracting text, images, object coordinates, metadata from PDF files. Pure Python. Includes sample code and command line interface; Google group and documentation. Python 2.x only. MIT License. https://github.com/euske/pdfminer/
  • PyPDF2 : Active development. Split, merge, crop, etc. of PDF files. Pure Python. Includes sample code and command line interface, documentation. Python 2 and 3. BSD License. https://github.com/mstamy2/PyPDF2
  • reportlab : Python package. Create PDF documents as well as vector and bitmap images. http://www.reportlab.com/opensource/
  • pdftk : GUI and command line. Merge, split PDF files, and more. https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
  • fdfgen : Python package. Generates an FDF file containing form data that can be used with pdftk to populate a PDF form. https://github.com/ccnmtl/fdfgen/
  • qpdf : C++ library and program suite. Transforms PDF files. Useful for linearizing/optimizing uncompressing, and encryption. https://github.com/ccnmtl/fdfgen/
  • ghostscript : Interpreter for Postscript and PDF. http://www.ghostscript.com/
  • XPDF : Open source project. Contains several useful tools such as pdffonts and pdfinfo. http://www.foolabs.com/xpdf/
  • pdffonts : lists fonts used in a PDF file including information on font type, whether the font is embedded, etc. Part of the open-source Xpdf project. Licensed under GPL v2.

А также добавил в whishlist http://lessons2.ru, чтобы сделать пару практических уроков с заданиями по этому поводу.


#4

перепробовали несколько упомянутых тут библиотек типа reportlab, в последних проектах используем http://weasyprint.org/ - генерит pdf из html, очень удобно. Правда, бывает приходится повозиться с установкой, не припомню уже с чем, но stackoverflow решает