EXTRAHUJTE TEXT ZO SÚBORU PDF POMOCOU PYTHONU

Všetci musíte byť oboznámení s tým, čo sú súbory PDF. V skutočnosti sú jedným z najdôležitejších a najpoužívanejších digitálnych médií. PDF znamená Formát prenosného dokumentu . Používa sa .pdf rozšírenie. Používa sa na spoľahlivé prezentovanie a výmenu dokumentov, nezávisle od softvéru, hardvéru alebo operačného systému.

Budeme extrahovať text zo súborov PDF pomocou dvoch knižníc Python, pypdf a PyMuPDF , v tomto článku.

Extrahovanie textu zo súboru PDF pomocou knižnice pypdf.

balík Python pypdf možno použiť na dosiahnutie toho, čo chceme (extrakcia textu), hoci dokáže viac, ako potrebujeme. Tento balík možno použiť aj na generovanie, dešifrovanie a zlučovanie súborov PDF. Poznámka: Ďalšie informácie nájdete v časti Práca so súbormi PDF v Pythone

Inštalácia

Ak chcete nainštalovať tento balík, zadajte do terminálu príkaz uvedený nižšie.

pip install pypdf>

Príklad: Vstup PDF: extrakt-pdf-text-python

Python3

nedefinovaný sklon

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

Výkon:

extrakt-pdf-python

Pokúsme sa porozumieť vyššie uvedenému kódu v kúskoch:

reader = PdfReader('example.pdf')>

Vytvorili sme objekt PdfReader triedy z pypdf modul.
The PdfReader trieda prevezme požadovaný pozičný argument cesty k súboru pdf.

print(len(reader.pages))>

stránky vlastnosť dáva Zoznam PageObjects . Takže tu môžeme použiť vstavané len() funkcia python na získanie počtu strán v súbore pdf.

page = reader.pages[0]>

Teraz, ako čitateľských.stránok je zoznam PageObjects , môžeme získať konkrétny Stránka pdf klepnutím na index stránky. V zozname python indexovanie začína od 0, takže čitateľ.stranky[0] nám dáva prvú stranu súboru pdf.

text = page.extract_text() print(text)>

Objekt stránky má funkciu extrakt_text() na extrahovanie textu zo stránky pdf.

Extrahovanie textu zo súboru PDF pomocou knižnice PyMuPDF.

PyMuPDF je knižnica Pythonu, ktorá podporuje formáty súborov ako XPS, PDF, CBR a CBZ. Ale zatiaľ sa v tomto článku zameriame na súbory PDF (Portable Document Format).

Inštalácia

pip install pymupdf pip install fitz>

Ak chcete extrahovať text z pdf, musíme postupovať podľa nasledujúcich krokov:

Importovanie knižnice
Otváranie dokumentu
Extrahovanie textu

Poznámka: Tu používame sample.pdf; ak chcete získať pdf, použite odkaz nižšie.

sample.pdf – Odkaz

skener java

1. Importovanie knižnice

Python3

import> fitz>

2. Otvorenie dokumentu

Python3

výber z viacerých tabuliek v sql

doc>=> fitz.>open>(>'sample.pdf'>)>

Tu sme vytvorili objekt tzv doc a názov súboru by mal byť reťazec Pythonu.

3. Extrahovanie textu

Python3

for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

riadiace štruktúry python

Tu sme iterovali stránky v pdf a použili sme get_text() metóda na extrahovanie každej stránky zo súboru.

Celý kód na extrahovanie textu

Python3

import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

celé číslo na dvojnásobok java

Výkon:

Záver

Videli sme dve knižnice Python, pypdf a PyMuPDF , ktorý dokáže extrahovať text zo súboru PDF. Komentujte svoju preferovanú knižnicu z dvoch vyššie uvedených knižníc.

TechCodeview

Extrahovanie textu zo súboru PDF pomocou knižnice pypdf.

Inštalácia

Python3

Extrahovanie textu zo súboru PDF pomocou knižnice PyMuPDF.

Inštalácia

Python3

Python3

Python3

Python3

Záver