logo

Extrahujte text zo súboru PDF pomocou Pythonu

Všetci musíte byť oboznámení s tým, čo sú súbory PDF. V skutočnosti sú jedným z najdôležitejších a najpoužívanejších digitálnych médií. PDF znamená Formát prenosného dokumentu . Používa sa .pdf rozšírenie. Používa sa na spoľahlivé prezentovanie a výmenu dokumentov, nezávisle od softvéru, hardvéru alebo operačného systému.

Budeme extrahovať text zo súborov PDF pomocou dvoch knižníc Python, pypdf a PyMuPDF , v tomto článku.



Extrahovanie textu zo súboru PDF pomocou knižnice pypdf.

balík Python pypdf možno použiť na dosiahnutie toho, čo chceme (extrakcia textu), hoci dokáže viac, ako potrebujeme. Tento balík možno použiť aj na generovanie, dešifrovanie a zlučovanie súborov PDF. Poznámka: Ďalšie informácie nájdete v časti Práca so súbormi PDF v Pythone

Inštalácia

Ak chcete nainštalovať tento balík, zadajte do terminálu príkaz uvedený nižšie.

pip install pypdf>

Príklad: Vstup PDF: extrakt-pdf-text-python



Python3






nedefinovaný sklon

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Výkon:

extrakt-pdf-python

Pokúsme sa porozumieť vyššie uvedenému kódu v kúskoch:

reader = PdfReader('example.pdf')>
  • Vytvorili sme objekt PdfReader triedy z pypdf modul.
  • The PdfReader trieda prevezme požadovaný pozičný argument cesty k súboru pdf.
print(len(reader.pages))>
  • stránky vlastnosť dáva Zoznam PageObjects . Takže tu môžeme použiť vstavané len() funkcia python na získanie počtu strán v súbore pdf.
page = reader.pages[0]>
  • Teraz, ako čitateľských.stránok je zoznam PageObjects , môžeme získať konkrétny Stránka pdf klepnutím na index stránky. V zozname python indexovanie začína od 0, takže čitateľ.stranky[0] nám dáva prvú stranu súboru pdf.
text = page.extract_text() print(text)>
  • Objekt stránky má funkciu extrakt_text() na extrahovanie textu zo stránky pdf.

Extrahovanie textu zo súboru PDF pomocou knižnice PyMuPDF.

PyMuPDF je knižnica Pythonu, ktorá podporuje formáty súborov ako XPS, PDF, CBR a CBZ. Ale zatiaľ sa v tomto článku zameriame na súbory PDF (Portable Document Format).

Inštalácia

pip install pymupdf pip install fitz>

Ak chcete extrahovať text z pdf, musíme postupovať podľa nasledujúcich krokov:

  1. Importovanie knižnice
  2. Otváranie dokumentu
  3. Extrahovanie textu

Poznámka: Tu používame sample.pdf; ak chcete získať pdf, použite odkaz nižšie.

sample.pdf – Odkaz

skener java

1. Importovanie knižnice

Python3




import> fitz>

>

>

2. Otvorenie dokumentu

Python3


výber z viacerých tabuliek v sql



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Tu sme vytvorili objekt tzv doc a názov súboru by mal byť reťazec Pythonu.

3. Extrahovanie textu

Python3




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

riadiace štruktúry python

>

Tu sme iterovali stránky v pdf a použili sme get_text() metóda na extrahovanie každej stránky zo súboru.

Celý kód na extrahovanie textu

Python3




import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

celé číslo na dvojnásobok java

>

>

Výkon:

Záver

Videli sme dve knižnice Python, pypdf a PyMuPDF , ktorý dokáže extrahovať text zo súboru PDF. Komentujte svoju preferovanú knižnicu z dvoch vyššie uvedených knižníc.