PDF-ből html szöveg Linux alatt egyszerűen

PDF állományok konvertálása
PDF állományok konvertálása

PDF – mindenki ismeri ezt a formátumot. Használjuk is, bár sok esetben nem a megfelelő módon. A leírásban a korrekt mód összeállított pdf szabványnak megfelelő állományokról lesz szó,. és nem a gányolt, képfájlokból összeállított “pdf”-ekről. Bár ezek helye is megvan a világban, de mi igyekezzünk olyan pdf munkát kiadni a kezünkből, ami nem egy csomó kép összefűzésből áll, ami képeken a szöveg van… Pár alkalommal pdf-ből ki kellett másolni egy szöveget, vagy egy képet. Ez egypár mondatnál, vagy egy képnél nem fárasztó, de ha sok képről, vagy szövegről van szó, akkor már az. Ha a pdf pár oldal, és nincs kedvünk külön programot használni, akkor jó megoldás az inscape-be való megnyitás, vagy esetleg a LiberOffice is kezeli. Bár több esetben kisebb-nagyobb alaki eltérések lehetnek, de nem jelentősek.

Egy hasznos CLI, azaz parancssoros megoldást mutatok be a pdf-ek konvertálásához.

Jó lenne valami „szövegesebb” megoldás a PDF helyett. ha idézni, kivágni vagy éppen módosítani kell valamit. Web-es leírások a pdftohtml-t ajánlják ehhez, vagy pedig webes oldalakat. Webes felületek nagyon jók, de korlátos oldalszámot engednek, ami jó pár tucat oldalra, de komolyabb mennyiségre nem. Illetve – bár ez nem általános – vannak olyan pdf állományok, amiket kifejezetten nem szeretnék az internetes oldalakra feltölteni.

Más programokat is említenek, de nekem most előfeltétel, hogy az alaptárolókban legyen, és ne kelljen semmit fordítani, vagy külső forrásból telepíteni. Így, hogy pdftohtml ne is keresd, mert jellemzően poppler, poppler-utils vagy hasonló néven lesz elérhető a csomag. Arcolinux disztribuciónál és emlékeim szerint az MX Linuxnál és a Fedoránál is már telepítve van, ha a saját disztribúciódban nem, akkor az ott megszokott módon telepítsd fel.

Én kétféle paraméterrel használtam:

pdftohtml -q -p -c teszt.pdf

Ezzel minden oldal külön html-be kerül, a képeket külön fájlba menti.

pdftohtml -noframes -q -p -c 1.pdf

Egy html fájlt készít el, így könnyebb kezelni, vagy tovább feldolgozni. Ha nagy (nekem 950 oldal, sok kép és tábla) a pdf, akkor az elkészített html betöltése lassabb lesz, így ajánlott valami könnyített webböngészőben nézegetni. A nagy méretű pdf-eknél érdemes az előbbi megoldást használni, nehogy nehézkessé váljon a nagy html + több száz kép kezelése egy gyengébb gépen.

A futása korrekt, a 950 oldalt két perc alatt konvertálta.

A kimenet elfogadható minőségű.

Praktikus, ha minden pdf-et külön könyvtárba rakva konvertálsz, mert így könnyebb kezelni a sok fájlt tartalmazó kimenetet.

A fenti paraméterezésen kívül sok egyéb megoldás is lehetséges, így érdemes a pdftohtml -h és a man pdftohtml olvasása is.

Amit fontos tudni: ez nem OCR program, azaz ha sok képből összefűzött „pdf”-et kapsz, azt nem fogja jól feldolgozni. A “valódi” pdf-re van kifejlesztve, nem az összetákoltakra!

A poppler-utils csomag több pdfto… eszközt is tartalmaz, ha csak a szövegre van szükséged a pdftotext használd. Gyorsabb, kisebb fájlt készít, de képek és táblázatok nélkül. Illetve a táblázatokat nem kezeli, de sok esetben azokat próbálja szövegként konvertálni, ami csúnya lesz.

Jogos kérdés, hogy az alábbi megoldás miért nem jó:

libreoffice6.3 –infilter=”writer_pdf_import” –convert-to odt 1.pdf

Hiszen a libreoffice tud pdf-et importálni és a fenti parancssor teljesen korrekt és működőképes. Egyrészt nagyon lassú, az általam tesztelt többszáz oldalas dokumentumot fél óra alatt konvertálta át. Ami ennél is nagyobb gond, hogy a minősége messze elmaradt az általam ajánlottól.

Tudom, hogy nem egy mindennapi feladat, de érdemes tudni ezt is.

A tesztet 2020. februárjában végeztem el Arcolinux alatt.

Related Posts