PDF-ből html szöveg Linux alatt egyszerűen

PDF állományok konvertálása
PDF állományok konvertálása

PDF – mindenki ismeri ezt a formátumot. Használjuk is, bár sok esetben nem a megfelelő módon. A leírásban a korrekt mód összeállított pdf szabványnak megfelelő állományokról lesz szó,. és nem a gányolt, képfájlokból összeállított “pdf”-ekről. Bár ezek helye is megvan a világban, de mi igyekezzünk olyan pdf munkát kiadni a kezünkből, ami nem egy csomó kép összefűzésből áll, ami képeken a szöveg van… Pár alkalommal pdf-ből ki kellett másolni egy szöveget, vagy egy képet. Ez egypár mondatnál, vagy egy képnél nem fárasztó, de ha sok képről, vagy szövegről van szó, akkor már az. Ha a pdf pár oldal, és nincs kedvünk külön programot használni, akkor jó megoldás az inscape-be való megnyitás, vagy esetleg a LiberOffice is kezeli. Bár több esetben kisebb-nagyobb alaki eltérések lehetnek, de nem jelentősek.

Egy hasznos CLI, azaz parancssoros megoldást mutatok be a pdf-ek konvertálásához.

Jó lenne valami „szövegesebb” megoldás a PDF helyett. ha idézni, kivágni vagy éppen módosítani kell valamit. Web-es leírások a pdftohtml-t ajánlják ehhez, vagy pedig webes oldalakat. Webes felületek nagyon jók, de korlátos oldalszámot engednek, ami jó pár tucat oldalra, de komolyabb mennyiségre nem. Illetve – bár ez nem általános – vannak olyan pdf állományok, amiket kifejezetten nem szeretnék az internetes oldalakra feltölteni. Read more PDF-ből html szöveg Linux alatt egyszerűen