set DateStyle TO 'German'ERR:1210
set client_encoding TO 'UTF8'ERR:1210
Dokumenten Indexierungs Service Purpose: Scan wird eingeladen, kommt als file.pdf + file.txt Full-Text-Search Rollen: A -> Bereich Hiebaum B -> Bereich Seifrid C D E F Prio: 0 -> Nix 1 -> Lesen (Ferialpr.) 2 -> Lesen und Bestellen (Vertreter) 3 -> Indexieren, scannen 5 -> Freigeben, korrigieren, Bestellungen entgegennehmen und ausführen 7 -> Datensätze Löschen 9 -> Benutzer verwalten Vorgang Dokumenteneingabe: * Scan nach //dokis/input_a * Div. Dokumente nach //dokis/input_a Vorgang Abarbeitung Bereich A: -> Erstellung lauter Einzeldokumente mit TXT-Inhalt. Dadurch unabhängig! -> Erzeugung von Minipic und PDF ohne TXT Vorgang CD-ISO-Eingabe: * Kopieren nach //dokis/input_b * Scan nach //dokis/input_b -> PDF wird als einzeldokument wie A behandelt -> ISO wird als Master-Dokument mit Unter-Dokumenten behandelt -> ISO wird intern geöffnet und die PDFs als Einzelobjekte eingegliedert (haben die TXT inside?) -> Anzeige des Masters mit Verweis auf Unter-Doks, Unter-Doks mit Verweis auf Master! ######################################## # Interne Verarbeitung ######################################## Bereich A: * cronjob: input_cron.pl durchsucht input_a 1) nach *.pdf * Umbenennung nach input_pdf/f_fileid.pdf * Jedes File wird zu einem SimpleDocument (Erst beim Freischalten wird es zu Master bei Bedarf) * PDF bekommt entweder durch OCR ($pdf_text=0) oder pdf-info ($pdf_text=1) einen Volltext->a_volltext Es ensteht input_pdf/fileid.txt * Bei info-pdf wird gleichzeitig ein neues PDF generiert mit p fileid.pdf ohne Info!! * Es werden gleich Minibilder erzeugt: thumb: h=1024 und minipic: h=200 * umbennen der minipics in $store_mpic * umbennen der pdf (original und neu) in store_pdf * Eintrag dieser Daten in DB * Ev. bereiningen (? WAS ?) 2) nach allem anderen ######################################## # Intern Grundlegendes, verwendete SW etc ######################################## *Install: jpeg, jpeg2ps gocr php5->ftp -> check, was für eine Datei man hat: file dateiname (z.B. t_37.txt: UTF-8 Unicode English text, with very long lines ) Konvertierung von ISO8859 in UTF8 iconv -f ISO8859-1 -t UTF-8 {datei_in_iso8859_kodierung} >{datei_in_utf8_kodierung} Konvertierung von UTF8 in ISO8859 iconv -c -f UTF-8 -t ISO8859-1 {datei_in_utf8_kodierung} >{datei_in_iso8859_kodierung} 1. Input=PDF //dokis/input_a - Filendung=.pdf 2. mv input_a/*.pdf input_pdf/file_id.pdf 3. Umwandlung in einzeldateien im pbm-Format input_pdf/file_id_%d.pdf 4. OCR: Umwandlung in .txt input_pdf/file_id_%d.txt 5. Erzeugung von minipic (Erste Seite) 6. Erzeugung aller Seiten als JPG 7. Delete aller pbm's pamscale -ysize 200 f1.pbm >f1_200.pgm cjpeg f1_200.pgm >f1_200.jpg oder - in einem Schritt: pamscale -ysize 800 f1.pbm |cjpeg >f1_800.jpg gs -sDEVICE=pbm -sOutputFile=f%d.pbm -dNOPAUSE -q -dBATCH -r300 f.pdf gocr -v 33 text1.pbm output verbose information, out30.png is created to see details of recognition process gocr -v 7 -c _YV text1.pbm verbose output for unknown chars and chars Y and V djpeg -pnm -gray text.jpg | gocr - convert a jpeg file to pnm format and input via pipe ps2ascii f_16.pdf >t16 besser pdftotext manipulation mit pdftk z.B. erste Seite soll übrig bleiben: pdftk in.pdf cat 2-end output out.pdf Entfernen von Metainformationen: (Ohne gs, scheint ohne Verlsut zu gehen, aber wird grösser!) pdftops f15_up.pdf ps2pdf14 f15_up.ps pdfinfo f15_up.pdf pdftotext f15_up.pdf Informationen in PDF einbauen: data.txt: InfoKey: Keywords InfoValue: DocBook,writing,documentation,background pdftk f15_opt.pdf update_info data.txt output f15_up.pdf pdftk f15_up.pdf dump_data ================================================= mkdir iso mount Image_090327_1124.iso iso mount -o loop Image_090327_1124.iso iso ls -l ls -l iso/ df -k umount iso df -k ls rmdir iso Wegen RAID: SUDO muss adaptiert werden: Wegen Zeichensatz: es wird generell UTF-8 verwendet, dadurch weniger Probleme mit Umlauten! Alle Files sind daher in UTF8!!! ######################################### Installation der Programme für Batch-PDF-Verarbeitung: 1) pdftk yum localinstall https://www.linuxglobal.com/static/blog/pdftk-2.02-1.el7.x86_64.rpm 2) pamscale yum install netpbm yum install netpbm-progs 3) cjpeg yum install libjpeg-turbo-utils ########################################