Dokumentensystem DOKIS (Dokumenten Indexierungs Service)

dokis

Dokumenten Indexierungs Service

Purpose: Scan wird eingeladen, kommt als file.pdf + file.txt
Full-Text-Search

Rollen:
A -> Bereich Hiebaum
B -> Bereich Seifrid
C
D
E
F

Prio: 
0 -> Nix
1 -> Lesen (Ferialpr.)
2 -> Lesen und Bestellen (Vertreter)
3 -> Indexieren, scannen
5 -> Freigeben, korrigieren, Bestellungen entgegennehmen und ausführen
7 -> Datensätze Löschen
9 -> Benutzer verwalten


Vorgang Dokumenteneingabe:
* Scan nach //dokis/input_a
* Div. Dokumente nach //dokis/input_a

Vorgang Abarbeitung Bereich A:
-> Erstellung lauter Einzeldokumente mit TXT-Inhalt. Dadurch unabhängig!
-> Erzeugung von Minipic und PDF ohne TXT




Vorgang CD-ISO-Eingabe:
* Kopieren nach //dokis/input_b
* Scan nach //dokis/input_b
-> PDF wird als einzeldokument wie A behandelt
-> ISO wird als Master-Dokument mit Unter-Dokumenten behandelt
-> ISO wird intern geöffnet und die PDFs als Einzelobjekte eingegliedert (haben die TXT inside?)
-> Anzeige des Masters mit Verweis auf Unter-Doks, Unter-Doks mit Verweis auf Master!



########################################
# Interne Verarbeitung 
########################################
Bereich A:
* cronjob: input_cron.pl durchsucht input_a
1) nach *.pdf
* Umbenennung nach input_pdf/f_fileid.pdf
* Jedes File wird zu einem SimpleDocument (Erst beim Freischalten wird es zu Master bei Bedarf)
* PDF bekommt entweder durch OCR ($pdf_text=0) oder pdf-info ($pdf_text=1) einen Volltext->a_volltext
Es ensteht input_pdf/fileid.txt
* Bei info-pdf wird gleichzeitig ein neues PDF generiert mit p fileid.pdf ohne Info!!
* Es werden gleich Minibilder erzeugt: thumb: h=1024 und minipic: h=200
* umbennen der minipics in $store_mpic
* umbennen der pdf (original und neu) in store_pdf
* Eintrag dieser Daten in DB
* Ev. bereiningen (? WAS ?)

2) nach allem anderen

########################################
# Intern Grundlegendes, verwendete SW etc 
########################################
*Install: jpeg, jpeg2ps gocr php5->ftp

-> check, was für eine Datei man hat: 
file dateiname
(z.B. t_37.txt: UTF-8 Unicode English text, with very long lines )

Konvertierung von ISO8859 in UTF8
iconv -f ISO8859-1 -t UTF-8 {datei_in_iso8859_kodierung} >{datei_in_utf8_kodierung}

Konvertierung von UTF8 in ISO8859
iconv -c -f UTF-8 -t ISO8859-1 {datei_in_utf8_kodierung} >{datei_in_iso8859_kodierung}


1. Input=PDF //dokis/input_a - Filendung=.pdf
2. mv input_a/*.pdf input_pdf/file_id.pdf
3. Umwandlung in einzeldateien im pbm-Format input_pdf/file_id_%d.pdf
4. OCR: Umwandlung in .txt input_pdf/file_id_%d.txt
5. Erzeugung von minipic (Erste Seite)
6. Erzeugung aller Seiten als JPG
7. Delete aller pbm's
 pamscale -ysize 200 f1.pbm >f1_200.pgm
 cjpeg f1_200.pgm >f1_200.jpg
 oder - in einem Schritt:
 pamscale -ysize 800 f1.pbm |cjpeg >f1_800.jpg
 

gs  -sDEVICE=pbm -sOutputFile=f%d.pbm -dNOPAUSE -q -dBATCH -r300 f.pdf


       gocr -v 33 text1.pbm
              output verbose information, out30.png is created to see details of recognition process

       gocr -v 7 -c _YV text1.pbm
              verbose output for unknown chars and chars Y and V

       djpeg -pnm -gray text.jpg | gocr -
              convert a jpeg file to pnm format and input via pipe

ps2ascii f_16.pdf >t16
besser
pdftotext
manipulation mit pdftk
z.B. erste Seite soll übrig bleiben: pdftk in.pdf cat 2-end output out.pdf

Entfernen von Metainformationen: (Ohne gs, scheint ohne Verlsut zu gehen, aber wird grösser!)
pdftops f15_up.pdf
ps2pdf14 f15_up.ps

pdfinfo f15_up.pdf
pdftotext f15_up.pdf

Informationen in PDF einbauen:
data.txt:
InfoKey: Keywords
InfoValue: DocBook,writing,documentation,background 

pdftk f15_opt.pdf update_info data.txt output f15_up.pdf
pdftk f15_up.pdf dump_data
=================================================
mkdir iso
mount Image_090327_1124.iso iso
mount -o loop Image_090327_1124.iso iso
ls -l
ls -l iso/
df -k
umount iso
df -k
ls
rmdir iso

Wegen RAID: SUDO muss adaptiert werden:

Wegen Zeichensatz: es wird generell UTF-8 verwendet, dadurch weniger Probleme mit Umlauten!
Alle Files sind daher in UTF8!!!

#########################################
Installation der Programme für Batch-PDF-Verarbeitung:
1) pdftk
yum localinstall https://www.linuxglobal.com/static/blog/pdftk-2.02-1.el7.x86_64.rpm
2) pamscale
yum install netpbm
yum install netpbm-progs
3) cjpeg
yum install libjpeg-turbo-utils
########################################