src::TextAnalyzer::TextAnalyzer Klassenreferenz

Abgeleitet von com::itextpdf::text::pdf::parser::RenderListener.

Aufstellung aller Elemente

Öffentliche Methoden

def __init__
def beginTextBlock
def renderText
def getBlockId
def getSatzId
def getBlockCount
def getSatzCount
def getBlockById
def getBlockByCoords
def getSatzIdsByCoords
def getSatzIdsByBlockId
def getSatzById
def getSatzByCoords
def getWordByCoords
def cutTrenner
def addIndex
def addText
def satzIncrement
def blockIncrement

Öffentliche Attribute

 trenner
 akt_satz
 akt_block
 resultingText
 blockMapping
 satzMapping
 satz_blockMapping
 block_satzMapping
 saetze
 bloecke
 wordMapping
 prev_x
 prev_y
 prev_ex
 prev_ey
 prev_text
 prev_ly
 prev_line_height
 letter_spaceing_threshold
 wort_trennung

Ausführliche Beschreibung

TextAnalyzer-Klasse
Implementiert RenderListener aus iText
Rendert nicht sondern macht Satzzusammenfuehrung und Block detection

Dokumentation der Elementfunktionen

def src::TextAnalyzer::TextAnalyzer::addIndex (   self,
  text,
  pos_x,
  pos_y 
)
fuege die aktuelle position (pos_x,pos_y) den Indexlisten hinzu

verbinde faelschlich getrennte worte
Parser liest manche worte in teilen aus:
z.B.  diff icult -> difficult
A B S T R A C T -> ABSTRACT
def src::TextAnalyzer::TextAnalyzer::addText (   self,
  text,
  pos_x,
  pos_y,
  space = " " 
)
verarbeite diesen Text
1. index anlegen
2. zu satz und block hinzufuegen
def src::TextAnalyzer::TextAnalyzer::beginTextBlock (   self  ) 
Callback fuer den Parser
notifiy wenn Text beginnt

startet einen neuen Block und einen neuen satz
def src::TextAnalyzer::TextAnalyzer::blockIncrement (   self  ) 
legt einen neuen block an
und macht ihn zum aktuellen block
def src::TextAnalyzer::TextAnalyzer::cutTrenner (   self,
  pos_x,
  pos_y,
  char 
)
Fuehrt mit - getrennte worte zusammen
Bug: "-" wird nicht entfernt
def src::TextAnalyzer::TextAnalyzer::getBlockByCoords (   self,
  pos_x,
  pos_y 
)
liefert den Text des Blocks an Position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::getBlockById (   self,
  blockid 
)
Liefert den Text des Blocks mit index blockid
def src::TextAnalyzer::TextAnalyzer::getBlockCount (   self  ) 
Liefert die anzahl der bloecke
def src::TextAnalyzer::TextAnalyzer::getBlockId (   self,
  pos_x,
  pos_y 
)
liefert die id des blocks an position (pos_x, pos_y)
geht natuerlich erst nach dem parsen
def src::TextAnalyzer::TextAnalyzer::getSatzByCoords (   self,
  pos_x,
  pos_y 
)
liefert den Text des Satzes an Position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::getSatzById (   self,
  satzid 
)
liefert den Text des satzes mit index satzid
def src::TextAnalyzer::TextAnalyzer::getSatzCount (   self,
  blockid = -1 
)
liefert die anzahl der saetze fuer block mit blockid
Wenn blockid -1 (default):
    dann anzahl der saetze dieser seite
def src::TextAnalyzer::TextAnalyzer::getSatzId (   self,
  pos_x,
  pos_y 
)
liefert die id des Satzes an position (pos_x, pos_y)
geht natuerlich erst nach dem parsen
def src::TextAnalyzer::TextAnalyzer::getSatzIdsByBlockId (   self,
  blockid 
)
liefert eine liste an Satzids fuer den Block mit dem index blockid
def src::TextAnalyzer::TextAnalyzer::getSatzIdsByCoords (   self,
  pos_x,
  pos_y 
)
liefert eine liste an Satzids fuer den Block an der Position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::getWordByCoords (   self,
  pos_x,
  pos_y 
)
Liefert den Text des Wortes an position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::renderText (   self,
  renderInfo 
)
Callback fuer den Parser

here comes the magic!

Primitive Textanalyse, einteilung nach bloecken, saetzen und absaetzen
(keine solchen
Absaetze - diese Art Absatz wird nicht erkannt.

Nur leere Zeilen werden als Absatz erkannt
Mehrspaltiges Layout wird erkannt
unterschiedliche textgroessen
in text fussnoten
def src::TextAnalyzer::TextAnalyzer::satzIncrement (   self  ) 
neuersatz!
legt einen neuen satz an, macht ihn zum aktuellen Satz
und fuegt dem dem aktuellen block hinzu

Die Dokumentation für diese Klasse wurde erzeugt aufgrund der Datei:
 Alle Klassen Funktionen
Erzeugt am Wed Jun 13 19:25:57 2012 für Visualisierung2 von  doxygen 1.6.3