src::TextAnalyzer::TextAnalyzer Klassenreferenz
Abgeleitet von com::itextpdf::text::pdf::parser::RenderListener.
Aufstellung aller Elemente
Ausführliche Beschreibung
TextAnalyzer-Klasse
Implementiert RenderListener aus iText
Rendert nicht sondern macht Satzzusammenfuehrung und Block detection
Dokumentation der Elementfunktionen
def src::TextAnalyzer::TextAnalyzer::addIndex |
( |
|
self, |
|
|
|
text, |
|
|
|
pos_x, |
|
|
|
pos_y | |
|
) |
| | |
fuege die aktuelle position (pos_x,pos_y) den Indexlisten hinzu
verbinde faelschlich getrennte worte
Parser liest manche worte in teilen aus:
z.B. diff icult -> difficult
A B S T R A C T -> ABSTRACT
def src::TextAnalyzer::TextAnalyzer::addText |
( |
|
self, |
|
|
|
text, |
|
|
|
pos_x, |
|
|
|
pos_y, |
|
|
|
space = " " | |
|
) |
| | |
verarbeite diesen Text
1. index anlegen
2. zu satz und block hinzufuegen
def src::TextAnalyzer::TextAnalyzer::beginTextBlock |
( |
|
self |
) |
|
Callback fuer den Parser
notifiy wenn Text beginnt
startet einen neuen Block und einen neuen satz
def src::TextAnalyzer::TextAnalyzer::blockIncrement |
( |
|
self |
) |
|
legt einen neuen block an
und macht ihn zum aktuellen block
def src::TextAnalyzer::TextAnalyzer::cutTrenner |
( |
|
self, |
|
|
|
pos_x, |
|
|
|
pos_y, |
|
|
|
char | |
|
) |
| | |
Fuehrt mit - getrennte worte zusammen
Bug: "-" wird nicht entfernt
def src::TextAnalyzer::TextAnalyzer::getBlockByCoords |
( |
|
self, |
|
|
|
pos_x, |
|
|
|
pos_y | |
|
) |
| | |
liefert den Text des Blocks an Position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::getBlockById |
( |
|
self, |
|
|
|
blockid | |
|
) |
| | |
Liefert den Text des Blocks mit index blockid
def src::TextAnalyzer::TextAnalyzer::getBlockCount |
( |
|
self |
) |
|
Liefert die anzahl der bloecke
def src::TextAnalyzer::TextAnalyzer::getBlockId |
( |
|
self, |
|
|
|
pos_x, |
|
|
|
pos_y | |
|
) |
| | |
liefert die id des blocks an position (pos_x, pos_y)
geht natuerlich erst nach dem parsen
def src::TextAnalyzer::TextAnalyzer::getSatzByCoords |
( |
|
self, |
|
|
|
pos_x, |
|
|
|
pos_y | |
|
) |
| | |
liefert den Text des Satzes an Position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::getSatzById |
( |
|
self, |
|
|
|
satzid | |
|
) |
| | |
liefert den Text des satzes mit index satzid
def src::TextAnalyzer::TextAnalyzer::getSatzCount |
( |
|
self, |
|
|
|
blockid = -1 | |
|
) |
| | |
liefert die anzahl der saetze fuer block mit blockid
Wenn blockid -1 (default):
dann anzahl der saetze dieser seite
def src::TextAnalyzer::TextAnalyzer::getSatzId |
( |
|
self, |
|
|
|
pos_x, |
|
|
|
pos_y | |
|
) |
| | |
liefert die id des Satzes an position (pos_x, pos_y)
geht natuerlich erst nach dem parsen
def src::TextAnalyzer::TextAnalyzer::getSatzIdsByBlockId |
( |
|
self, |
|
|
|
blockid | |
|
) |
| | |
liefert eine liste an Satzids fuer den Block mit dem index blockid
def src::TextAnalyzer::TextAnalyzer::getSatzIdsByCoords |
( |
|
self, |
|
|
|
pos_x, |
|
|
|
pos_y | |
|
) |
| | |
liefert eine liste an Satzids fuer den Block an der Position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::getWordByCoords |
( |
|
self, |
|
|
|
pos_x, |
|
|
|
pos_y | |
|
) |
| | |
Liefert den Text des Wortes an position (pos_x,pos_y)
def src::TextAnalyzer::TextAnalyzer::renderText |
( |
|
self, |
|
|
|
renderInfo | |
|
) |
| | |
Callback fuer den Parser
here comes the magic!
Primitive Textanalyse, einteilung nach bloecken, saetzen und absaetzen
(keine solchen
Absaetze - diese Art Absatz wird nicht erkannt.
Nur leere Zeilen werden als Absatz erkannt
Mehrspaltiges Layout wird erkannt
unterschiedliche textgroessen
in text fussnoten
def src::TextAnalyzer::TextAnalyzer::satzIncrement |
( |
|
self |
) |
|
neuersatz!
legt einen neuen satz an, macht ihn zum aktuellen Satz
und fuegt dem dem aktuellen block hinzu
Die Dokumentation für diese Klasse wurde erzeugt aufgrund der Datei: