net.sf.regain.crawler.preparator.html |
Die Hilfsklassen des HtmlPreparator.
|
Java Source File Name | Type | Comment |
AbstractExtractor.java | Class | Extrahiert mit Hilfe von Regulären Ausdrücken ein Fragment eines Dokuments. |
HtmlContentExtractor.java | Class | Extrahiert aus einem HTML-Dokument den eigentlichen Inhalt.
Dazu werden zwei reguläre Ausdrücke verwendet, die jeweils den Anfang und das
Ende des Inhalts erkennen. |
HtmlPathExtractor.java | Class | Extrahiert aus einem HTML-Dokument den Pfad, über den es zu erreichen ist. |