net.sf.regain.crawler.document |
Bereitet Inhalte verschiedener Dokumentenformate für die Indizierung auf.
|
Java Source File Name | Type | Comment |
AbstractPreparator.java | Class | Abstract implementation of a preparator. |
DocumentFactory.java | Class | Fabrik, die aus der URL und den Rohdaten eines Dokuments ein Lucene-Ducument
erzeugt, das nur noch den, von Formatierungen ges�uberten, Text des Dokuments,
sowie seine URL und seinen Titel enth�lt. |
HttpDownloadThread.java | Class | Thread, der einen HTTP-Download übernimmt. |
IteratorTokenStream.java | Class | A token stream reading tokens from an iterator. |
PathElement.java | Class | Ein Element eines Pfades. |
Preparator.java | Interface | Prepares a document for indexing.
This is done by extracting the raw text from a document. |
PreparatorFactory.java | Class | Loads and initializes the preparators. |
RawDocument.java | Class | Enth�lt alle Rohdaten eines Dokuments. |