| java.lang.Object net.sf.regain.crawler.config.XmlCrawlerConfig
XmlCrawlerConfig | public class XmlCrawlerConfig implements CrawlerConfig(Code) | | Liest die konfigurierenden Einstellungen aus einer XML-Datei und stellt sie
zur Verf�gung.
author: Til Schneider, www.murfman.de |
Constructor Summary | |
public | XmlCrawlerConfig(File xmlFile) Erzeugt eine neue XmlConfiguration-Instanz. |
Method Summary | |
public String | getAnalyzerType() Gibt den zu verwendenden Analyzer-Typ zur�ck. | public AuxiliaryField[] | getAuxiliaryFieldList() Gets the list of the auxiliary fields.
The list of the auxiliary fields. | public UrlMatcher[] | getBlackList() Gets the black list. | public int | getBreakpointInterval() Returns the interval between two breakpoint in minutes. | public boolean | getBuildIndex() Gibt zur�ck, ob ein Suchindex erstellt werden soll. | public String | getCrawlerAccessControllerClass() Gets the class name of the
net.sf.regain.crawler.access.CrawlerAccessController to use.
Returns null if no CrawlerAccessController should be used.
The class name of the CrawlerAccessController. | public Properties | getCrawlerAccessControllerConfig() Gets the configuration of the
net.sf.regain.crawler.access.CrawlerAccessController . | public String | getCrawlerAccessControllerJar() Gets the name of jar file to load the
net.sf.regain.crawler.access.CrawlerAccessController from.
Returns null if the CrawlerAccessController already is in the
classpath.
The name of jar file to load the CrawlerAccessController from. | public String[] | getExclusionList() Gibt alle Worte zur�ck, die bei der Indizierung nicht vom Analyzer
ver�ndert werden sollen. | public String | getFinishedWithFatalsFileName() Gibt den Namen der Kontrolldatei f�r fehlerhafte Indexerstellung zur�ck. | public String | getFinishedWithoutFatalsFileName() Gibt den Namen der Kontrolldatei f�r erfolgreiche Indexerstellung zur�ck. | public UrlPattern[] | getHtmlParserUrlPatterns() Gibt die UrlPattern zur�ck, die der HTML-Parser nutzen soll, um URLs zu
identifizieren. | public int | getHttpTimeoutSecs() Gibt den Timeout f�r HTTP-Downloads zur�ck. | public String | getIndexDir() Gibt das Verzeichnis zur�ck, in dem der Suchindex am Ende stehen soll. | public boolean | getLoadUnparsedUrls() Gibt zur�ck, ob URLs geladen werden sollen, die weder durchsucht noch
indiziert werden. | public double | getMaxFailedDocuments() Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zur�ck. | public int | getMaxFieldLength() | public PreparatorSettings[] | getPreparatorSettingsList() Gets the list with the preparator settings. | public String | getProxyHost() Gibt den Host-Namen des Proxy-Servers zur�ck. | public String | getProxyPassword() Gibt das Passwort f�r die Anmeldung beim Proxy-Server zur�ck. | public String | getProxyPort() Gibt den Port des Proxy-Servers zur�ck. | public String | getProxyUser() Gibt den Benutzernamen f�r die Anmeldung beim Proxy-Server zur�ck. | public StartUrl[] | getStartUrls() Gibt die StartUrls zur�ck, bei denen der Crawler-Proze� beginnen soll. | public String[] | getStopWordList() Gibt alle Worte zur�ck, die nicht indiziert werden sollen. | public String[] | getUseLinkTextAsTitleRegexList() Gibt die regul�ren Ausdr�cke zur�ck, auf die die URL eines Dokuments passen
muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der
auf das Dokument gezeigt hat, als Dokumententitel genutzt wird. | public String | getUserAgent() | public String[] | getValuePrefetchFields() | public WhiteListEntry[] | getWhiteList() Gets the white list. | public boolean | getWriteAnalysisFiles() Gibt zur�ck, ob Analyse-Deteien geschrieben werden sollen. |
XmlCrawlerConfig | public XmlCrawlerConfig(File xmlFile) throws RegainException(Code) | | Erzeugt eine neue XmlConfiguration-Instanz.
Parameters: xmlFile - Die XML-Datei, aus der die Konfiguration gelesen werden soll. throws: RegainException - Falls die Konfiguration nicht korrekt gelesen werdenkonnte. |
getAnalyzerType | public String getAnalyzerType()(Code) | | Gibt den zu verwendenden Analyzer-Typ zur�ck.
en zu verwendenden Analyzer-Typ |
getAuxiliaryFieldList | public AuxiliaryField[] getAuxiliaryFieldList()(Code) | | Gets the list of the auxiliary fields.
The list of the auxiliary fields. May be null. |
getBlackList | public UrlMatcher[] getBlackList()(Code) | | Gets the black list.
The black list is an array of UrlMatchers, a URLs must not match to,
in order to be processed.
The black list. |
getBreakpointInterval | public int getBreakpointInterval()(Code) | | Returns the interval between two breakpoint in minutes. If set to 0, no
breakpoints will be created.
the interval between two breakpoint in minutes. |
getBuildIndex | public boolean getBuildIndex()(Code) | | Gibt zur�ck, ob ein Suchindex erstellt werden soll.
Ob ein Suchindex erstellt werden soll. |
getExclusionList | public String[] getExclusionList()(Code) | | Gibt alle Worte zur�ck, die bei der Indizierung nicht vom Analyzer
ver�ndert werden sollen.
Alle Worte, die bei der Indizierung nicht vom Analyzerver�ndert werden sollen. |
getFinishedWithFatalsFileName | public String getFinishedWithFatalsFileName()(Code) | | Gibt den Namen der Kontrolldatei f�r fehlerhafte Indexerstellung zur�ck.
Diese Datei wird erzeugt, wenn der Index erstellt wurde, wobei
fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zur�ckgegeben.
Der Name der Kontrolldatei f�r fehlerhafte Indexerstellung |
getFinishedWithoutFatalsFileName | public String getFinishedWithoutFatalsFileName()(Code) | | Gibt den Namen der Kontrolldatei f�r erfolgreiche Indexerstellung zur�ck.
Diese Datei wird erzeugt, wenn der Index erstellt wurde, ohne dass
fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zur�ckgegeben.
Der Name der Kontrolldatei f�r erfolgreiche Indexerstellung |
getHtmlParserUrlPatterns | public UrlPattern[] getHtmlParserUrlPatterns()(Code) | | Gibt die UrlPattern zur�ck, die der HTML-Parser nutzen soll, um URLs zu
identifizieren.
Die UrlPattern f�r den HTML-Parser. |
getHttpTimeoutSecs | public int getHttpTimeoutSecs()(Code) | | Gibt den Timeout f�r HTTP-Downloads zur�ck. Dieser Wert bestimmt die
maximale Zeit in Sekunden, die ein HTTP-Download insgesamt dauern darf.
Den Timeout f�r HTTP-Downloads |
getIndexDir | public String getIndexDir()(Code) | | Gibt das Verzeichnis zur�ck, in dem der Suchindex am Ende stehen soll.
Das Verzeichnis, in dem der Suchindex am Ende stehen soll. |
getLoadUnparsedUrls | public boolean getLoadUnparsedUrls()(Code) | | Gibt zur�ck, ob URLs geladen werden sollen, die weder durchsucht noch
indiziert werden.
Ob URLs geladen werden sollen, die weder durchsucht noch indiziertwerden. |
getMaxFailedDocuments | public double getMaxFailedDocuments()(Code) | | Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zur�ck. (0..1)
Ist das Verh�lnis von gescheiterten Dokumenten zur Gesamtzahl von
Dokumenten gr��er als dieser Prozentsatz, so wird der Index verworfen.
Gescheiterte Dokumente sind Dokumente die es entweder nicht gibt (Deadlink)
oder die nicht ausgelesen werden konnten.
Den maximalen Prozentsatz von gescheiterten Dokumenten zur�ck. |
getMaxFieldLength | public int getMaxFieldLength()(Code) | | |
getPreparatorSettingsList | public PreparatorSettings[] getPreparatorSettingsList()(Code) | | Gets the list with the preparator settings.
The list with the preparator settings. |
getProxyHost | public String getProxyHost()(Code) | | Gibt den Host-Namen des Proxy-Servers zur�ck. Wenn kein Host konfiguriert
wurde, wird null zur�ckgegeben.
Der Host-Namen des Proxy-Servers. |
getProxyPassword | public String getProxyPassword()(Code) | | Gibt das Passwort f�r die Anmeldung beim Proxy-Server zur�ck. Wenn kein
Passwort konfiguriert wurde, wird null zur�ckgegeben.
Das Passwort f�r die Anmeldung beim Proxy-Server. |
getProxyPort | public String getProxyPort()(Code) | | Gibt den Port des Proxy-Servers zur�ck. Wenn kein Port konfiguriert wurde,
wird null zur�ckgegeben.
Der Port des Proxy-Servers. |
getProxyUser | public String getProxyUser()(Code) | | Gibt den Benutzernamen f�r die Anmeldung beim Proxy-Server zur�ck. Wenn
kein Benutzernamen konfiguriert wurde, wird null zur�ckgegeben.
Der Benutzernamen f�r die Anmeldung beim Proxy-Server. |
getStartUrls | public StartUrl[] getStartUrls()(Code) | | Gibt die StartUrls zur�ck, bei denen der Crawler-Proze� beginnen soll.
Die StartUrls. |
getStopWordList | public String[] getStopWordList()(Code) | | Gibt alle Worte zur�ck, die nicht indiziert werden sollen.
Alle Worte, die nicht indiziert werden sollen. |
getUseLinkTextAsTitleRegexList | public String[] getUseLinkTextAsTitleRegexList()(Code) | | Gibt die regul�ren Ausdr�cke zur�ck, auf die die URL eines Dokuments passen
muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der
auf das Dokument gezeigt hat, als Dokumententitel genutzt wird.
Die regul�ren Ausdr�cke, die Dokumente bestimmen, f�r die derLinktext als Titel genommen werden soll. |
getValuePrefetchFields | public String[] getValuePrefetchFields()(Code) | | |
getWhiteList | public WhiteListEntry[] getWhiteList()(Code) | | Gets the white list.
The black list is an array of WhiteListEntry, a URLs must match to,
in order to be processed.
Die Weiße Liste |
getWriteAnalysisFiles | public boolean getWriteAnalysisFiles()(Code) | | Gibt zur�ck, ob Analyse-Deteien geschrieben werden sollen.
Diese Dateien helfen, die Qualit�t der Index-Erstellung zu pr�fen und
werden in einem Unterverzeichnis im Index-Verzeichnis angelegt.
Ob Analyse-Deteien geschrieben werden sollen. |
|
|