| java.lang.Object net.sf.regain.crawler.config.DummyCrawlerConfig
DummyCrawlerConfig | public class DummyCrawlerConfig implements CrawlerConfig(Code) | | Stellt alle zu konfigurierenden Einstellungen hardcodiert zur Verfügung.
author: Til Schneider, www.murfman.de |
Method Summary | |
public String | getAnalyzerType() Gibt den zu verwendenden Analyzer-Typ zurück. | public AuxiliaryField[] | getAuxiliaryFieldList() Gets the list of the auxiliary fields.
The list of the auxiliary fields. | public UrlMatcher[] | getBlackList() Gets the black list. | public int | getBreakpointInterval() Returns the interval between two breakpoint in minutes. | public boolean | getBuildIndex() Gibt zurück, ob ein Suchindex erstellt werden soll. | public String | getCrawlerAccessControllerClass() Gets the class name of the
net.sf.regain.crawler.access.CrawlerAccessController to use.
Returns null if no CrawlerAccessController should be used.
The class name of the CrawlerAccessController. | public Properties | getCrawlerAccessControllerConfig() Gets the configuration of the
net.sf.regain.crawler.access.CrawlerAccessController . | public String | getCrawlerAccessControllerJar() Gets the name of jar file to load the
net.sf.regain.crawler.access.CrawlerAccessController from.
Returns null if the CrawlerAccessController already is in the
classpath.
The name of jar file to load the CrawlerAccessController from. | public String[] | getExclusionList() Gibt alle Worte zurück, die bei der Indizierung nicht vom Analyzer
verändert werden sollen. | public String | getFinishedWithFatalsFileName() Gibt den Namen der Kontrolldatei für fehlerhafte Indexerstellung zurück. | public String | getFinishedWithoutFatalsFileName() Gibt den Namen der Kontrolldatei für erfolgreiche Indexerstellung zurück. | public UrlPattern[] | getHtmlParserUrlPatterns() Gibt die UrlPattern zurück, die der HTML-Parser nutzen soll, um URLs zu
identifizieren. | public int | getHttpTimeoutSecs() Gibt den Timeout für HTTP-Downloads zurück. | public String | getIndexDir() Gibt das Verzeichnis zurück, in dem der stehen soll. | public boolean | getLoadUnparsedUrls() Gibt zurück, ob URLs geladen werden sollen, die weder durchsucht noch
indiziert werden. | public double | getMaxFailedDocuments() Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zurück. | public int | getMaxFieldLength() | public PreparatorSettings[] | getPreparatorSettingsList() Gets the list with the preparator settings. | public String | getProxyHost() Gibt den Host-Namen des Proxy-Servers zurück. | public String | getProxyPassword() Gibt das Passwort für die Anmeldung beim Proxy-Server zurück. | public String | getProxyPort() Gibt den Port des Proxy-Servers zurück. | public String | getProxyUser() Gibt den Benutzernamen für die Anmeldung beim Proxy-Server zurück. | public StartUrl[] | getStartUrls() Gibt die StartUrls zurück, bei denen der Crawler-Prozeß beginnen soll. | public String[] | getStopWordList() Gibt alle Worte zurück, die nicht indiziert werden sollen. | public String[] | getUseLinkTextAsTitleRegexList() Gibt die regulären Ausdrücke zurück, auf die die URL eines Dokuments passen
muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der
auf das Dokument gezeigt hat, als Dokumententitel genutzt wird. | public String | getUserAgent() | public String[] | getValuePrefetchFields() | public WhiteListEntry[] | getWhiteList() Gets the white list. | public boolean | getWriteAnalysisFiles() Gibt zurück, ob Analyse-Deteien geschrieben werden sollen. |
getAnalyzerType | public String getAnalyzerType()(Code) | | Gibt den zu verwendenden Analyzer-Typ zurück.
en zu verwendenden Analyzer-Typ |
getAuxiliaryFieldList | public AuxiliaryField[] getAuxiliaryFieldList()(Code) | | Gets the list of the auxiliary fields.
The list of the auxiliary fields. May be null. |
getBlackList | public UrlMatcher[] getBlackList()(Code) | | Gets the black list.
The black list is an array of UrlMatchers, a URLs must not match to,
in order to be processed.
The black list. |
getBreakpointInterval | public int getBreakpointInterval()(Code) | | Returns the interval between two breakpoint in minutes. If set to 0, no
breakpoints will be created.
the interval between two breakpoint in minutes. |
getBuildIndex | public boolean getBuildIndex()(Code) | | Gibt zurück, ob ein Suchindex erstellt werden soll.
Ob ein Suchindex erstellt werden soll. |
getExclusionList | public String[] getExclusionList()(Code) | | Gibt alle Worte zurück, die bei der Indizierung nicht vom Analyzer
verändert werden sollen.
Alle Worte, die bei der Indizierung nicht vom Analyzerverändert werden sollen. |
getFinishedWithFatalsFileName | public String getFinishedWithFatalsFileName()(Code) | | Gibt den Namen der Kontrolldatei für fehlerhafte Indexerstellung zurück.
Diese Datei wird erzeugt, wenn der Index erstellt wurde, wobei
fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zurückgegeben.
Der Name der Kontrolldatei für fehlerhafte Indexerstellung |
getFinishedWithoutFatalsFileName | public String getFinishedWithoutFatalsFileName()(Code) | | Gibt den Namen der Kontrolldatei für erfolgreiche Indexerstellung zurück.
Diese Datei wird erzeugt, wenn der Index erstellt wurde, ohne dass
fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zurückgegeben.
Der Name der Kontrolldatei für erfolgreiche Indexerstellung |
getHtmlParserUrlPatterns | public UrlPattern[] getHtmlParserUrlPatterns()(Code) | | Gibt die UrlPattern zurück, die der HTML-Parser nutzen soll, um URLs zu
identifizieren.
Die UrlPattern für den HTML-Parser. |
getHttpTimeoutSecs | public int getHttpTimeoutSecs()(Code) | | Gibt den Timeout für HTTP-Downloads zurück. Dieser Wert bestimmt die
maximale Zeit in Sekunden, die ein HTTP-Download insgesamt dauern darf.
Den Timeout für HTTP-Downloads |
getIndexDir | public String getIndexDir()(Code) | | Gibt das Verzeichnis zurück, in dem der stehen soll.
Das Verzeichnis, in dem der Suchindex stehen soll. |
getLoadUnparsedUrls | public boolean getLoadUnparsedUrls()(Code) | | Gibt zurück, ob URLs geladen werden sollen, die weder durchsucht noch
indiziert werden.
Ob URLs geladen werden sollen, die weder durchsucht noch indiziertwerden. |
getMaxFailedDocuments | public double getMaxFailedDocuments()(Code) | | Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zurück. (0..1)
Ist das Verhälnis von gescheiterten Dokumenten zur Gesamtzahl von
Dokumenten größer als dieser Prozentsatz, so wird der Index verworfen.
Gescheiterte Dokumente sind Dokumente die es entweder nicht gibt (Deadlink)
oder die nicht ausgelesen werden konnten.
Den maximalen Prozentsatz von gescheiterten Dokumenten zurück. |
getMaxFieldLength | public int getMaxFieldLength()(Code) | | |
getPreparatorSettingsList | public PreparatorSettings[] getPreparatorSettingsList()(Code) | | Gets the list with the preparator settings.
The list with the preparator settings. |
getProxyHost | public String getProxyHost()(Code) | | Gibt den Host-Namen des Proxy-Servers zurück. Wenn kein Host konfiguriert
wurde, wird null zurückgegeben.
Der Host-Namen des Proxy-Servers. |
getProxyPassword | public String getProxyPassword()(Code) | | Gibt das Passwort für die Anmeldung beim Proxy-Server zurück. Wenn kein
Passwort konfiguriert wurde, wird null zurückgegeben.
Das Passwort für die Anmeldung beim Proxy-Server. |
getProxyPort | public String getProxyPort()(Code) | | Gibt den Port des Proxy-Servers zurück. Wenn kein Port konfiguriert wurde,
wird null zurückgegeben.
Der Port des Proxy-Servers. |
getProxyUser | public String getProxyUser()(Code) | | Gibt den Benutzernamen für die Anmeldung beim Proxy-Server zurück. Wenn
kein Benutzernamen konfiguriert wurde, wird null zurückgegeben.
Der Benutzernamen für die Anmeldung beim Proxy-Server. |
getStartUrls | public StartUrl[] getStartUrls()(Code) | | Gibt die StartUrls zurück, bei denen der Crawler-Prozeß beginnen soll.
Die StartUrls. |
getStopWordList | public String[] getStopWordList()(Code) | | Gibt alle Worte zurück, die nicht indiziert werden sollen.
Alle Worte, die nicht indiziert werden sollen. |
getUseLinkTextAsTitleRegexList | public String[] getUseLinkTextAsTitleRegexList()(Code) | | Gibt die regulären Ausdrücke zurück, auf die die URL eines Dokuments passen
muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der
auf das Dokument gezeigt hat, als Dokumententitel genutzt wird.
Die regulären Ausdrücke, die Dokumente bestimmen, für die derLinktext als Titel genommen werden soll. |
getValuePrefetchFields | public String[] getValuePrefetchFields()(Code) | | |
getWhiteList | public WhiteListEntry[] getWhiteList()(Code) | | Gets the white list.
The black list is an array of WhiteListEntry, a URLs must match to,
in order to be processed.
Die Weiße Liste |
getWriteAnalysisFiles | public boolean getWriteAnalysisFiles()(Code) | | Gibt zurück, ob Analyse-Deteien geschrieben werden sollen.
Diese Dateien helfen, die Qualität der Index-Erstellung zu prüfen und
werden in einem Unterverzeichnis im Index-Verzeichnis angelegt.
Ob Analyse-Deteien geschrieben werden sollen. |
|
|