Crawling von Fileshares in SharePoint 2013 und mögliche Probleme bei der Priorisierung des Crawls

05. Dezember 2013
SharePoint 2013

In einigen Kundenszenarien kam die Anforderung, dass Fileshares über die gleiche URL gecrawlt werden sollen, welche aber in verschiedenen Regionen der Welt liegen und damit unterschiedlich schnelle Internetanbindungen haben. Um in diesem Beispiel den Content erfolgreich indexieren zu können, muss eine Priorisierung der Content Sources vorgenommen werden und zusätzlich noch die Performance gegen die langsamen Anbindungen reduziert werden.

Aus diesem Anlass thematisiert der Blogpost das Crawling von Dokumentenfreigaben in SharePoint 2013 und die möglichen Probleme bei der Priorisierung des Crawls.

Fileshares crawlen

Um Dokumentenfreigagen in SharePoint zu crawlen, muss dafür zunächst eine passende Content Source erstellt werden. Diese kann in der Search Service Application unter dem Menüpunkt Content Source definiert werden. Nachdem im Content Source Menü auf New Content Source geklickt wurde, erscheint die folgende Bedienoberfläche:

Hier gibt es die Option der Content Source einen beliebigen Namen zu geben und die Netzwerkpfade in der Adressbox anzugeben, die später gecrawlt werden sollen. Im Anschluss besteht noch die Möglichkeit für die Content Source einen Scheduler einzustellen, wenn der Index aktuell gehalten werden soll.

Mögliche Probleme beim Fileshare-Crawling

Bei DFS Netzwerkpfaden, die mit gleichem Namen beginnen, kann es zu Performance-Einbrüchen des Crawlers kommen, wenn die Fileshares nicht gleich schnell sind oder verschiedene Netzwerkanbindungen haben.

Die Lösung hierzu ist, dass für die verschiedenen Locations DNS Einträge anlegt werden, die auf den gleichen Namen zeigen. Diese Custom Namen werden dann gecrawled und über Server Name Mapping wieder auf den richtigen Pfad abgebildet. 

Beispiel:

\\company.com\Deu → schnelle Anbindung an den Crawler

\\company.com\Eng → langsame Anbindung an den Crawler

DNS Einträge:

Companydeu.com – ALIAS(CNAME) – company.com

Companyeng.com – ALIAS(CNAME) – company.com

Start Addresses in der Content Source:

\\companydeu.com\Deu

\\companyeng.com\Eng

Server Name Mapping:

File://companydeu.com/ - File://company.com/

File://companyeng.com/ - File://company.com/

Nun können verschiedene Regeln auf den Crawler eingerichtet werden, damit die schnelle Location auch schnell indexiert und die langsame Location die schnelle nicht ausbremst.

Dies kann mit Hilfe der Crawler Impact Rules und der Content Source Priorisierung realisiert werden. Diese beiden Eigenschaften funktionieren anhand der URL. Daher werden keine unterschiedliche URLs benötigt, obwohl es der gleiche Pfad ist.

Crawler Impact Rules

Die Crawler Impact Rules können unter dem Punkt Crawling → Crawler Impact Rules konfiguriert werden.

In den Auswirkungsregeln für Crawler kann festgelegt werden, dass unter einer bestimmten URL nur eine bestimmte Anzahl an Dokumenten gecrawled werden soll oder zwischen der Abfrage von Dokumenten erst eine bestimmte Zeit gewartet werden soll. Dadurch kann die Quelle stärker oder leichter vom Crawler beansprucht werden.

 

Content Source Priorisierung

Die Content Source Priorisierung kann in den Content Sources (Datenquellen) vorgenommen werden. Dazu geht man auf Crawling Content Sources und wählt die gewünschte Content Source aus.

 

 

 

Im Anschluss kann in der Content Source die Priorität eingestellt werden. Zur Auswahl stehen Normal und Hoch. Content Sources die hoch priorisiert sind, werden von dem Content Processing in der Suche schneller verarbeitet, d.h. dieser Content ist schneller durchsuchbar.

Fazit

Wenn der Fileshare-Crawler nach den oben beschriebenen Konfigurationen erstellt wird, kann weltweit der Fileshare Content in einer schnelleren Zeit gecrawlt werden. Dies führt zu einem hoch aktuellen Index und schließlich zu einer besseren User Experience bei der Suche nach Dokumenten, die global verteilt sind.

Neuen Kommentar schreiben