¿Cómo puedo alcanzar la mejor actualización de resultados de la búsqueda? Introduciendo rastreos continuos de SharePoint

Artículo original publicado el sábado 15 de septiembre de 2012

Audiencia: administradores de búsqueda/profesionales de TI
Requisito previo: este blog asume que el lector cuenta con conocimiento básico de administración de la búsqueda de la topología de la búsqueda de SharePoint, del mecanismo de rastreo y de los principios de la programación de rastreo.
Nota: Esta característica es nueva para SharePoint 2013.

¿Qué es la actualización de resultados de la búsqueda?
Después de que un usuario carga un documento a su sitio de SharePoint, el período de tiempo que transcurre hasta que ese documento está disponible para "buscar" en el portal de búsqueda de SharePoint indica la latencia de actualización.

¿De qué depende la actualización?
De múltiples factores: el tamaño del repositorio, la tasa de cambio, el tiempo de respuesta de la solicitud de repositorio, la programación de rastreo, los tipos de cambios. Esto es porque, para hacer que un documento esté disponible para "buscar", se tiene que desencadenar un rastreo (ya sea de manera manual o automática por programación), y el cambio se tiene que identificar, solicitar y procesar.

Entonces, ¿cuál es el problema?
Tradicionalmente, hemos tenido dos opciones de programación en la búsqueda de SharePoint: rastreo completo o incremental. Un rastreo completo lanza el descubrimiento del host completo, mientras que un rastreo incremental solo procesa los elementos del host que han cambiado desde la última vez que se realizó un rastreo, ya sea usando la comparación de marca de tiempo de cada documento o aprovechando un registro de cambio preexistente para ese repositorio que rastree los documentos modificados. Para lograr una mayor actualización, el enfoque recomendado es realizar un rastreo incremental más agresivo (es decir, cada 30 minutos todos los días).

Una de las limitaciones de los rastreos completos e incrementales es que no se pueden ejecutar de manera paralela, es decir, si un rastreo completo o incremental está en progreso, el administrador no puede lanzar otro rastreo en ese origen de contenido. Esto provoca que la indización de los elementos se realice según el sistema de "primero en entrar, primero en salir". Además, algunos tipos de cambios resultan en tiempos de ejecución extendidos (por ejemplo, un cambio de directiva a nivel de raíz de un host significa que hay que volver a indizar todo el host para actualizar el descriptor de seguridad de cada elemento indizado). Estos dos factores combinados resultan en una actualización fluctuante, incluso si se establece un programa de rastreo incremental frecuente. Para ilustrar esto, a continuación se ve el modelo mental esperado de rastreo incremental comparado con el real, seguido de la actualización de ese sistema.

 

 

 

¿Entonces cuál es la corrección? La introducción de rastreos continuos
Recomiendo una opción de rastreo para orígenes de contenido de tipo de SharePoint que proporciona una alternativa sin programación para administrar un origen de contenido. La arquitectura subyacente está diseñada para asegurar una actualización consistente mediante la superación de las dos limitaciones fundamentales de los rastreos completos e incrementales:

  • pueden ejecutarse de manera paralela
  • un cambio profundo no resultará en una actualización degradada de todos los cambios siguientes

Cuénteme más…
En segundo plano, la selección de rastreo continuo resulta en el lanzamiento de un rastreo cada 15 minutos independientemente de si la sesión anterior se completó o no. Esto significa que un cambio que se hace inmediatamente después de un cambio profundo no tiene que "esperar". Se continuará procesando los cambios nuevos en paralelo mientras otra sesión de rastreo continuo está trabajando en un cambio de directiva profundo. A continuación, verá una ilustración que muestra cómo rotan los rastreos continuos cada 15 minutos en paralelo, lo que permite administrar picos de contenido repentinos sin afectar la actualización general. El siguiente gráfico ilustra el impacto en la actualización alcanzado mediante el uso de un rastreo continuo en lugar de un rastreo incremental.

 

 

Entonces, ¿qué más tengo que saber?
En blogs posteriores, revisaremos en mayor detalle cómo el rastreo continuo maneja distintos tipos de escenarios (errores, seguridad, etc.) y cómo se puede usar el registro de rastreo y el historial de rastreo para comprender mejor qué sucede en realidad.

Preguntas frecuentes:

¿Puedo usar el rastreo continuo para todos los tipos de orígenes de contenido?
No. Los rastreos continuos están disponibles solo para origen de contenido de tipo de SharePoint. Todos los otros tipos de orígenes de contenido continuarán teniendo como opción el rastreo incremental y el completo.

¿El uso de rastreo continuo agregará una carga adicional al repositorio?
El espacio que utiliza el rastreo continuo es similar al que usa el rastreo incremental. Mientras que la frecuencia a la que se hacen las solicitudes aumenta, la cantidad máxima de solicitudes simultáneas en un repositorio/host seguirá estando controlada por las *reglas de impacto de rastreo* (que definen la cantidad máxima de procesos simultáneos que pueden hacer solicitudes, que de manera predeterminada es 12, pero se puede modificar por solicitud del negocio o el plan de capacidad).

¿Tengo que configurar un rastreo incremental o un rastreo completo si uso un rastreo continuo?
El rastreo incremental no necesita estar configurado con rastreo continuo.

¿El rastreo continuo agregará una carga adicional al repositorio/host?
El rastreo continuo aumentará la carga del host ligeramente ya que inherentemente puede ejecutar sesiones múltiples paralelas de manera simultánea. Sin embargo, hay que tener en cuenta que se ajustará a la configuración de la "regla de impacto de rastreo", que controla la cantidad máxima de solicitudes simultáneas que se pueden hacer a un host (OOB está configurado para 12 procesos, pero se puede cambiar).

¿Puedo usar el rastreo continuo para rastrear contenido de versiones anteriores de SharePoint?
Sí, mientras que la aplicación de búsqueda tiene que ser de 2013, las granjas de contenido en que se ejecuten versiones anteriores de SharePoint se pueden configurar para que se rastreen de manera continua.

Esta entrada de blog es una traducción. Puede ver el artículo original en How can I achieve the best freshness of search results? Introducing Continuous Crawls for SharePoint