Como obter o melhor nível de atualização dos resultados de pesquisa? Introdução aos rastreamentos contínuos para SharePoint

Artigo original publicado no sábado, 15 de setembro de 2012

Público-alvo: administradores de pesquisas/profissionais de TI
Pré-requisito: este blog parte do pressuposto de que o leitor possui conhecimentos básicos em Administração da Pesquisa relativos à topologia de pesquisa do SharePoint, mecanismo de rastreamento e princípios do agendamento de rastreamento.
Observação: este recurso é novo no SharePoint 2013.

O que é a atualização dos resultados de pesquisa?
Depois que um usuário faz upload de um documento em seu site do SharePoint, o período antes de o documento estar disponível para "agendamento" pelo portal de pesquisa do SharePoint indica a latência de atualização.

Do que depende a atualização?
De vários fatores: tamanho do repositório, taxa de alteração, tempo de resposta de solicitações do repositório, agendamento de rastreamento, tipos de alterações. Isso porque para tornar um documento disponível para "pesquisa", é preciso acionar um rastreamento (de forma manual ou automática, por agendamento) e a alteração deve ser identificada, solicitada e processada.

Então, qual é o problema?
Tradicionalmente, tínhamos duas opções de agendamento na pesquisa do SharePoint: rastreamento completo ou incremental. Um rastreamento completo realiza a detecção de todo o host, enquanto um rastreamento incremental processa apenas os itens no host com alterações desde o último rastreamento, seja usando comparação de carimbos de data/hora de cada documento ou pelo aproveitamento de um log de alterações pré-existente para o repositório, que rastreia documentos modificados. Para obter um nível de atualização maior, a abordagem recomendada era tornar o rastreamento incremental mais dinâmico (ou seja, a cada 30 minutos, e não uma vez por dia).

Uma das limitações dos rastreamentos completo e incremental é que eles não podem ser executados paralelamente, isto é, caso haja um rastreamento completo ou incremental em andamento, o administrador não poderá iniciar outro rastreamento naquela fonte de conteúdo. Isso força uma abordagem "primeiro a entrar, primeiro a sair" em relação a como os itens são indexados. Além disso, alguns tipos de alterações resultam na ampliação dos tempos de execução (por exemplo, uma alteração de política no nível da raiz de um host significa que todo o host deve ser reindexado para atualizar o descritor de segurança de cada item indexado). Esses dois fatores combinados resultam em flutuações na atualização, mesmo quando à um agendamento de rastreamento incremental definido. para ilustrar isso, veja a seguir o modelo mental esperado do rastreamento incremental em comparação com o mundo real, seguido da atualização do sistema.

 

 

 

Então, qual é a correção? Introdução ao rastreamento contínuo
Recomendo uma opção de rastreamento para as fontes de conteúdo do tipo SharePoint que fornece uma alternativa livre de agendamentos ao gerenciamento de uma fonte de conteúdo. A arquitetura subjacente é projetada de modo a garantir uma atualização consistente por meio da superação de duas limitações fundamentais dos rastreamentos completos/incrementais:

  • eles podem ser executados paralelamente
  • uma alteração profunda não resultará na redução do desempenho da atualização em todas as alterações seguintes

Conte-me mais sobre isso…
Em segundo plano, a seleção de rastreamento contínuo resulta na execução de um rastreamento a cada 15 minutos, independente de a sessão anterior ter sido concluída ou não. Isso significa que uma alteração feita imediatamente após uma alteração profunda não precisa "aguardar". As novas alterações continuarão a ser processadas paralelamente, pois uma alteração de política profunda é processada por outra sessão de rastreamento contínuo. Veja uma ilustração de como os rastreamentos contínuos são acionados paralelamente a cada 15 minutos, ajudando a gerenciar picos repentinos de conteúdo sem afetar a atualização geral. O gráfico a seguir ilustra o impacto sobre a atualização atingido pelo uso de rastreamento contínuo em relação ao rastreamento incremental.

 

 

Do que mais preciso saber?
Em posts subsequentes, veremos com mais detalhes como o rastreamento contínuo lida com diferentes tipos de cenários (erros, segurança, etc.) e como você pode usar o log e o histórico de rastreamento para compreender melhor o que está acontecendo em segundo plano.

Perguntas frequentes:

Posso usar o rastreamento contínuo em todos os tipos de fontes de conteúdo?
Não. Os rastreamentos contínuos estão disponíveis apenas para fontes de conteúdo do tipo SharePoint. Todos os outros tipos de fontes de conteúdo continuarão a ter as opções de rastreamento incremental e completo.

A utilização de rastreamento contínuo aumentará a carga do repositório?
O volume do rastreamento contínuo é semelhante ao do rastreamento incremental. Embora a frequência com que as solicitações são feitas tenha aumentado, o número máximo de solicitações simultâneas em um repositório/host ainda será controlado pelas regras de impacto de rastreamento (que definem o número máximo de threads simultâneos que podem fazer solicitações. Por padrão, esse número é de 12 threads, mas pode ser modificado de acordo com os requisitos de negócios e/ou o plano de capacidade).

Preciso definir um rastreamento incremental ou completo ao usar rastreamento contínuo?
O rastreamento incremental não precisa ser configurado como contínuo.

O rastreamento contínuo aumentará a carga do host/repositório?
O rastreamento contínuo levará a um aumento mínimo na carga do host, pois ele pode executar várias sessões paralelas simultaneamente de forma inerente a ele. Entretanto, é preciso ressaltar que ele estará em conformidade com a configuração da regra de impacto de rastreamento, que controla o número máximo de solicitações simultâneas que podem ser feitas para um host (que, por padrão, é definido como 12 threads, mas pode ser alterado)

Posso usar o rastreamento contínuo para rastrear versões anteriores de conteúdo do SharePoint?
Sim. Embora o aplicativo de pesquisa precise ser de 2013, os farms de conteúdo que executam versões anteriores do SharePoint podem ser configurados para rastreamento simultâneo.

Este é um post traduzido. O artigo original está em How can I achieve the best freshness of search results? Introducing Continuous Crawls for SharePoint