SharePoint에서 연속 크롤링을 통해 검색 결과의 유효 상태를 최대화하는 방법

최초 문서 게시일: 2012년 9월 15일 토요일

대상: 검색 관리자/IT 전문가
필수 구성 요소: 이 블로그 게시물에서는 독자가 SharePoint 검색 토폴로지, 크롤링 메커니즘 및 크롤링 일정 원칙과 관련하여 검색 관리에 대한 기본적인 사항을 알고 있다고 가정합니다.
참고: 이 기능은 SharePoint 2013에서 새롭게 제공됩니다 .

검색 결과의 유효 상태란?
사용자가 SharePoint 사이트에 문서를 업로드한 후 해당 문서가 SharePoint 검색 포털을 통해 '검색 가능'한 상태가 될 때까지의 기간을 유효 상태 대기 시간이라고 합니다.

유효 상태에 영향을 주는 요소
저장소의 크기, 변경률, 저장소의 요청 응답 시간, 크롤링 일정, 변경 유형 등 다양한 요인이 유효 상태에 영향을 줍니다. 문서를 '검색 가능'하도록 만들려면 크롤링을 수동으로 또는 일정에 따라 자동으로 트리거해야 하며 변경 내용을 파악/요청/처리해야 하기 때문입니다.

관련 문제
기존에는 SharePoint 검색에서 두 가지 일정 옵션, 즉 전체 크롤링과 증분 크롤링이 제공되었습니다. 전체 크롤링은 전체 호스트 검색을 시작하고 증분 크롤링은 마지막으로 크롤링을 수행한 이후 호스트에서 변경된 항목만 처리하며, 이를 위해 각 문서의 타임스탬프를 비교하거나 수정된 문서를 추적하는 해당 저장소의 기존 변경 로그를 활용합니다. 따라서 유효 상태를 향상시키려는 경우 증분 크롤링을 보다 적극적으로(예: 매일 한 번씩이 아닌 30분마다) 수행하는 것이 권장 방식이었습니다.

전체 크롤링과 증분 크롤링의 제한 중 하나는 두 크롤링을 병렬로 실행할 수 없다는 것입니다(관리자는 전체 크롤링이나 증분 크롤링 중 하나가 진행 중일 때 해당 콘텐츠 원본에 대해 다른 크롤링을 시작할 수 없음). 따라서 항목을 인덱싱할 때 선입 선출 방식이 강제 적용됩니다. 그뿐만 아니라, 일부 변경 유형의 경우 실행 시간이 길어집니다(예: 호스트 루트 수준에서 정책을 변경하는 경우 전체 호스트를 다시 인덱싱하여 인덱싱된 각 항목의 보안 설명자를 업데이트해야 함). 이 두 가지 요인이 모두 적용되는 경우 증분 크롤링 일정을 빈번하게 설정하는 경우에도 유효 상태가 계속 변경됩니다. 아래에 나와 있는 증분 크롤링의 예상 가정 모델과 실제 모델을 비교한 그래프, 그리고 그 다음에 나와 있는 해당 시스템의 유효 상태 그래프를 통해 이러한 요인을 확인할 수 있습니다.

 

 

 

유효 상태 개선을 위한 연속 크롤링 도입
위에서 설명한 현상을 방지하려면 일정을 설정하지 않고도 콘텐츠 원본을 관리하는 방법 대신 사용 가능한 SharePoint 형식 콘텐츠 원본용 크롤링 옵션을 사용하는 것이 좋습니다. 이 옵션의 기본 아키텍처는 전체 크롤링/증분 크롤링의 두 가지 기본적인 제한을 없앰으로써
유효 상태를 일정하게 유지하도록 설계되어 있습니다.

  • 연속 크롤링은 병렬로 실행 가능합니다.
  • 단일 전체 변경으로 인해 나머지 모든 변경 내용의 유효 상태가 저하되지 않습니다.

상세 설명
연속 크롤링을 선택하면 이전 세션의 완료 여부에 관계없이 백그라운드에서 15분마다 크롤링이 시작됩니다. 즉, 전체 변경 직후에 수행한 변경이 '대기'할 필요가 없어집니다. 다른 연속 크롤링 세션에서 전체 정책 변경 작업을 수행하는 동안 새 변경 내용도 병렬로 계속 처리됩니다. 아래 그림에는 연속 크롤링이 15분마다 병렬로 수행되어 전체 유효 상태에 영향을 주지 않고 갑작스런 콘텐츠 증가를 관리하는 방식이 나와 있습니다. 그 아래 그래프에서는 증분 크롤링과 연속 크롤링을 수행하는 경우의 유효 상태에 대한 영향을 비교하여 보여 줍니다.

 

 

추가 정보
후속 블로그에서 연속 크롤링이 오류, 보안 등의 각 시나리오 유형을 처리하는 방법과, 크롤링 로그 및 크롤링 기록을 통해 백그라운드에서 수행되는 작업을 보다 효율적으로 파악하는 방법에 대해 자세히 설명할 예정입니다.

FAQ

모든 콘텐츠 원본 형식에 대해 연속 크롤링을 사용할 수 있습니까?
아니요. 연속 크롤링은 SharePoint 형식 콘텐츠 원본에만 사용할 수 있습니다. 기타 모든 콘텐츠 원본 형식에서는 증분 크롤링과 전체 크롤링이 계속 옵션으로 제공됩니다.

연속 크롤링을 사용하는 경우 저장소에 대한 부하가 추가로 발생합니까?
연속 크롤링 공간은 증분 크롤링과 비슷합니다. 요청 수행 빈도가 높아져도 단일 저장소/호스트에 대한 동시 요청의 최대 수는 *크롤러 영향 규칙*(요청을 할 수 있는 동시 스레드의 최대 수를 정의하며, 이 값은 기본적으로 12개 스레드로 설정되지만 비즈니스 요구 사항 및/또는 용량 계획에 따라 수정 가능함)을 통해 계속 제어됩니다.

연속 크롤링을 사용할 때 증분 크롤링 또는 전체 크롤링을 설정해야 합니까?
증분 크롤링을 연속 크롤링과 함께 구성할 필요는 없습니다.

연속 크롤링이 호스트/저장소에 대한 부하를 추가로 생성합니까?
연속 크롤링은 기본적으로 여러 세션을 동시에 병렬로 실행할 수 있기 때문에 호스트에 대한 부하가 약간 증가하기는 합니다. 그러나 연속 크롤링에서는 호스트에 대해 실행할 수 있는 동시 요청의 최대 수(기본적으로는 12개 스레드로 설정되지만 변경 가능함)를 제어하는 '크롤링 영향 규칙' 설정을 따릅니다.

연속 크롤링을 사용하여 이전 버전의 SharePoint 콘텐츠를 크롤링할 수 있습니까?
예. 검색 응용 프로그램은 2013 버전이어야 하지만 이전 버전의 SharePoint를 실행하는 콘텐츠 팜도 연속으로 크롤링하도록 구성할 수 있습니다.

이 문서는 번역된 블로그 게시물입니다. 원본 문서는 How can I achieve the best freshness of search results? Introducing Continuous Crawls for SharePoint를 참조하십시오.