스크립트 색인을 사용하면 로그인할 필요 없이 증분 색인 옵션을 작성, 업데이트 및 유지 관리할 수 있습니다. 검색 로봇은 서버에 호스팅된 텍스트 파일의 지침을 읽습니다.
스크립트 색인을 사용하려면 [스크립팅된 증분 색인 구성] 페이지를 사용하여 서버에 있는 스크립트 파일(일반 텍스트 파일)에 대한 URL을 지정합니다. 예, https://www.mysite.com/indexlist.txt
. 사이트가 변경될 때 수동으로 또는 자동으로 텍스트 파일에 명령 블록을 추가할 수 있습니다(뉴스 피드, 주식 시세 또는 기타 변경된 파일에서 정보가 도착할 때 트리거되는 스크립트를 사용하여).
스크립트 증분 색인이 시작되면 검색 로봇은 텍스트 파일을 읽고 해당 파일에 있는 새 명령을 실행합니다. 기본적으로 검색 로봇은 파일 날짜에 따라 결정되는 새 명령만 처리합니다. 스크립트 색인을 구성할 때 Clear Date을 선택하지 않으면 검색 로봇은 가장 최근에 처리된 블록의 날짜 지정자를 "기억"합니다.
URL에서 지정하는 스크립트 파일은 서버에 있는 일반 텍스트 파일입니다. 라인 끝 시퀀스에 캐리지 리턴, 줄 피드 또는 둘 다를 사용할 수 있습니다. 빈 행에는 0 이상의 공백 문자가 있고 그 뒤에 행 끝 시퀀스가 옵니다. 모든 명령은 대소문자를 구분하지 않습니다.
텍스트 파일은 검색 로봇이 스크립팅된 증분 인덱스를 수행할 때 사용하는 정보를 설명하는 블록으로 구성됩니다.
블록은 날짜별로 정렬되며 가장 오래된 블록은 텍스트 파일 맨 위에, 가장 최근의 블록은 맨 아래에 있습니다. 각 블록은 단일 행 date-command 및 date-specifier 명령으로 시작하고 다음 블록 예제에서와 같이 빈 행 구분 문자로 끝납니다(몇 개의 명령 사이에 있음).
HTTP 1.1 스타일을 사용할 때 10보다 낮은 모든 서수 날짜에 대해 행간 0이 필요합니다. 예를 들어 11월 6일은 11월 6일이 아니라 06일입니다.
명령 |
설명 |
---|---|
date-command |
각 블록의 첫 번째 행은 다음 두 날짜 명령 중 하나로 시작됩니다.
|
date-specifier |
date-specifier 명령은 일반적으로 블록 정보를 파일에 추가한 시간(초 명령)과 서수 날짜 및 시간(날짜 명령) 또는 epoch 초(초 명령)을 기록합니다. 예: HTTP 1.1 스타일을 사용할 때 10보다 낮은 모든 서수 날짜에 대해 행간 0이 필요합니다. 예를 들어 11월 6일은 11월 6일이 아니라 06일입니다. 검색 로봇은 가장 최근에 처리된 블록의 날짜 지정자를 "기억"하며 "최신"으로 간주되는 정보만 인덱싱합니다. 검색 로봇에는 실시간 내용이 중요하지 않습니다. 대신 이전에 처리한 다른 시간과 관련된 시간이 중요한 시간입니다.) 예를 들어 검색 로봇은 날짜 지정자가 10:00p.m인 블록을 읽은 후 색인 작업이 실행되는 시기에 관계없이 오후 10:00까지 기록하는 블록을 읽지 않습니다. 최악의 경우 날짜 지정자에 "2004" 대신 연도 "2040"을 잘못 입력할 수 있습니다. 이러한 경우 검색 로봇은 다음 인덱싱 작업 중에 2040 블록을 인덱싱한 다음 다른 정보 블록을 읽지 않습니다(2040년 이후 날짜 한 개가 없는 경우). 이러한 문제가 발생하면 텍스트 파일에서 이전에 처리된 모든 블록을 제거하고 날짜 지우기 를 클릭한 다음 라이브로 푸시합니다. |
주석 선 |
"#" 문자로 주석 행을 시작합니다. 각 주석 라인은 고유한 라인이어야 합니다.라인 끝 주석을 입력할 수 없습니다. 주석 줄은 빈 행으로 간주되지 않습니다. 다음 예제와 같이 날짜 또는 초 명령 전이라도 블록의 어느 곳에나 표시될 수 있습니다. |
action-command |
각 텍스트 블록에는 원하는 만큼의 작업 명령이 포함될 수 있습니다. 다음 작업 명령 옵션은 표준 증분 인덱싱을 위한 옵션과 동일합니다.
|
URL 마스크 정보도 참조하십시오.
다음 스크립트 파일 예제에서 검색 로봇은 date-specifiers가 가장 최근에 처리된 블록의 date-specifier 이후 날짜로 제공된 블록을 처리합니다. 이러한 경우 다음 인덱싱 작업이 발생합니다.
인덱스에서 y2k-problems.html
을 삭제합니다.
no-y2k-problems.html
을(를) 검색 색인에 추가하고 no-y2k-problems.html
에 대한 링크를 팔로우하지 않습니다.
크롤링 중에 검색 인덱스에서 housewares.htm
및 lightfixtures.htm
l과 일치하는 URL을 제외합니다.
www.mydomain.com
아래에 다른 모든 디렉토리 및 문서를 포함합니다.
products
및 information
디렉터리 내의 모든 문서를 업데이트하여 마지막 인덱싱 작업 이후 변경된 모든 하위 링크를 크롤링하고 인덱싱합니다.
크롤링 중에 1999년 1월 1일 이전 날짜인 경우 웹 사이트의 archive
섹션에서 URL을 제외합니다.
검색 인덱스에서 housewares.html
및 lightfixtures.html
과(와) 일치하는 URL을 제외합니다.
help
디렉터리에 있는 파일을 인덱싱하지만 해당 파일의 링크를 크롤링하거나 색인화하지 마십시오.
www.mydomain.com
에 대해 발생한 다른 파일을 크롤링하고 인덱싱합니다.
# Start of file.
# Added by John Smith
date Sat, 01 Jan 2004 16:05:53 PST
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/
delete https://www.mydomain.com/y2k-problems.html
add https://www.mydomain.com/no-y2k-problems.html nofollow
date Sun, 02 Jan 2004 20:19:08 PST
# Added by the wire service updater
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/help/ nofollow
include https://www.mydomain.com/
# no add files, just update existing files
# update all files in the "products" directory
update https://www.mydomain.com/products/
# update all files in the "information" directory
update regexp ^https://www\.mydomain\.com/information/.*$
# End of file.
로그인할 필요 없이 증분 인덱스를 작성하고 업데이트하며 유지 관리하는 스크립트를 지정할 수 있습니다. 검색 로봇은 서버에서 호스팅되는 텍스트 파일의 지침을 읽고 증분 인덱스를 수행합니다.
스크립팅된 증분 인덱스를 구성하려면
제품 메뉴에서 Index > Scripted Index > Configuration를 클릭합니다.
Scripted Incremental Index Configuration 페이지의 Script File URL에서 서버에 있는 텍스트 파일 스크립트의 URL을 입력합니다.
스크립팅된 인덱스 정보를 참조하십시오.
(선택 사항) 검색 로봇이 가장 최근에 처리된 블록의 날짜 지정자를 "기억"하지 못하게 하려면 Clear Date을 선택합니다.
기본적으로 검색 로봇은 파일의 날짜에 따라 결정되는 텍스트 파일에 있는 새로운 명령 블록만 처리합니다. 기본값을 원하지 않는 경우 Clear Date을 선택합니다.
클릭 Save Changes.
(선택 사항) 다음 중 하나를 수행합니다.
History을 클릭하여 변경한 내용을 되돌립니다.
작업 내역 옵션 사용을 참조하십시오.
클릭 Live.
라이브 설정 보기를 참조하십시오.
클릭 Push Live.
스테이지 설정 라이브 푸시를 참조하십시오.
스크립팅된 증분 인덱싱을 하루 종일 일정한 간격으로 발생하도록 예약할 수 있습니다.
선택하는 기본 시간은 계정 설정에 구성된 시간대에 따라 로컬입니다.
계정 설정 구성을 참조하십시오.
웹 서버는 종종 밤에 유지 보수를 위해 아래로 내려갈 예정이다. 예약된 색인 시간 동안 서버가 다운된 경우 색인 지정 프로세스가 실패합니다. 웹 서버를 사용할 수 있는 시간을 선택해야 합니다.
색인 일정은 라이브 색인에만 적용됩니다.스테이지된 증분 인덱스는 예약할 수 없습니다.
라이브 웹 사이트에 대해 스크립팅된 증분 색인 일정을 설정하려면
스크립트 증분 색인을 사용하면 로그인할 필요 없이 라이브 또는 스테이징 웹 사이트의 "부분"을 인덱싱할 수 있습니다(예: 자주 변경된 페이지 컬렉션).
이 기능을 사용하려면 스크립팅된 증분 색인 텍스트 파일을 구성해야 합니다.
스크립팅된 증분 인덱스 구성을 참조하십시오.
라이브 또는 스테이지된 웹 사이트의 스크립트된 증분 인덱스를 실행하려면
제품 메뉴에서 다음 중 하나를 수행합니다.
클릭 Scripted Index Now.
(선택 사항) 색인 오류가 발생하면 View Errors을 클릭하여 연결된 로그를 봅니다.
실시간 전체 스크립트 색인 또는 스테이지된 전체 스크립트 인덱스가 완료되면 연결된 로그를 보고 발생한 오류를 해결할 수 있습니다.
로그를 내보내거나 저장할 수 없습니다. 그러나 새 색인이 발생할 때까지 로그는 계속 볼 수 있습니다.
라이브 또는 스테이징 웹 사이트의 증분 색인 로그를 보려면
제품 메뉴에서 다음 중 하나를 수행합니다.
클릭 Index > Scripted Index > Live Log.
클릭 Index > Scripted Index > Staged Log.
로그 페이지의 맨 위 또는 아래에서 다음 중 하나를 수행합니다.
탐색 옵션 First, Prev, Next, Last 또는 Go to line을 사용하여 로그를 통해 이동합니다.
표시 옵션 Errors only, Wrap line 또는 Show을 사용하여 표시되는 내용을 세밀하게 수정할 수 있습니다.