스크립트 인덱스 정보

스크립트 색인을 사용하면 로그인할 필요 없이 증분 색인 옵션을 작성, 업데이트 및 유지 관리할 수 있습니다. 검색 로봇은 서버에 호스팅된 텍스트 파일의 지침을 읽습니다.

스크립트 인덱스 사용

스크립팅된 증분 색인 구성 정보

스크립트 색인을 사용하려면 [스크립팅된 증분 색인 구성] 페이지를 사용하여 서버에 있는 스크립트 파일(일반 텍스트 파일)에 대한 URL을 지정합니다. 예, https://www.mysite.com/indexlist.txt. 사이트가 변경될 때 수동으로 또는 자동으로 텍스트 파일에 명령 블록을 추가할 수 있습니다(뉴스 피드, 주식 시세 또는 기타 변경된 파일에서 정보가 도착할 때 트리거되는 스크립트를 사용하여).

스크립트 증분 색인이 시작되면 검색 로봇은 텍스트 파일을 읽고 해당 파일에 있는 새 명령을 실행합니다. 기본적으로 검색 로봇은 파일 날짜에 따라 결정되는 새 명령만 처리합니다. 스크립트 색인을 구성할 때 Clear Date​을 선택하지 않으면 검색 로봇은 가장 최근에 처리된 블록의 날짜 지정자를 "기억"합니다.

스크립트 파일정보

URL에서 지정하는 스크립트 파일은 서버에 있는 일반 텍스트 파일입니다. 라인 끝 시퀀스에 캐리지 리턴, 줄 피드 또는 둘 다를 사용할 수 있습니다. 빈 행에는 0 이상의 공백 문자가 있고 그 뒤에 행 끝 시퀀스가 옵니다. 모든 명령은 대소문자를 구분하지 않습니다.

텍스트 파일은 검색 로봇이 스크립팅된 증분 인덱스를 수행할 때 사용하는 정보를 설명하는 블록으로 구성됩니다.

블록은 날짜별로 정렬되며 가장 오래된 블록은 텍스트 파일 맨 위에, 가장 최근의 블록은 맨 아래에 있습니다. 각 블록은 단일 행 date-command 및 date-specifier 명령으로 시작하고 다음 블록 예제에서와 같이 빈 행 구분 문자로 끝납니다(몇 개의 명령 사이에 있음).

HTTP 1.1 스타일을 사용할 때 10보다 낮은 모든 서수 날짜에 대해 행간 0이 필요합니다. 예를 들어 11월 6일은 11월 6일이 아니라 06일입니다.

명령

설명

date-command

각 블록의 첫 번째 행은 다음 두 날짜 명령 중 하나로 시작됩니다.

  • date

    "date" 명령을 사용하여 날짜 지정자가 일, 날짜, 시간 및 시간대로 구성됨을 나타냅니다.

  • 을 사용하여 날짜 지정자가 epoch초 단위로 구성됨을 나타냅니다(예: 784111777). 을 사용할 때는 블록 간 초 수가 증가하는지 확인하십시오.

date-specifier

date-specifier 명령은 일반적으로 블록 정보를 파일에 추가한 시간(초 명령)과 서수 날짜 및 시간(날짜 명령) 또는 epoch 초(초 명령)을 기록합니다. 예:

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

HTTP 1.1 스타일을 사용할 때 10보다 낮은 모든 서수 날짜에 대해 행간 0이 필요합니다. 예를 들어 11월 6일은 11월 6일이 아니라 06일입니다.

검색 로봇은 가장 최근에 처리된 블록의 날짜 지정자를 "기억"하며 "최신"으로 간주되는 정보만 인덱싱합니다. 검색 로봇에는 실시간 내용이 중요하지 않습니다. 대신 이전에 처리한 다른 시간과 관련된 시간이 중요한 시간입니다.)

예를 들어 검색 로봇은 날짜 지정자가 10:00p.m인 블록을 읽은 후 색인 작업이 실행되는 시기에 관계없이 오후 10:00까지 기록하는 블록을 읽지 않습니다. 최악의 경우 날짜 지정자에 "2004" 대신 연도 "2040"을 잘못 입력할 수 있습니다. 이러한 경우 검색 로봇은 다음 인덱싱 작업 중에 2040 블록을 인덱싱한 다음 다른 정보 블록을 읽지 않습니다(2040년 이후 날짜 한 개가 없는 경우). 이러한 문제가 발생하면 텍스트 파일에서 이전에 처리된 모든 블록을 제거하고 날짜 지우기 를 클릭한 다음 라이브로 푸시합니다.

주석 선

"#" 문자로 주석 행을 시작합니다.

각 주석 라인은 고유한 라인이어야 합니다.라인 끝 주석을 입력할 수 없습니다.

주석 줄은 빈 행으로 간주되지 않습니다. 다음 예제와 같이 날짜 또는 초 명령 전이라도 블록의 어느 곳에나 표시될 수 있습니다.

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

action-command

각 텍스트 블록에는 원하는 만큼의 작업 명령이 포함될 수 있습니다. 다음 작업 명령 옵션은 표준 증분 인덱싱을 위한 옵션과 동일합니다.

  • add

    URL과 함께 사용합니다. 검색 로봇은 마지막 인덱싱 작업 이후 변경된 지정된 URL만 인덱싱합니다. 또한 검색 로봇은 지정된 문서에 포함된 링크를 따르고 변경된 문서만 인덱싱합니다.

    URL을 nofollow 또는 noindex 키워드는 다음 예제와 같습니다.

    add https://www.mydomain.com/ noindex

  • update

    URL 마스크와 함께 사용합니다. 검색 로봇은 지정된 URL 마스크와 일치하는 모든 문서를 찾아 업데이트합니다.

    URL을 nofollow 또는 noindex 키워드는 다음 예제와 같습니다.

    update https://www.mydomain.com/products/

  • include 또는 exclude

    URL 마스크와 함께 사용합니다. 검색 로봇은 지정된 마스크 유형에 따라 문서를 찾아서 인덱싱하거나("include") 문서를 무시합니다("exclude").

    예:

    include https://www.mydomain.com/products/household/lightbulbs*.html

    또는

    exclude https://www.mydomain.com/archive/

  • include-date 또는 exclude-date

    URL 마스크와 함께 사용합니다. 검색 로봇은 URL과 문서 날짜를 모두 기준으로 문서를 찾아 인덱싱하거나("include") 문서를 무시합니다("exclude"). 다음 유형의 마스크를 사용할 수 있습니다.

    • include-days NNN

      검색 로봇은 지정된 URL 마스크와 일치하고 NNN 일 이상인 모든 문서를 인덱싱합니다.

      키워드와 함께 URL 마스크를 따를 수 있습니다 nofollow , noindex 및/또는 server-date .

    • include-date YYYY-MM-DD

      검색 로봇은 지정된 URL 마스크와 일치하는 모든 문서를 인덱싱하고, YYYY-MM-DD 날짜보다 오래되거나 오래된 문서를 인덱싱합니다. 여기서 "YYYY"는 4자리 연도, "MM"은 1자리 또는 2자리 월(1-12)이고 "DD"는 1자리 또는 2자리 일(1-31)입니다.

      키워드와 함께 URL 마스크를 따를 수 있습니다 nofollow , noindex 및/또는 server-date .

    • exclude-days NNN

      지정된 URL 마스크와 일치하고 NNN일 이상 오래된 모든 문서의 인덱싱을 비활성화합니다.

      키워드와 함께 URL 마스크를 따를 수 있습니다 server-date .

    • exclude-date YYYY-MM-DD

      지정된 URL 마스크와 일치하고 YYYY-MM-DD 날짜보다 이전 또는 이전 날짜인 모든 문서의 인덱싱을 비활성화합니다.

      키워드와 함께 URL 마스크를 따를 수 있습니다 server-date .

  • delete

    URL을 지정합니다. 검색 로봇은 URL로 식별되는 색인에서 문서를 제거합니다.

  • deletemask

    검색 로봇은 지정된 URL 마스크와 일치하는 인덱스에서 문서를 제거합니다.

URL 마스크 정보도 참조하십시오.

스크립트 파일 예

다음 스크립트 파일 예제에서 검색 로봇은 date-specifiers가 가장 최근에 처리된 블록의 date-specifier 이후 날짜로 제공된 블록을 처리합니다. 이러한 경우 다음 인덱싱 작업이 발생합니다.

  • 인덱스에서 y2k-problems.html을 삭제합니다.

  • no-y2k-problems.html을(를) 검색 색인에 추가하고 no-y2k-problems.html에 대한 링크를 팔로우하지 않습니다.

  • 크롤링 중에 검색 인덱스에서 housewares.htmlightfixtures.html과 일치하는 URL을 제외합니다.

  • www.mydomain.com 아래에 다른 모든 디렉토리 및 문서를 포함합니다.

  • productsinformation 디렉터리 내의 모든 문서를 업데이트하여 마지막 인덱싱 작업 이후 변경된 모든 하위 링크를 크롤링하고 인덱싱합니다.

  • 크롤링 중에 1999년 1월 1일 이전 날짜인 경우 웹 사이트의 archive 섹션에서 URL을 제외합니다.

  • 검색 인덱스에서 housewares.htmllightfixtures.html과(와) 일치하는 URL을 제외합니다.

  • help 디렉터리에 있는 파일을 인덱싱하지만 해당 파일의 링크를 크롤링하거나 색인화하지 마십시오.

  • www.mydomain.com에 대해 발생한 다른 파일을 크롤링하고 인덱싱합니다.

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

스크립팅된 증분 인덱스구성

로그인할 필요 없이 증분 인덱스를 작성하고 업데이트하며 유지 관리하는 스크립트를 지정할 수 있습니다. 검색 로봇은 서버에서 호스팅되는 텍스트 파일의 지침을 읽고 증분 인덱스를 수행합니다.

스크립팅된 증분 인덱스를 구성하려면

  1. 제품 메뉴에서 Index > Scripted Index > Configuration​를 클릭합니다.

  2. Scripted Incremental Index Configuration 페이지의 Script File URL​에서 서버에 있는 텍스트 파일 스크립트의 URL을 입력합니다.

    스크립팅된 인덱스 정보를 참조하십시오.

  3. (선택 사항) 검색 로봇이 가장 최근에 처리된 블록의 날짜 지정자를 "기억"하지 못하게 하려면 Clear Date​을 선택합니다.

    기본적으로 검색 로봇은 파일의 날짜에 따라 결정되는 텍스트 파일에 있는 새로운 명령 블록만 처리합니다. 기본값을 원하지 않는 경우 Clear Date​을 선택합니다.

  4. 클릭 Save Changes.

  5. (선택 사항) 다음 중 하나를 수행합니다.

라이브 웹 사이트에 대해 스크립팅된 증분 색인 일정 설정

스크립팅된 증분 인덱싱을 하루 종일 일정한 간격으로 발생하도록 예약할 수 있습니다.

선택하는 기본 시간은 계정 설정에 구성된 시간대에 따라 로컬입니다.

계정 설정 구성을 참조하십시오.

웹 서버는 종종 밤에 유지 보수를 위해 아래로 내려갈 예정이다. 예약된 색인 시간 동안 서버가 다운된 경우 색인 지정 프로세스가 실패합니다. 웹 서버를 사용할 수 있는 시간을 선택해야 합니다.

색인 일정은 라이브 색인에만 적용됩니다.스테이지된 증분 인덱스는 예약할 수 없습니다.

라이브 웹 사이트에 대해 스크립팅된 증분 색인 일정을 설정하려면

  1. 제품 메뉴에서 Index > Scripted Index > Live Schedule​를 클릭합니다.
  2. Scripted Incremental Index Schedule 페이지의 Read the Scripted Incrementally Indexing File 드롭다운 목록에서 스크립팅된 증분 인덱스 텍스트 파일을 실행할 빈도를 시간 또는 분 단위로 선택합니다.
  3. Base Time 드롭다운 목록에서 새로 스크립팅된 증분 인덱스를 다시 생성할 시작 시간을 선택합니다.
  4. 클릭 Save Changes.

라이브 또는 스테이지된 웹 사이트의 스크립트된 증분 인덱스 실행

스크립트 증분 색인을 사용하면 로그인할 필요 없이 라이브 또는 스테이징 웹 사이트의 "부분"을 인덱싱할 수 있습니다(예: 자주 변경된 페이지 컬렉션).

이 기능을 사용하려면 스크립팅된 증분 색인 텍스트 파일을 구성해야 합니다.

스크립팅된 증분 인덱스 구성을 참조하십시오.

라이브 또는 스테이지된 웹 사이트의 스크립트된 증분 인덱스를 실행하려면

  1. 제품 메뉴에서 다음 중 하나를 수행합니다.

    • 클릭 Index > Scripted Index > Live Index.
    • 클릭 Index > Scripted Index > Staged Index.
  2. 클릭 Scripted Index Now.

  3. (선택 사항) 색인 오류가 발생하면 View Errors​을 클릭하여 연결된 로그를 봅니다.

라이브 또는 스테이지된 웹 사이트의 스크립트된 증분 인덱스 로그 보기

실시간 전체 스크립트 색인 또는 스테이지된 전체 스크립트 인덱스가 완료되면 연결된 로그를 보고 발생한 오류를 해결할 수 있습니다.

로그를 내보내거나 저장할 수 없습니다. 그러나 새 색인이 발생할 때까지 로그는 계속 볼 수 있습니다.

라이브 또는 스테이징 웹 사이트의 증분 색인 로그를 보려면

  1. 제품 메뉴에서 다음 중 하나를 수행합니다.

    • 클릭 Index > Scripted Index > Live Log.

    • 클릭 Index > Scripted Index > Staged Log.

  2. 로그 페이지의 맨 위 또는 아래에서 다음 중 하나를 수행합니다.

    • 탐색 옵션 First, Prev, Next, Last 또는 Go to line​을 사용하여 로그를 통해 이동합니다.

    • 표시 옵션 Errors only, Wrap line 또는 Show​을 사용하여 표시되는 내용을 세밀하게 수정할 수 있습니다.

이 페이지에서는