본문 바로가기

Programming

robots.txt 정리 및 예시

robots.txt 정리 및 예시

1. 웹 로봇이란?

웹 로봇이란 웹 사이트들을 자동으로 돌아다니는 프로그램을 말합니다. (크롤러, 스파이더...)
구글이나 네이버 같은 검색엔진이 웹 콘텐츠를 색인하는데 이용되기도 하며, 이외에도 데이터 수집 등 다양한 용도로 사용되고 있습니다.

2. /robots.txt ?

웹 로봇은 여러 웹사이트들을 돌아다니게 되며, 해당 웹사이트의 소유자는 /robots.txt 파일을 통해서 웹 로봇에게 해당 웹사이트에 대한 규약을 제공합니다.

3. /robots.txt 확인하기

최상위 도메인(~.com, ~.kr 등)의 뒤에 /robots.txt를 입력하여 확인할 수 있습니다.
제 티스토리 블로그 도메인에서도 확인이 가능합니다.

https://inveglo.tistory.com/robots.txt

 

정보 기록소

주식, 투자, 코딩 등 각종 정보를 기록합니다.

inveglo.tistory.com

티스토리는 별도 설정해주지 않아도 자동으로 robots.txt를 기본적 관리해주고 있습니다.

현재 블로그의 /robots.txt

Mediapartners-Google과 bingbot에는 전부 허용하고, 나머지의 경우 일부 경로를 제외하여 허용되고 있음을 알 수 있습니다.

  • User-agent : 로봇을 식별하는 값으로, *는 모든 로봇을 의미합니다.
  • Disallow : 해당 경로를 포함하는 경우, 탐색해서는 안됨을 명시합니다.
  • Allow : 탐색해도 되는 경로를 나타냅니다.
  • Crawl-delay : 탐색 속도를 제한합니다. 로봇마다 지원 여부가 달라 무시될 수 있습니다.
반응형