robots.txt 정리 및 예시
1. 웹 로봇이란?
웹 로봇이란 웹 사이트들을 자동으로 돌아다니는 프로그램을 말합니다. (크롤러, 스파이더...)
구글이나 네이버 같은 검색엔진이 웹 콘텐츠를 색인하는데 이용되기도 하며, 이외에도 데이터 수집 등 다양한 용도로 사용되고 있습니다.
2. /robots.txt ?
웹 로봇은 여러 웹사이트들을 돌아다니게 되며, 해당 웹사이트의 소유자는 /robots.txt 파일을 통해서 웹 로봇에게 해당 웹사이트에 대한 규약을 제공합니다.
3. /robots.txt 확인하기
최상위 도메인(~.com, ~.kr 등)의 뒤에 /robots.txt를 입력하여 확인할 수 있습니다.
제 티스토리 블로그 도메인에서도 확인이 가능합니다.
https://inveglo.tistory.com/robots.txt
티스토리는 별도 설정해주지 않아도 자동으로 robots.txt를 기본적 관리해주고 있습니다.
Mediapartners-Google과 bingbot에는 전부 허용하고, 나머지의 경우 일부 경로를 제외하여 허용되고 있음을 알 수 있습니다.
- User-agent : 로봇을 식별하는 값으로, *는 모든 로봇을 의미합니다.
- Disallow : 해당 경로를 포함하는 경우, 탐색해서는 안됨을 명시합니다.
- Allow : 탐색해도 되는 경로를 나타냅니다.
- Crawl-delay : 탐색 속도를 제한합니다. 로봇마다 지원 여부가 달라 무시될 수 있습니다.
반응형
'Programming' 카테고리의 다른 글
웹사이트 http 요청 응답 시간 확인 방법 (0) | 2021.11.29 |
---|---|
TypeScript - Visual Studio Code에서 시작하기 (windows 10) (0) | 2021.11.28 |
NVM, Node js, NPM 설치 하기 (windows 10) (0) | 2021.11.27 |
CSS cursor 종류 및 테스트 (마우스 커서) (0) | 2021.11.27 |
한글 초성 검색 방법 (0) | 2021.11.24 |
php 설치 방법 (window, Visual Studio Code) (0) | 2021.11.23 |