인생일지

반응형

최근 파이썬으로 크롤링 하는 법을 연습하고 코딩하고 있는데 신기해서 재밌는 경험인 거 같다.

 

크롤링은 코드를 짜놓으면 자동으로 입력한 사이트에서 정보를 가져오는데, 이미지도 같이 가져올 수 있을까, 저작권이 필요하지는 않을까에 대해 알아보다가 robots.txt 에 관해서 알게 되었다. 모든 사이트에서 뒤에 /robots.txt 라고 치면 된다.

 

naver.com/robots.txt

네이버는 모든 크롤링을 금하는 것 같다.

 

https://sicherheitsdienst.tistory.com/robots.txt

내 블로그로 쳐보니 이번에는 disallow가 많이 뜬다. 네이버는 / 로 모든 것을 금했지만 티스토리 블로그는 그 정도는 아니다.

 

여하튼 구글에 쳐보기만 해도 disallow로 뜬 정보들을 상업적으로 이용하게 되면 처벌을 받는다고 하니 잘 체크해서 활용하도록 하자.

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading