구글 검색 센터는 79차 서치오브더레코드 세션으로 크롤링에 관한 주요 쟁점과 활용 방안을 공개하였습니다. 이번 세션은 구글 존 뮬러, 게리 일리스, 리지 사스만씨가 ‘Crawling smarter, not harder’를 주제로 크롤링에 대한 오해, 웹마스터와 SEO 담당자에게 필요한 통찰력을 제공합니다.
이번 에피소드에서는 크롤링에 대한 오해를 바로잡고 보다 효율적인 크롤링 방법을 탐구하는 것이 중요하다는 메시지를 전달했습니다. 특히 웹사이트 소유자들은 크롤링 빈도나 방식이 단순히 사이트 품질을 나타내는 지표가 아니라는 점을 인식하고 크롤링 최적화를 통해 서버 자원을 효율적으로 관리하는 방법을 고려해야 합니다.
Crawling smarter, not harder
- 크롤링의 오해와 현실:
○ 많은 웹마스터와 SEO 담당자들은 Googlebot이 자주 방문하여 크롤링하는 사이트가 더 높은 품질을 가진다고 믿습니다. 그러나 이는 오해이며 잘못된 상식입니다. 구글 게리는 Googlebot의 크롤링 빈도는 사이트 품질뿐만 아니라 다양한 요소에 의해 결정된다고 설명합니다. 예를 들어, 새로운 URL 생성이 많아지거나 사이트가 해킹된 경우에도 크롤링 빈도가 높아질 수 있습니다. 따라서 크롤링 빈도만으로 사이트 품질을 판단하는 것은 부적절합니다. - 크롤링 최적화:
○ 구글은 크롤링의 효율성을 높이기 위해 다양한 최적화를 진행하고 있습니다. 예를 들어, 사이트맵, If-Modified-Since 헤더(캐시 관련), 304 응답 코드 등을 사용해 불필요한 크롤링을 줄이고 자원을 효율적으로 사용할 수 있도록 합니다. 그러나 이러한 최적화가 대부분의 사이트에서 제대로 구현되지 않는 경우도 많습니다. 특히 많은 사이트가 If-Modified-Since 요청 헤더를 무시하고 200 응답 코드를 반환하는 등 크롤링 최적화에 대한 이해가 부족한 경우가 많습니다. - 크롤링과 서버 부하 관리:
○ 크롤링 과정에서 서버 부하를 관리하는 것도 중요한 이슈로 소개하고 있습니다. 구글은 서버의 수용 능력을 초과하지 않도록 크롤링 양을 조절하며 서버가 감당할 수 있는 한계치를 초과할 경우 크롤링을 줄이거나 중단할 수 있습니다. 리지는 사이트 소유자들이 크롤링 요청을 증가시킴으로써 서버에 과부하가 발생할 수 있음을 이해하지 못하는 경우가 많다고 지적합니다. 이와 관련해 게리는 크롤링 요청 증가가 항상 긍정적인 결과를 가져오지 않으며 오히려 서버 성능 저하를 초래할 수 있다고 경고합니다. - 크롤링의 미래 방향성:
○ 게리는 크롤링의 효율성을 더욱 높이기 위해 지속적인 연구와 개선이 필요하다고 강조합니다. 크롤링을 줄이면서 필요한 정보는 충분히 수집할 수 있는 방법을 모색하고 있으며 이를 통해 Googlebot이 보다 효율적으로 웹을 탐색할 수 있도록 최적화를 진행하고 있습니다.
Google Advice
존 뮬러의 조언(SEO Wisdom)
사이트맵 활용의 문제점: 존은 사이트맵이 널리 사용되고 있지만 종종 잘못 제출되거나 깨진 형태(예: Broken urls)로 제출되는 경우가 많다고 언급했습니다. 이는 사이트맵 활용에 대한 기본적인 이해와 최적화가 필요함을 시사합니다.
크롤링에 대한 인식: 크롤링이 어떻게 작동하는지, 특히 작은 변화(예: 파라미터 추가)가 큰 영향을 미칠 수 있다는 점에서 크롤링에 대한 인식을 높이는 것이 중요하다고 강조했습니다. 특히 큰 사이트의 경우 이러한 변화가 더 큰 영향을 미칠 수 있습니다. (보충 설명: UTM 추적, 사용자 세션, 반복 파라미터 중복 URL 문제)
크롤링의 간소화: 존은 크롤링이 검색 엔진에 있어 예측하기 어려운 과정이 되지 않도록 보다 직관적이고 명확한 가이드라인이나 방법을 제공하여 크롤링을 더 쉽게 만들고자 한다고 밝혔습니다.
Robots.txt의 유연성: 존은 Robots.txt 파일의 유연성을 강조하며 웹마스터들이 이를 더 효과적으로 사용할 수 있도록 문서화가 강화될 필요가 있다고 언급했습니다.
Search Console 커뮤니케이션 개선: Search Console을 통해 더 시기 적절한 알림을 보내거나 중요한 메시지가 사이트 소유자에게 잘 전달될 수 있도록 대체 연락 방법을 제공하는 등 커뮤니케이션 방식을 개선할 필요가 있다고 논의했습니다.
게리 일리스의 조언
크롤링 개선: 게리는 크롤링을 더 자원 효율적으로 개선해야 한다고 강조했습니다. 특히 “더 적게 크롤링하기”라는 목표를 달성하려고 하며 이로 인해 오히려 더 많은 크롤링을 수행해야 할 수도 있다고 설명했습니다.
크롤링에 대한 오해: 크롤링과 관련된 그의 발언이 링크드인에 게시되었을 때, 많은 사람들이 이를 잘못 이해하고 큰 반응이 일어났다고 했습니다. 특히, “구글이 더 적게 크롤링하기를 원한다”는 내용이 잘못 전달되었다고 언급했습니다.
.
URL 파라미터 처리: 무한정 URL 파라미터가 생성되는 웹사이트의 경우 이러한 URL 공간을 차단하는 방법을 사용하여 크롤링 문제를 해결할 수 있다고 조언하였습니다. 예를 들어, 로봇 텍스트(Robots.txt)파일을 통해 특정 URL 파라미터 패턴을 차단하는 방법을 조언하고 있습니다. (보충 의견: 게리는 링크드인을 통해 Robots.txt에 중요한 가이드와 커뮤니케이션을 제공하고 있습니다.)
추가적인 문서화 필요성: 크롤링 문제의 해결책으로 더 많은 문서화가 필요하다고 언급했습니다.
Search Console의 기능 개선: 크롤링과 관련된 문제를 해결하기 위해 Search Console에 새로운 기능을 추가하는 방안을 검토해야 한다고 말했습니다. 그러나 이와 동시에 사용자들이 실제로 그 기능을 사용하지 않을 가능성도 있다고 지적했습니다.
리지 사스만의 조언
Crawling 문제에 대한 해결책 제안: 리지는 사이트 소유자들이 자신의 사이트에서 크롤링을 최적화하기 위해 robots.txt 파일을 사용하는 방법을 제안했습니다
Search Console 알림 설정: 리지는 Search Console에서 이메일 외에 팩스와 같은 다른 방법으로 알림을 받는 설정을 추가하는 아이디어를 제시했습니다.
크롤링과 관련된 커뮤니케이션 문제: 리지는 구글이 크롤링 문제와 관련된 커뮤니케이션에서 겪는 도전 과제를 언급했습니다. 특히 사이트맵 제출과 관련된 오해나 잘못된 사용 사례에 대해 논의했습니다.
검색 엔진 최적화의 중요성: 리지는 검색 엔진이 웹사이트를 최적으로 크롤링할 수 있도록 더 명확하고 간단한 방법을 개발하는 것이 중요하다고 강조했습니다.