한달 술값으로도 제작이 가능한 것이 웹사이트지만, 모든 분야에서의 제대로 된 품질과 특히나 안정적인 유지보수를 위해서는 작게는 몇천, 크게는 몇억의 비용이 든다. 이렇게 많은 비용과 시간, 그리고 노력이 들어간 웹사이트 또는 개별 웹페이지가 검색에 나오지 않는 경우, 간단하게 확인 및 조치할 사항에 대해 알아보자.
검색 엔진이 알아서 해주겠지?
웹사이트를 만든다고 검색엔진이 알아서 수집하고 상위에 노출시켜줄 것이라는 생각은 버려라. 걔들 의외로 허술하고, 또 바쁘다. 내 돈이 많이 들어갔다고 해서 고작 내 사이트 정도를 하나하나 챙겨주지 않는다.
또한 웹사이트 내의 모든 페이지를 수집해서 보여주는 것도 아니다. 메인 페이지만 수집되었을 경우도 있고, 정작 중요한 페이지는 하나도 수집되지 않은 채 쓸데없는 약관 페이지들이나 상위에 노출되는 경우도 흔하다.
검색엔진님이 알아서 수집하기 전에, 내가 더 할 일은 없는지 찾아봐야 한다.
첫째, 수집은 되고 있나?
검색 엔진은 개별 사이트와 웹페이지에 대한 정보를 살핀 후 도서관의 도서카드와 같이 색인목록을 만든다. 이를 Index한다고 부른다. 내가 찾는 책이 그 도서관에 없다면 색인에도 없을 것이며, 사람들이 아무리 찾아도 그 도서관의 색인목록에 들어있지 않은 책은 사람들에게 보여주지 않는다. 검색엔진 역시 마찬가지다. 자신의 DB에 수집되지 않은 사이트/페이지는 검색 결과에 보여주지 않는다.
따라서 제일 먼저 할 일은 내 사이트 또는 페이지가 검색엔진에 잘 수집되어 있는지 확인하는 것이다.
"site:주소"명령어를 검색창에 치면, URL에 해당 주소를 포함한 모든 웹페이지를 볼 수 있다. 물론, 그 검색엔진에 수집된 페이지들이다.
특정 페이지, 특히 새로 업데이트된 페이지가 수집되어 있는지 확인하고자 한다면 site:뒤에 해당 페이지의 주소를 넣으면 된다. 검색 결과에 나오지 않는다면 해당 페이지는 수집되지 않은 것이다.
네이버는 기본 화면에서는 site: 명령어가 제대로 작동하지 않는다.
웹사이트 영역으로 이동하면 가능하다. 꼭 이래야만 했던 건지, 네이버의 검색 사용자를 위한 노력에는 언제나 아쉬움이 든다.
검색엔진에 수집 자체가 되어있지 않은 경우 해야 할 일이 있다.
바로 검색엔진에 대한 사이트의 등록이다.
모든 검색엔진은 웹사이트 담당자와 검색엔진의 커뮤니케이션을 위한 도구를 제공한다. 검색엔진마다 서비스의 이름이 다르긴 하지만 "웹마스터도구(Webmaster Tools)”라는 이름이 일반적으로 통용된다.
구글: 구글 서치 콘솔 (https://search.google.com/search-console)
네이버: 네이버 서치 어드바이저 (https://searchadvisor.naver.com)
빙: 빙 웹마스터 도구 (https://www.bing.com/toolbox/webmaster)
사용법은 대동소이한데, 국내 사용자가 많은 네이버를 이용하여 설명하고자 한다.
먼저, 웹마스터 도구에 사이트를 추가한다.
티스토리나 워드프레스와 같이 서버 루트 폴더에 HTML 파일을 올릴 수 없는 경우, 두번째 옵션인 HTML 태그를 선택하면 된다. 블로그 소스에 해당 태그를 넣어서 인증하는 것이다.
이러면 기본적으로 검색엔진에게 "우리 사이트 여기 있어요~"라고 알리게 되고, 검색엔진이 찾아와 정보를 수집하게 된다.
sitemap.xml의 제작 및 제출
그러나 검색엔진이 찾아온다고 해서 모든 페이지를 꼼꼼하게 다 수집해주는 것은 아니다. 종종 일부 페이지가 누락되는 경우가 생기고, 시의성 있게 새로 올린 콘텐츠가 빠르게 수집되지 않는 일도 있다.
이 경우, 우리 사이트에 대한 일종의 "안내도"를 제공하여 검색엔진이 페이지를 빠뜨리는 일 없이, 그리고 새로 올라온 콘텐츠에 대해서도 빠르게 수집하도록 요청할 수 있다. 이 안내도를 sitemap.xml 파일이라 부른다. 우리가 흔히 웹사이트에서 부르는 사이트맵에 사용자를 위한 웹사이트 안내 지도라고 한다면, 이 sitemap.xml은 검색엔진을 위한 안내도이다.
sitemap.xml 파일은 형식에 맞게 직접 작업할 수도 있고, 자동 도구를 사용할 수도 있다. 구글에 sitemap generator를 검색하면 많은 무료 도구들이 나오는데, 무료 도구들의 경우 sitemap.xml 파일 내에 포함되는 URL의 숫자가 제한되지만 소규모 웹사이트에서는 충분히 활용할 수 있다.
이렇게 만들어진 sitemap.xml 파일을 서버에 올린 후, 웹마스터 도구 내에 이 파일의 주소를 등록하면 된다.
웹사이트를 위한 안내도는 sitemap.xml 파일 뿐 아니라 rss 파일로도 제공 가능하다.
sitemap.xml 파일을 업데이트하지 않고 특정 URL에 대한 수집을 개별적으로 요청할 수도 있으니, 여러 기능을 꼼꼼하게 해야 한다.
여기까지 했는데도 사이트나 페이지가 수집되지 않는다?
그때는 robots.txt나 URL 자체의 기술적 문제를 생각해봐야 하는데, 차후 별도의 기술 항목 관련 칼럼에서 다루도록 하겠다.
URL은 수집 되었는데 검색에는 나오지 않는 경우
분명 site:을 해보면 수집이 되어 있다. 그런데 아무리 검색해도, 심지어 내 콘텐츠에 있는 내용을 검색창에 그대로 복붙해도 검색결과에 나오지 않는다.
그럼 무엇을 봐야 할까.
검색엔진은 사람이 아니다. 우리는 모니터에 보이는 화면을 읽지만, 검색엔진은 그 화면 너머에 있는 소스를 읽는다.
우리 눈에 보이는 요소들이 검색엔진은 읽을 수 없는 방식으로 되어 있다면? 검색엔진은 그 페이지가 무슨 내용인지 모른다. 무슨 내용인지 모르니, DB에 인덱스는 되어 있지만 검색결과에 보여주지 않는다. 검색엔진은 사용자가 검색창에 입력한 키워드와 관련있는 콘텐츠를 보여주는 방식이기 때문이다.
그런데 상당히 많은 경우, 검색엔진이 읽을 수 없는 형태로 정보를 전달하고 있다. 대표적인 경우가 "이미지폰트"라고 부르는 것이다.
이미지 폰트란, 지금 여러분이 읽고 있는 이러한 HTML 텍스트가 아니라 이미지 내에 텍스트를 넣는 것이다. 이렇게 하면 글자에 여러 효과도 넣을 수 있고, 귀찮게 웹폰트 안 불러오고 멋진 폰트도 쓸 수 있고, 이미지와 텍스트도 자연스럽게 섞어서 쓸 수 있다. 하지만 이렇게 하면 아무리 멋진 말을, 유용한 정보를 넣어도 검색엔진에게는 image1.jpg일 뿐, 그 안의 정보는 전달되지 않는다.
대표적인 경우가 카드뉴스이다. 카드뉴스는 가독성이 뛰어나 정보 전달 능력이 우수하지만, 검색엔진에게는 그저 몇장의 이미지일 뿐이다. 따라서 소셜 채널이라면 모를까 웹사이트나 블로그에는 사용을 지양하는 것이 좋으며, 굳이 사용한다면 같은 페이지 내에 텍스트로 풀어서 정보를 전달해야 한다.
이제는 거의 사용되지 않지만, Flash 역시 검색엔진의 탐색을 가로막는 대표적인 형태이며, AJAX나 iFrame 등등도 SEO를 위해서라면 사용에 주의하는 것이 좋다.
무엇보다 기본적으로, 내가 노출되고자 하는 키워드가 콘텐츠에 존재하는지를 확인해야 한다. 검색엔진은 사용자가 검색한 키워드와 매칭되는 콘텐츠를 노출하며, 매칭의 가장 기본이 되는 것은 검색 키워드와 웹사이트 콘텐츠의 물리적인 매칭이다. 검색엔진이 많이 똑똑해졌지만, 이 기본적인 원칙은 변하지 않는다. 즉, 내 콘텐츠가 “검색엔진최적화”를 검색하는 사용자들에게 보여지고 싶다면, 웹사이트 내에 “검색엔진최적화”라는 키워드가 들어 있어야 한다. 농구화를 소개하는 페이지는 바스켓볼슈즈가 아닌 농구화라는 단어로 콘텐츠가 제작되어야 하며, 매드타임스를 소개하는 콘텐츠는 “본 사이트”가 아닌 매드타임스라는 정확한 단어를 사용해야 한다.
누누히 말하지만, 상위 노출은 수집된 이후의 얘기다. 모든 최적화 이전에 우리 사이트가 과연 인식과 수집이 가능한 콘텐츠인지, 수집은 문제없이 되고 있는지 확인해보자.