[데이터 분석] 웹스크래핑으로 경쟁사 키워드 분석하기


Original Article by EntropyWebScraping.com Translated by JJ Hwang




검색 결과를 우리 회사 웹사이트 접속으로 유인하려면


이번 포스팅의 주제는 키워드 경쟁과 웹스크래핑입니다. 좀 더 상세히 말하자면, 웹스크래핑 기술을 통해 경쟁사의 키워드 현황을 수집하는 것이지요.

경쟁사의 키워드 검색이 구글에서 상위를 차지하고 있다면, 그들은 아마 키워드에 큰 공을 들였을 것입니다. 이제 웹스크래핑 기술을 적용시켜 이 키워드의 리스트를 확보할 차례입니다. 경쟁사가 블로그 검색과 텍스트 분석을 위해 어떤 키워드를 사용하고 있는지 쉽게 알 수 있다는 것은 정말 좋은 소식 아닐까요?

경쟁사의 키워드 수집 시작하기


경쟁사의 메인 웹사이트를 탐색하고, 관련 블로그 및 웹페이지에서 텍스트 데이터를 수집하기 위해 블로그에 특화된 웹크롤러를 가동시킵니다. 최근에는 많은 기업들이 블로그와 웹페이지 컨텐츠를 관리하기 위해 워드프레스 같은 정형화된 플랫폼을 활용하지요. 이에 우리와 같은 웹크롤링/웹스크래핑 서비스 회사들이 이러한 데이터들을 수집하는 것이 매우 쉬워졌습니다. 수집하는 데이터는 아래와 같습니다.

1. 제목

2. 본문 전체

3. 게재된 날짜

4. 태그

5. URL

6. 그 외 많은 컨텐츠 자료들

위 경쟁사 정보를 획득하면 경쟁사가 중요하게 생각하는 키워드를 파악하고 분석할 수 있습니다. 또한 한 경쟁사의 데이터만 수집하는 것이 아니라 다수의 경쟁사를 한꺼번에 수집합니다. 웹크롤링/웹스크래핑 전문 서비스 회사에게, 이러한 작업은 크게 어려운 일이 아닙니다.

키워드 분석

데이터 수집이 끝나면, 키워드와 각 키워드들의 중요도를 분석할 수 있습니다.

하나의 사례로 삼기 위해, 우리와 유사하게 웹크롤링/웹스크래핑 서비스를 제공하는 경쟁사들의 웹사이트 데이터들을 수집해 보았습니다. 기본적으로 500건 이상의 블로그 포스팅에 대해 시행했습니다.

키워드 자동 판별

우리는 파이썬으로 제작된 키워드 판별 소프트웨어를 활용하였습니다. 이 소프트웨어는 데이터 사이언스와 텍스트 분석의 영역에 해당되는 것이라 이번 포스팅에서 상세한 설명은 하지 않도록 하겠습니다. 하지만 “a”, “the”, “and” 및 다른 경쟁사들의 이름과 같은 불용어들은 기본적으로 걸러 내어 분석에서 제외시켰습니다.

다음으로 우리는 키워드 밀집도에 기반하여 상당히 많은 빈도로 등장하는 키워드들을 추려냈습니다. 웹크롤링/웹스크래핑 경쟁사가 사업의 본질을 잘 파악하고 있다면, 그들의 블로그 컨텐츠에 특정 경향의 키워드 밀집도가 나타날 것이라고 추론하였습니다.

키워드 중요도를 등급화 하기


키워드에 중요도를 부여하여 분류하는 기술도 데이터 사이언스와 데이터 마이닝의 영역이라 상세한 설명은 하지 않습니다. 다만 이 작업의 결과로 모든 키워드에 각각의 중요도 등급이 부여되었습니다. 이 중요도 등급을 기준으로 경쟁사의 블로그 포스팅 500건에 수록되어 있는 키워드를 나열하였습니다.

키워드 분석 결과

분석한 결과를 워드 클라우드로 표현해 보았습니다. 분석 결과 “big data”라는 키워드가 가장 중요도가 높은 단어였으며, 이후 “web scraping”과 “web crawling”이라는 단어가 뒤를 잇고 있습니다. 이러한 키워드 리스트와 키워드의 중요도 분석은 이후의 추가적이고 심화적인 키워드 분석의 필수적인 출발점입니다. 특히 이 결과는 구글과 같은 검색 포털에서 실제로 접속과 클릭을 유발하는지 아닌지를 판단하는 가장 중요한 근거가 됩니다.


<word cloud 1 : 중요도 60 ~ 중요도 314.9 사이의 키워드, top 3>

<word cloud 2 : 중요도 30 ~ 중요도 314.9 사이의 키워드, top 7>

<word cloud 3 : 중요도 8 ~ 중요도 314.9 사이의 키워드>

경쟁사의 키워드를 수집하세요!


경쟁사 키워드를 분석하고, 우리 회사의 키워드가 검색 상위에 올라 많은 접속을 유인할 수 있도록, 지금 바로 스파이더킴에 웹크롤링/웹스크래핑 프로젝트를 의뢰해 주세요.


===============

스파이더킴 (www.spiderkim.com)

웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!


조회 241회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.