• mksong8

[연재 | 웹스크래핑으로 세상을 변화시키는 방법 <1>] 웹스크래핑이란?

웹스크래핑으로 세상을 변화시키는 방법



스타트업 대표, Fortune 500 기업 CEO, 기업 분석가, 마케터, 기자의 공통점이 무엇일까요? 바로 이들은 모두 데이터에서 전략과 인사이트를 얻는다는 공통점이 있습니다. 데이터가 이들을 남들과 다르게 해주죠. (이들에겐 데이터가 무기 입니다.) 데이터는 시장 조사와 비즈니스 전략 수립의 핵심입니다.

새로운 프로젝트를 시작하거나 새로운 전략을 도출해야 할 때, 방대한 양의 데이터 분석이 필요 합니다. 여기에 웹스크래핑이 등장하게 됩니다.

웹스크래핑이 특정 산업군에서만 사용 가능하다고 주장하는 사람도 있습니다. 다른 산업군에서는 쓸모가 없는 것일까요? 과연 그럴까요?

반대로 다양한 산업군 또는 분야에서 웹스크랩핑을 활용한 사례를 많이 찾아 볼 수 있습니다. 먼저 웹스크래핑에 대해 좀더 알아보겠습니다.

웹스크래핑이란?

전자상거래 산업에서 데이터는 매우 중요합니다. 경쟁사의 웹사이트에서도 데이터를 쉽게 찾을 수 있습니다. 문제는 '어떻게 분석 가능한 데이터를 얻을 수 있는가?' 입니다. 가장 먼저 떠오르는 방법은 복사하여 붙여넣기를 여러번 하는 방법이 있습니다. 그러나 수백 페이지가 넘는 웹사이트에서 이런 방법으로 데이터를 얻는 것은 현실적으로 불가능합니다. 그렇기 때문에 웹스크래핑이 필요합니다.

웹스크래핑은 효율적이고 빠른 방법으로 데이터를 추출하는 자동화 프로세스 입니다. 웹스크래핑을 이용하면 데이터의 크기에 제한없이 대부분의 웹사이트에서 데이터를 추출할 수 있습니다. 또한 어떤 웹사이트는 복사방지 장치가 되어있기도 합니다. 그러나 웹스크래핑은 이런 장치를 피해 원하는 대부분의 종류의 데이터를 추출할 수 있습니다. 복사-붙여넣기는 물론 원하는 포맷으로 데이터를 변환하고 싶다면 어떻게 해야 할까요? 웹스크래핑으로 이 문제 또한 해결 할 수 있습니다. 웹스크래핑으로 추출한 데이터는 CSV와 같은 형식으로 저장되는데, 이 경우 원하는 데이터 포맷으로 변환하여 분석이 가능합니다.

웹스크래핑은 데이터 추출 프로세스를 간단하게 해주고, 자동화 작업으로 데이터 추출 시간을 단축시켜주며, 추출된 데이터를 CSV 포맷으로 제공하여 쉽게 분석에 사용할 수 있도록 해줍니다. 간단히 말해 웹스크래핑은 무한 반복 복사-붙여넣기를 통해 데이터를 추출하는 어려움을 해결하고 전체 프로세스를 자동화 해줍니다.

웹스크래핑 활용사례

| 유통 및 제조 분야



​이 분야는 활용 사례가 너무 많기 때문에 하위 카테고리로 나눠서 살펴보도록 하겠습니다.

경쟁사 가격 모니터링

- 전자상거래 산업에서는 가격이 중요한 역할을 합니다. 경쟁사 가격 전략 모니터링은 필수 입니다.

- 그러나 가격 모니터링을 직접 하는 것은 거의 불가능 합니다. 가격은 수시로 변하기 때문에 시시각각 변화는 가격을 모두 알아내는 것은 불가능합니다.

- 하지만 웹스크래핑은 가능합니다. 경쟁사의 가격 데이터 추출 과정을 자동화 하면 경쟁사의 새로운 가격 전략을 실시간으로 알 수 있습니다. 원하는 시간에 원하는 시간 간격으로 웹스크래핑을 실행하는 스케쥴링이 가능합니다.

최저가 준수 여부 모니터링

- 제조사는 대리점 또는 소매점이 최저 가격을 준수하고 있는지 모니터링이 필요 합니다.

- 그러나 모든 웹사이트를 일일이 확인하는 것은 불가능합니다. 그러나 웹스크래핑으로는 가능합니다.

- 웹스크래핑 이라면 최저가 준수 여부를 빠르고 쉽게 모니터링 할 수 있습니다. 웹스크래핑은 데이터를 빠르게 추출할 수 있기 때문에 엄청난 시간을 절약 할 수 있습니다.

경쟁사 제품 정보 추출

- 경쟁사의 모든 제품 설명과 이미지를 정리하는 작업은 엄청난 수고를 필요로 합니다.

- 웹스크래핑은 이 작업 또한 쉽고 빠르게 해결 할 수 있습니다. 모든 과정을 자동화 해서 실시간으로 제품 설명과 이미지를 가져 올 수 있습니다.

소비자 구매 후기 모니터링

- 소비자의 제품 구매 후기를 모니터링 하고 분석하는 일은 매우 중요한 일이 되었습니다. 자사 소비자의 피드백은 물론 경쟁사 제품의 구매 후기도 모니터링이 필요합니다.

- 그러나 다양한 웹사이트의 모든 구매 후기를 직접 수집하는 일은 불가능합니다.

- 웹스크래핑을 이용하면 모든 구매 후기를 엑셀 형태로도 수집할 수 있으며 키워드에 따른 리뷰 비교 분석도 가능합니다. 이 모든 과정을 웹스크래핑이라면 쉽고 빠르게 해결 할 수 있습니다.

| 금융 및 주식 시장 분야



이 분야의 웹스크래핑 활용 사례는 상상 그 이상입니다.

뉴스 기사 수집과 분석

- 금융과 보험 분야에서 뉴스 기사는 그 산업을 이해하기 위한 통찰력의 바탕이 됩니다. 그러나 모든 신문의 뉴스와 기사를 다 읽을 시간이 없습니다.

- 그러나 웹스크래핑으로 기사를 검색어나 헤드라인별로 추출하고 분류, 요약하여 투자에 유용하게 이용할 수 있습니다.

시장 분석 결과 집계

- 인터넷에는 수많은 시장 분석 관련 데이터가 존재하지만 수만개의 웹사이트에 흩어져 있습니다.

- 직접 검색어를 입력하고 결과를 찾아내어 정리할 수 있지만 엄청난 시간과 노력을 요하는 작업입니다.

- 웹스크래핑은 기업의 투자가치를 평가하는데 필요한 데이터를 각각의 웹사이트에서 추출하여 시장 분석에 필요한 귀중한 자료와 인사이트를 제공 해 줍니다.

재무 재표 정보 수집

- 기업 애널리스트들은 기업의 재무 건전성을 평가하고 투자자들에게 투자 조언을 하기 위해 각 기업의 재무 재표를 분석합니다.

- 그러나 필요할 때마다 각 회사에 재무 재표를 요청하고 자료를 받아 확인 후 정보를 정리하는 것도 많은 노력과 시간을 필요로 합니다.

- 웹스크래핑을 사용하면 필요한 때에 필요한 기간을 기준으로 각 기업의 재무재표 데이터를 추출하여 보다 빠르게 정확한 투자 결정을 내릴 수 있습니다.

보험

- 보험 상품을 개발하고 보험비 지급 규정을 만들기 위해 대체 데이터를 연구하는 보험사가 늘어나고 있습니다.

- 그러나 관련 데이터를 일일이 복사-붙여넣기 하는 식으로는 필요로 하는 대체 데이터를 다량으로 수집할 수 없습니다.

- 보험사는 웹스크래핑으로 대체데이터를 수집해 데이터베이스화 하고 이를 분석한 결과를 바탕으로 보험 상품을 개발하고 보험비 지급 규정을 만드는데 필요한 의사 결정에 많은 도움을 받고 있습니다.

이번 포스팅에서는 웹스크래핑의 정의와 다양한 활용사례를 알아 보았는데요, 다음 포스팅에서는 언론, 데이터사이언스 등 다른 산업 분야의 다양한 활용 사례에 대해 좀 더 알아보겠습니다.


Original Article​ by Hiren Patel (towardsdatascience.com) & Translated by MK Song​


=========================

스파이더킴 (www.spiderkim.com)

데이터 수집/정제/분석/시각화에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 63회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.