• mksong8

[데이터 수집] 대체 데이터의 정의와 생각지 못한 사용법

Original Article by Ashley (octoparde.com)

Translated by MK Song



대체 데이터란?


대체 데이터는 크기가 크고 복잡해서 빅데이터라고 생각하기 쉽습니다. 대체 데이터는 일반적으로 구조가 느슨하고 접근하기 쉽지 않습니다. 그러나 대체 데이터로 분석을 하면 전통적인 데이터 분석으로 얻을 수 있는 결과보다 새롭고 트렌드가 한발 더 빨리 반영된 결과를 얻을 수 있습니다. 한 예로 미국의 헤지 펀드사가 대체 데이터를 먼저 도입해서 투자모델에 적용하기 시작했습니다. 오늘날과 같이 정보가 넘쳐나는 시기에 대체 데이터의 사용은 빠르게 여러 분야로 퍼져나가고 있습니다.




대체 데이터의 매력은 무엇일까요?


간단한 한 예를 들어보겠습니다. 모바일 데이터 제공 업체인 Thasos는 수조개의 핸드폰 지리좌표 데이터를 분석한 결과 2018년 6월과 10월 사이에 테슬라 공장 철야 작업이 30% 늘어났다는 사실을 알게 되었습니다. 이 철야 작업은 테스라 모델3 생산 증가와 관련이 있을 것이며 테슬라 주가가 오를 것이라고 Thasos는 예상했습니다. 이 예상은 적중했고, 테슬라 모델3 시장 점유율은 두배로 뛰어 9.1%를 기록했습니다. 이처럼 Thasos 사가 주가를 예측하는데 사용한 것이 바로 대체 데이터 입니다. 두 데이터 사이의 직접적인 연관성이 없어보이지만 중요한 전략적 인사이트를 얻을 수 있다는 점을 보여주는 좋은 사례 입니다.


핸드폰 지리좌표 데이터 외에도 사람들이 앱을 다운받을 때 제공되는 정보, 신용/직불 카드 거래 데이터, 기술 특허 정보, 정부 계약 정보 등의 많은 대체 데이터가 존재합니다. 2017년 한 연구 단체가 대체 데이터를 482 데이터셋과 24개 카테고리로 분류했습니다.




가장 많이 사용되는 대체 데이터 유형

- 웹스크랩 데이터 : 웹사이트에서 추출한 데이터 입니다. 일반적으로 스파이더/웹 크롤러를 사용하여 웹데이터를 추출합니다. 제품 정보/가격, 구인 정보, 부동산 데이터 등을 일반적으로 가장 많이 추출합니다.

- 웹 트래픽 : 웹사이트 방문자 수, 방문 시간, 페이지 이동 정보 등 소비자가 인터넷으로 구매할 때 어떻게 의사 결정을 하는지에 관한 정보를 제공해 줍니다.

- 지리 정보 : 주차장 위성 사진의 주차한 자동차 수 데이터를 분석하면 지역 경제를 가늠할 수 있습니다.


대체 데이터를 얻는 방법


대체 데이터는 구조화 되어 있지 않아서 구하기가 쉽지 않습니다. 최근 십여년 동안 대체 데이터를 제공하는 업체들이 증가했지만 다음과 같은 이유로 다양한 사이트에서 충분한 양의 대체 데이터를 얻는 것이 여전히 어렵습니다.


- 높은 비용 : 분석 가능한 데이터를 얻기 위해 많은 비용을 지불해야 합니다. 분석 가능한 원하는 데이터를 얻을 수 있다면 몇몇 기업은 매년 1백만달러 이상을 지불 할 수도 있다고 Thasos의 설립자 스키비스키씨는 주장합니다.

- 오랜 시간 : 대체 데이터를 추출하기 위해 어떤 산업 분야는 오랜 시간이 필요합니다. 그러나 데이터를 얻기 위해 기다려 줄 수 있는 자금력을 가진 회사가 많지 않습니다.

- 데이터의 가치 : 대체 데이터가 갖고 있는 잠재 가치를 확인할 방법이 없습니다. 잘못된 판단은 사업을 망칠 수 있기 때문입니다.

- 그리고 웹스크래핑의 적법성을 생각해 보아야 합니다. 아직까지 웹스크래핑을 규제하는 규정은 없지만 윤리적 지침을 지켜야 합니다.




현재 가장 좋은 솔루션은 웹 스크래핑 입니다. 웹 스크래핑은 낮은 비용으로 데이터를 확보할 수 있는 대안입니다. 웹 스크래핑으로 구축한 대체 데이터는 데이터 제공 업체가 제공하는 가공 데이터보다 더 정확할 가능성이 높습니다. 웹 스크래핑으로 원하는 데이터를 자동적으로 추출할 수 있습니다. 웹 스크래핑으로 어떻게 데이터를 추출하는지 부동산 시장의 예를 들어 설명해 보겠습니다. 시애틀에 살고 있는 데이터 분석가 연봉 정보를 추출해서 부동산 시장과의 연관성을 살펴 보겠습니다. 그런 다음 부동산 가격 상승 지역을 예측해 보겠습니다.


구직 사이트에서 시애틀 데이터분석가 구직 정보를 검색합니다. 모든 페이지의 모든 하위 정보 데이터 필드를 추출해야 합니다. 추출한 데이터로 히스토그램을 그려 보았습니다. 이 그래프에는 시애틀에 사는 데이터분석가 연봉의 범위와 분포가 표시되어 있습니다.



데이터분석가의 급여는 120K 부근에 가장 많이 분포해 있습니다. 이 연봉으로 시애틀에 주택을 구입할 수 있을까요? Zillow의 계산에 따르면 연봉 120K를 받는 사람은 520K 가격의 주택을 구입할 여력이 있다고 합니다. 그러나 시애틀 주택의 중간 가격은 685K 입니다. 출퇴근이 조금 힘들어 지긴 하겠지만 평균 주택 가격이 500K인 Renton과 같은 주변 지역이 시애틀에 근무하는 데이터 분석가들에게 적당해 보입니다. 결론적으로, 연봉이 120K인 시애틀 데이터 분석가들에게는 Renton 지역이 인기가 있을 가능성이 높습니다. 과연 이 지역의 부동산 가격이 상승할까요?


=========================

스파이더킴 (www.spiderkim.com)

데이터 수집/정제/분석/시각화에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 29회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.