[데이터 분석] 부동산 데이터 크롤링 : 트룰리아 (trulia.com)

2019년 7월 11일 업데이트됨


Original Article by Sabbir Mohammed (NYC Data Science Academy)

Translated by JJ Hwang

배경

미국 전역에서 부동산이 인기 있는 주제가 되고 있습니다. 뉴욕은 지속적으로 상승하는 부동산 가격과 세계에서 가장 비싼 부동산 가격으로 유명합니다. 2015년과 2016년 사이에는 18만6천명의 뉴욕 거주자가 다른 주로 이전할 수 밖에 없었다는 기사도 있습니다.

미국에서 내 집을 갖는 꿈이 점점 불가능한 현실이 되고 있다는 생각이 본 프로젝트를 시작한 배경이 되었습니다. 이를 위해서는 현재의 상황을 명확히 파악하는 것이 필요했으며, 다양한 뉴욕시 관련 부동산 데이터 대신 방대한 양의 부동산 매물 정보를 실시간으로 획득할 수 있는 웹 데이터에 접근하기로 하였습니다. 유력한 부동산 사이트인 트룰리아를 선택한 후, 뉴욕시로 범위를 좁혀 “매매 완료”된 매물 정보를 집중적으로 크롤링하였습니다.

데이터 소스

파이썬으로 크롤러를 제작하여 웹 사이트 크롤링을 준비했습니다. 소스 코드는 여기에 올려 놓았습니다. 트룰리아에서 수집해 올 데이터는 뉴욕시 영역 내의 “최근에 매매 완료된 매물 정보”입니다. 더욱 구체적인 데이터 항목은 아래와 같습니다. 이와 같은 접근 방식으로 2018년 5월부터 2019년 1월까지 뉴욕시에서 매매된 물건 13,000건에 대한 데이터를 수집하였습니다.

트룰리아 웹사이트 스크린샷

- 매매 가격

- 매매 일자

- 면적 (제곱 피트)

- 주소

- 도시

- 우편번호

- 자치구

- 제곱 피트 면적당 가격

데이터 정제

매매가격 누락분 처리

데이터를 분석하기 전, 거짓 편향을 방지하기 위해 null 값과 오류들을 정제해야 합니다. 아래의 데이터 프레임에서 최종 매매 가격이 누락된 1,952건의 데이터를 발견하였습니다. 트룰리아의 사이트 특성 상 존재할 수 밖에 없는 이 매매 가격 누락분은, 아예 삭제 처리하는 방식으로 진행했습니다.


데이터 프레임 샘플

매매가격 오류 처리

아래 표에서 보는 바와 같이, 매매가 1만 달러 이하 그룹에서 매매가가 3천 달러 이하인 매물이 23건이나 발견되었습니다. 뉴욕의 부동산 가격을 감안했을 때, 이러한 데이터는 명백한 오류입니다. 또한 뉴욕 평균인 피트 제곱 면적 당 573.92 달러를 훨씬 하회하는 3 달러 이하의 데이터도 있습니다.


매매가 1만 달러 이하의 매물 분포표

트룰리아 사이트를 좀 더 면밀히 살펴보니 위와 같은 오류가 매우 임의적으로 발생한다는 것을 알게 되었습니다. 데이터의 정확성을 위해 이러한 오류 값들은 모두 삭제 처리하였습니다.

매물 면적 오류

아래와 같이 면적이 매우 작은데 매매 가격이 4천만 달러가 넘는 데이터가 있습니다. 명백한 이상치 데이터입니다.

매물 면적과 매매가

아래와 같이 매매 가격이 매우 낮은데 면적이 상대적으로 넓은 매물 데이터도 있습니다.

면적이 매우 큰 매물과 매매가

아래와 같이 면적인 85만 제곱 피트가 넘는 매물은 매우 비상식적인 데이터 수치를 보여줍니다. 조사 결과 하나는 스튜디오 아파트이고, 다른 하나는 원룸 오피스텔인데 그렇게 수치가 큰 것은 건물 전체의 면적이 표기된 것으로 판단됩니다. 역시 삭제 처리하였습니다.

데이터셋에서 가장 면적이 큰 매물 2건

단위 면적당 가격 오류

아래 단위 면적당 가격 그래프에서도 이상치 데이터가 발견되었습니다.

매물들의 단위 면적당 매매가

타 부동산 사이트와의 비교 결과, 해당 매물은 명백한 오류임이 확인되어 삭제 처리하였습니다.

이상치 매물 1건

부동산 데이터 분석과 시각화

정제된 데이터를 분석한 핵심 내용은 아래와 같습니다.

- Null 값과 오류를 제거한 최종 매물 수 : 11,289

- 평균 매매가 : 878,191달러

- 매매가 중앙값 : 705,000달러

- 매매 최고가 : 18,000,000달러

- 평균 면적 : 1,520 제곱 피트

- 단위 면적 당 평균 매매가 : 451달러 / 제곱 피트

매매 가격과 매물 면적 분석

매물 면적과 매매가

위 표의 핵심은 평균 매매 가격과 평균 매물 면적 중앙부에 집중된 주택 매물 그룹이 있지만, 가격과 면적 사이에 명백한 상관 관계가 있다고 보기 어렵다는 것입니다. 다른 한 쪽 그룹은 면적이 넓은 쪽에 분포해 있으나 면적에 비례하여 가격이 높게 형성된 것은 아니었습니다.

이는 뉴욕에서 부동산 매물의 면적이 가격에 결정적인 영향을 끼치는 요소가 아님을 보여준다고 할 수 있습니다. 색깔 별로 다르게 표현된 자치구라는 요인이 오히려 어떠한 경향을 잘 보여줍니다. 면적과 가격의 상관 관계는 -0.05 입니다. 오히려 면적보다는 방의 개수와 화장실의 개수 같은 좀 더 구체적인 요인이 경향을 잘 설명할 수 있을 것입니다.

하지만 위 표는 퀸즈와 브루클린이 매물의 주요 및 중심 그룹을 형성함에 비해 맨하탄은 가격이 매우 비싸다는 경향을 보여줍니다. 퀸즈와 브루클린의 인구가 많다는 것이 많은 매물 수와 상관 관계가 있다는 것도 하나의 경향이라고 할 수 있습니다.

아래 히스토그램은 매매 가격과 매물 면적을 각각 표현한 것입니다.

매매가 히스토그램

위 히스토그램의 결론은 각 자치구를 통틀어, 매매가는 1백만 달러를 약간 하회하는 경향으로 집중화되고 있다는 것입니다. 중앙값은 705,000달러, 평균 매매가는 878,000달러로 두 값의 차이가 거의 없다는 사실도 이를 뒷받침합니다.


매물 면적 히스토그램

매매가와 달리 면적은 평균적인 매물과 면적이 큰 매물 사이의 차이를 실제로 잘 반영합니다. 매물 그룹의 대부분은 면적의 중앙값인 1,520 제곱 피트 부근에 위치하지만, 극소수인 대형 면적 매물 그룹은 경향을 잘 반영하지 못하고 평균값을 5,881 제곱 피트까지 왜곡시키고 있습니다.

지역별 분석

위의 분석을 통해 본 것과 같이, 지역이 면적보다 뉴욕시의 부동산 매매가를 더 잘 표현해주는 지표라 할 수 있습니다. 아래 표는 뉴욕 각 자치구별 최근 인구조사 현황입니다.


뉴욕시 자치구별 인구분포 (2010)

아래 몇 가지 표를 통해 논의를 좀 더 진행해 봅니다.



각 자치구별 매물 수

위 표는 각 자치구별 매매된 물건의 수이며, 트룰리아만 보았을 때 퀸즈와 브루클린이 인구가 많다는 것과 연관되어 매매된 물건의 수도 가장 많다는 것을 보여줍니다. 맨하탄은 오히려 브롱스나 스테이튼 아일랜드보다 인구가 많음에도 불구하고 매매된 건수는 가장 작은 사례를 보여줍니다.

각 자치구별 매매가 중앙값

각 자치구별 매매가의 중앙값은 맨하탄과 다른 자치구와의 극명한 차이를 보여줍니다. 매매가의 중앙값은 맨하탄이 1,200,000달러임에 비해, 브루클린은 875,000달러, 퀸즈는 730,000달러입니다.

각 자치구별 매물 면적 중앙값

각 자치구별 면적의 중앙값은 브롱스가 가장 크고 이후 브루클린, 퀸즈, 스테이튼 아일랜드, 맨하탄 순입니다. 아래의 각 자치구별 단위 면적당 매매가 중앙값 그래프는 맨하탄이 인구가 많음에도 불구하고 매매건수가 작고 매매가는 가장 비싸다는 것을 보여줍니다. 즉, 매물의 면적이나 지역의 인구수가 부동산 매매가에 결정적인 요소가 아니라 지역이 더 중요한 요소라는 것입니다.

각 자치구별 단위 면적 당 매매가 중앙값

요약하면 부동산 데이터를 가장 잘 보여준 분석은 각 자치구별 단위 면적 당 매매가 중앙값이었습니다. 이를 통해 맨하탄이 다른 지역에 비해 얼마나 부동산 가격이 비싼지 잘 분석하고 간결하게 시각화하였습니다.

결론


트룰리아는 방대한 양의 부동산 데이터를 수집할 수 있는 사이트였으나, 매매가 상한선이 18,000,000달러로 정해져 있어 더 비싼 매물이 검색되지 않아 시장 전체를 조망하는 데에 한계가 있었습니다. 또한 데이터가 방대한 반면, 오류값이 많아 정제에 많은 공을 들여야 하기도 했습니다.

결론적으로는 부동산 데이터를 수집하여 시장을 분석하는 과정에서, 트룰리아라는 웹 사이트와 그 사이트에 담겨 있는 웹 데이터, 수집하는 기술인 웹 크롤링이 본 프로젝트의 훌륭한 기반이 되었다는 것입니다. 전통적 산업인 부동산과 새로운 기술인 웹 크롤링의 만남은 데이터 전문 기업 스파이더킴과 함께 해 주세요!


=========================

스파이더킴 (www.spiderkim.com)

웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 247회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.