[데이터 분석] 구글 플레이 스토어 : 웹크롤링/웹스크래핑으로 안드로이드 마켓 분석하기


Original Article by Lavanya Gupta (NYC Data Science Academy Blog) Translated by JJ Hwang



작업의 동기

플레이 스토어에 관련해서는 같은 자료가 그리 많지 않다는 사실에 많이 놀랐습니다. 좀 더 알아보니, 아이튠즈 앱스토어의 웹페이지는 웹스크래핑으로 쉽고 간편하게 데이터를 수집할 수 있도록 잘 정리된 부록표 형식의 구조를 취하고 있었습니다. 반면 구글 앱스토어는 JQuery를 사용하여 다이나믹 페이지 로드와 같은 복잡한 기술을 쓰고 있었는데 이로 인해 웹스크래핑을 시행하기가 쉽지 않았습니다.

이런 배경에서, 앱 비즈니스의 성공에 도움이 되고자 나의 데이터셋을 Kaggle에 올렸습니다. 개발자들이 안드로이드 마켓에 대해 알고 관련 업무를 할 때 도움이 되기를 바랍니다.

작업 방법

플레이 스토어에 있는 모든 앱을 스크래핑하기 위해 Selenium을 활용했습니다. 플레이 스토어는 앱을 33개의 카테고리로 분류하고 있습니다. 모든 카테고리에 있는 앱을 스크래핑하기 위해 전체 카테고리를 되풀이하여 도는 파이썬 스크립트를 만들었고, 한 번에 한 카테고리를 클릭하여 지정했으며, 카테고리 내의 모든 앱을 스크래핑하고, 다시 메인 페이지로 돌아가 다음 카테고리에 대한 스크래핑을 시행했습니다.


<구글 플레이 스토어의 카테고리 선택 옵션>

그러나 이 접근법이 그리 잘 작동한 것은 아니었습니다. 구글이 자사 고유의 스마트 추천 알고리즘을 사용하고 있었고, 과거부터 지금까지의 이력을 기반으로 각 카테고리 당 몇 개의 리스트만 보여주기 때문이죠. 이러한 난관으로 인해 안드로이드 마켓 전체를 분석하기에는 부족한 3,300개 정도의 앱 밖에 스크래핑하지 못했습니다.

이를 해결하기 위해 페이지의 맨 위에 있는 ‘search bar’를 사용하는 대안을 시도해 보았습니다. 모든 가능한 부분열 (1부터 r까지 길이)의 리스트를 얻기 위해 r ∈ [1,5] 26개 알파벳 순열의 26Cr 조합을 만들었습니다. 새로운 앱을 스크래핑하기 위해 이 모든 부분열을 사용하는 새로운 검색 방식을 가동시켰습니다. 이러한 접근법으로 10,500개의 앱을 스크래핑 할 수 있었습니다!

데이터셋 구조


각각의 앱 페이지에서, 아래와 같은 세부사항들을 수집했습니다.

1. 앱 이름

2. 카테고리

3. 등급

4. 리뷰 수

5. 앱 크기

6. 다운로드 수

7. 앱 유형 : 무료 / 유료

8. 가격

9. 만족도

10. 장르

11. 최근 업데이트 일자

12. 현 버젼

13. 필요한 안드로이드 버전

각각의 앱 페이지의 ‘사용후기’ 탭에서는 아래의 세부사항들을 스크래핑했습니다.

1. 사용자 이름

2. 사용후기 본문 전체

3. 후기 올린 날짜

4. 후기 등급

5. 사용후기에 대한 좋아요 수

이러한 두 종류의 데이터셋을 csv파일로 각각 저장하였습니다. 각각의 앱에 대한 사용후기 분석에는 앱의 이름을 key 값으로 삼았습니다.

데이터 분석

안드로이드 마켓 분포에 대한 분석 개요

· 가족 앱과 게임 앱이 가장 높은 점유율을 보여주고 있습니다.

· 재미있게도 툴, 비즈니스, 의료 앱이 그 뒤를 잇고 있습니다.

아래는 평균 앱 만족도 등급이 5점 만점에 4.173정도임을 보여주고 있습니다.

Average app rating = 4.173243045387998

제일 인기있는 카테고리



1. 대부분의 카테고리들이 비슷한 수준으로 우수함을 보여주고 있습니다. 헬스와 피트니스, 책과 참고문 헌 카테고리의 50% 이상이 만족도 등급 4.5 이상으로 가장 인기 있습니다. 매우 월등 한 수준이네요.

2. 반대로 데이팅 카테고리의 50%의 앱이 평균 만족도 등급 이하입니다.

3. 라이프스타일, 가족, 금융 카테고리에서 몇몇 수준 이하의 앱이 있음도 알 수 있네요.

앱 크기에 관한 전략 : 작은 용량? 큰 용량?

<앱 크기와 만족도 등급의 상관관계>

1. 대부분의 최우수 등급 앱은 2MB에서 40MB 정도의 크기인데 이는 너무 크지도, 너무 작지도 않은 수준이라 하겠습니다.

2. 50MB 이상의 대용량 앱은 대부분 게임 카테고리와 가족 카테고리에 속해 있습니다. 크기가 클 수 밖에 없다는 이유로 인해 대용량임에도 불구하고 만족도 등급이 우수합니다.

가격 전략 : 무료? 유료?

· 대부분의 최우수 만족도 등급의 앱은 1달러 ~ 30달러 사이에 최적화되어 가격이 책정되어 있습 니다. 50달러가 넘는 가격의 앱은 단지 몇 개 뿐 입니다.

가격 트렌드

<앱의 가격 분포>

1. 확실히 의료 앱과 가족 앱이 가장 비쌉니다. 몇몇 의료 앱은 가격이 80달러에 이르기도 합니다.

2. 그 외 다른 모든 앱은 30달러 이하입니다.

3. 놀랍게도 모든 게임 앱이 합리적인 가격 20달러 이하입니다.

무료 앱과 유료 앱의 다운로드 수 비교


· 유료 앱이 상대적으로 무료 앱보다 다운로드 수는 적습니다. 그러나 유료 앱의 다운로드 수도 나 쁘지 않습니다.

유료 앱의 크기 분포


1. 만족도 우수 등급의 유료 앱 대부분의 크기가 작습니다. 이는 대부분의 유료 앱이 매우 특수한 기능을 수행하도록 개발된 것이라 크기가 그렇게 클 필요가 없음을 의미합니다.

2. 유저들은 크기가 작은 유료 앱을 구매하기를 선호합니다. 이에 크기가 큰 유료 앱은 시장에서 그리 인기가 높지 않을 것 같습니다.

감정 분석 : 유저 사용후기


1. 헬스와 피트니스 앱이 85%의 긍정적인 사용 후기로 가장 순위가 높습니다.

2. 반대로 게임 앱과 소셜 앱은 50% 긍정, 50% 부정으로 가장 순위가 낮습니다.



1. Y축 하단에서 볼 수 있듯이, 무료 앱에 대한 냉혹한 평가가 많습니다.

2. 유료 앱에 대한 평가는 관대한 편입니다. 언어 선택이 한 쪽에 치우치지 않고 극단적인 평가의 말이 별로 없습니다.

결론

1. 구글 플레이 스토어의 앱에 대한 평균 만족도 등급은 5점 만점 기준 4.17이다

2. 유저들은 크기가 작은 앱을 구매하기를 선호한다. 크기가 너무 큰 유료 앱은 시장에서 적합하 지 않다.

3. 최우수 등급 앱의 대부분은 그 크기가 2MB에서 40MB로 너무 크거나 너무 작지 않아야 한다.

4. 최우수 등급 앱의 대부분은 그 가격이 1달러에서 30달러로 너무 비싸거나 너무 싸지 않아야 한 다.

5. 의료 앱과 가족 앱이 가장 비싼데, 그 중 어느 앱의 가격이 80달러인 것도 있다.

6. 유저들은 사용 후기가 많은 앱을 다운로드하는 경향이 있다.

7. 헬스와 피트니스 앱은 85%의 긍정적인 평가를 받았지만, 게임 앱과 소셜 앱은 50% 긍정, 50% 부정의 평가를 받았다.

8. 유료 앱에 대해서는 극단적인 평가가 거의 없는 반면, 무료 앱에 대해서는 혹평을 하는 경우가 있었다.

========================= 스파이더킴 (www.spiderkim.com) 웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다. 지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!



조회 1250회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.