[데이터 시각화] 유튜브 구독자 상위 5,000 채널에 대한 데이터 크롤링


유튜브는 전 세계인들이 매일 방문하는 엄청난 영향력의 서비스 플랫폼이 되고 있습니다. 어떤 유튜브 채널이 인기를 끌 수 있을지 분석이 필요하다는 생각에,

- 채널은 타겟 고객을 어떻게 설정하는가?

- 채널 구독자 수와 동영상 조회수는 어떤 관계인가?

와 같은 질문을 상정해보고 이에 대한 연구를 시작해 보았습니다. 스크래피를 활용하여 유튜브를 분석하는 사이트인 Social Blade를 웹크롤링하고 데이터셋을 분석하는 방식입니다.

소스 코드와 파워포인트 자료는 여기에 올려 두었습니다.


데이터


구독자 상위 5,000개 채널의 10가지 정보 항목을 수집합니다. 위 이미지의 붉은 테두리로 지정된 영역이 그 예입니다.

- 채널 운영자 ID

- 업로드된 동영상 개수

- 구독자 수

- 동영상 조회수

- 국가

- 채널 종류

- 채널 생성일

- 구독자 순위

- 동영상 조회수 순위

- 예상되는 연간 수입

이 과정에서 두 가지 난관에 봉착하였습니다. 하나는 아래 이미지처럼 몇몇 링크가 정확히 그 페이지로 연결되지 않고 결과 현황 페이지에만 이어진다는 점이었습니다. 몇몇 다른 링크는 매우 부정확한 페이지로 연결되기도 했습니다.



다른 하나는 아래 이미지처럼, 유튜브가 직접 운영하는 몇몇 공식 채널은 동영상 수, 조회수, 국가, 채널 종류, 순위 및 예상되는 연간 수입 같은 데이터를 공개하지 않는다는 것입니다.



정확한 분석을 위해 링크가 부정확한 채널 1천개 정도를 제외시켜 분석 대상을 4천개 채널로 줄였으며, 데이터 정제 과정에서 유튜브 공식 채널을 제외시켜 예외치가 발생하지 않도록 하였습니다.​


분석


위 차트는 인기 채널의 국가별 비율을 보여줍니다. 5,000개 인기 채널의 36.5%는 미국, 11.3%는 브라질, 9.97%는 인도의 채널입니다.

아래 차트에서 구독자 수의 비율을 확인할 수 있습니다. 미국과 인도 채널이 가장 많은 구독자를 보유하고 있습니다. 인도의 인구 세계 2위, 미국의 인구 세계 3위이라는 현실을 반영한 것일 수도 있겠습니다. 중국은 인구 세계 1위이지만 유튜브 접속을 지원하지 않는 국가이기 때문에, 본 분석에 등장하지 않습니다. 중국은 아이치이 (Iqiyi)라는 별도의 동영상 플랫폼을 운영하고 있습니다.



아래 차트는 유튜브 채널 종류와 비율을 보여주고 있습니다. 상위 3개의 종류는 엔터테인먼트 26.8%, 음악 20.8%, 게임 12.2%입니다.


아래 차트에서 코미디, 음악, 게임 채널이 유튜브에서 가장 많은 구독자를 보유하고 있음을 알 수 있습니다.


하지만 아래 차트를 살펴보면, 음악 채널이 다른 채널 종류에 비해 더 많은 조회수를 유인하고 있습니다. 유튜브가 원래 음악 채널을 기본으로 시작한 플랫폼이기 때문일 수도 있고, 모바일 폰 스크린이 꺼져 있는 상태에서도 음악을 계속 들을 수 있는 기능 때문일 수도 있습니다. 심지어는 음악을 모바일 폰에 다운로드 할 수도 있는데요, 이러한 기능이 판도라나 스포티파이와 같은 경쟁자들보다 유튜브가 우월한 지위를 차지하는 데에 기여하고 있는 것 같습니다.

아래 표는 구독자 수와 조회수의 관계를 보여주고 있습니다. 구독자 수와 조회수는 상당한 높은 정의 상관관계를 갖고 있습니다. 구독자 수가 많을 수록 당연히 조회수가 높아질 확률이 높을 것입니다.

아래 두 표는 동영상 수와 조회수, 동영상 수와 구독자 수의 상관 관계를 보여줍니다. 이는 구독자 수- 조회수와 달리 높은 정의 상관관계가 있다고 말하기 어려우며, 매우 임의적인 관계라고 할 수 있습니다. 즉, 업로드한 동영상의 수가 많다고 해서 꼭 구독자 수가 많거나 조회수가 많다는 것은 아니라는 것입니다. 핵심은 타겟 고객이 원하는 컨텐츠를 제작하여 올리는 것입니다. 이렇게 하는 채널이 조회수와 구독자 수가 많습니다.


결론


​이와 같이 인기있는 유튜브 채널을 분석해 본 결과, 몇 가지 상관 관계에 대한 결론을 내릴 수 있습니다.​


구독자가 많은 인기 채널은 크게 미국과 인도를 기반으로 운영되는 채널이고, 코미디와 음악 채널이 구독자 수가 많으며, 특히 음악 채널이 조회수가 많다는 것입니다. 또 하나의 확실한 결론은 구독자 수가 많을수록 조회수가 많다는 것입니다.​


본 분석에서 예상되는 연간 수입은 제외하였습니다. 다양한 요소들이 영향을 끼치는 복합적인 알고리즘이라 객관적인 결론에 도달할 수 없기 때문입니다.​


유튜브는 다양한 데이터의 집합소로서 크롤링과 분석의 가치가 크다고 하겠습니다. 유튜브에서 획득하고 싶은 데이터 수집을 위해 크롤링 전문 업체에 프로젝트를 의뢰해 보는 것을 어떨까요?​​



=========================

스파이더킴 (www.spiderkim.com)

데이터 수집/정제/분석/시각화에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 273회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.