[데이터 수집] 엠마 왓슨 트위터 톺아보기


Original Article by PromptCloud.com Translated by JJ Hwang




트위터 계정에 올라온 트윗들을 통해 그 사람에 대해서 많은 것을 알 수 있습니다. 트위터는 기본적으로 모두에게 공개된 데이터이기 때문에, 웹크롤링 또는 웹스크래핑 기술을 활용하여 트윗을 올리는 시간적인 패턴이나 그 사람이 많이 사용하는 텍스트 패턴 등 많은 트위터 데이터를 수집할 수 있습니다.

이번 사례 분석에서 우리는 세계에서 제일 유명한 인물 중의 한 명인 엠마 왓슨의 트위터 데이터를 수집하여 분석해 보았습니다. 분석에는 R 프로그램을 활용하였습니다.

예비적인 분석

분석의 기본 항목들은 아래와 같습니다.

- 2010년부터 2018년까지 포스팅된 트윗의 개수

- 월별 트윗 빈도

- 요일별 트윗 빈도

- 하루 중 트윗 밀집도

- 트윗 수와 리트윗 수의 비교

연도별/월별 트윗수

차트를 만들기 위해 ggplot2와 lubridate의 라이브러리를 활용하였습니다.

결과는 아래 차트와 같습니다.


연도별/월별 트윗수 분석입니다. 2014년 3월, 2016년 3월, 2015년 10월에 트윗수가 급증했습니다. 다만 일반적인 경향에 대한 해석을 내리기는 좀 어렵습니다.

이를 간단하게 연도별 트윗수로만 바꾸어 보겠습니다.

2015년과 2016년에 트위터 활동이 활발했고, 2011년에는 활동이 가장 적었군요.


월별 트윗 빈도

다음으로 엠마 왓슨이 매월 비슷한 수의 트윗을 올렸는지 아니면 특정 월에 많은 트윗을 올렸는지 살펴보겠습니다.

확실히 1월, 3월, 9월에 트윗을 많이 올렸다는 것을 알 수 있네요.


요일별 트윗 빈도

트윗을 많이 올린 특정 요일이 있을까요?

금요일에 많이 올렸습니다. 불금 모드였을 것이라 추측해 봅니다.


하루 중 트윗 밀집도

요일 다음으로 하루 중 시간대도 확인해 보겠습니다. 다음 차트를 보시지요.

차트를 통해 엠마 왓슨이 오후 6시에서 오후 8시 사이에 트윗을 가장 많이 올렸음을 알 수 있습니다. 시간은 협정 세계시간 (UTC) 입니다.


트윗과 리트윗 수의 비교

트윗수와 리트윗 수를 비교해 보면 어떨까요?

대부분은 리트윗보다는 엠마 왓슨이 직접 작성한 트윗이군요. 2014년부터 리트윗 수가 늘고 있다는 점이 흥미롭습니다.


텍스트 데이터의 수집과 분석

텍스트라는 좀 더 흥미로운 주제로 들어가 보겠습니다. 아래의 항목들을 중심으로 분석해 보았습니다.

- 자주 사용한 해시태크

- 트윗의 단어들로 만들어본 워드 클라우드

- 감정 분석

1. 자주 사용한 해시태그

수집한 데이터 중에서 해시태그를 따로 분석하여 엠마 왓슨이 자주 사용한 해시태그 top 10을 시각화했습니다.

차트에서 알 수 있듯이 UN 여성기구 친선대사로서 엠마 왓슨은 성평등을 강조하는 “HeForShe” 캠페인을 가장 많이 해시태그 했습니다. 이외에도 “Our Shared Shelf”라는 이름의 북클럽과 “세계 여성의 날”도 많았습니다. 그녀가 출연한 영화 “노아”, “미녀와 야수”도 top 10 해시태그에 들어 있네요.


2. 워드 클라우드

가장 빈번하게 사용한 단어를 알아보기 위해 워드 클라우드를 만들어 보았습니다.

분명하게 “HeForShe” 캠페인이라는 단어를 가장 많이 홍보하였습니다. 이외에도 “thank”, “love”, “women”, “gender”, “UN Women”같은 단어들을 많이 사용했네요. Top 10 해시태그에서 확인한 것과 유사하게 그녀의 트위터 활동이 여성 문제에 초점을 맞추고 있음을 알 수 있습니다.

3. 감정 분석

이를 위해 syuzhet 패키지를 활용하였습니다. 이 패키지는 단어와 감정(joy, fear, anger, surprise 등등) 및 감정 양극 (긍정적/부정적)을 매칭시키는 감정 어휘에 기반하고 있습니다. 엠마 왓슨이 자주 사용한 단어들의 감정 지수를 계산하여 시각화 해 보았습니다.

아래 차트는 엠마 왓슨의 트윗이 대부분 긍정적인 감정들을 표현하고 있음을 보여주고 있습니다. Top 3 감정 어휘는 “joy”, “trust”, 그리고 “anticipation” 입니다.


결론


엠마 왓슨의 트위터를 분석하며 기본적인 데이터 분석과 텍스트 분석의 사례를 만들어 보았습니다. 다음에는 제일 많이 언급된 트위터 이용자를 찾는다거나, 네트워크 그래프를 작성한다거나, 주제어 모델링을 통한 트윗 분류 등의 심화 분석을 시행해볼 예정입니다.

웹크롤링, 웹스크래핑 기술을 활용하여 재미있고 의미있는 데이터 수집과 분석을 할 수 있습니다. 지금 스파이더킴에 문의를 해 보시면 어떨까요?

=================

스파이더킴 (www.spiderkim.com)

웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 26회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.