[데이터 분석] 유튜브 댓글 크롤링과 감정 분석 : 2018 오스카 후보작 트레일러 동영상



Original Article by Joon Soo Ro (NYC Data Science Academy Blog)

Translated by JJ Hwang


서론


​이번 포스팅의 목적은 2018년 오스카 최우수 작품상 후보작의 유튜브 예고 동영상에 달린 댓글을 수집하여 감정 분석을 하는 것입니다. 감정 분석 (Sentiment Analysis)은 고객의 단어 선택을 분석함으로써 고객이 특정 제품이나 서비스, 컨텐츠에 대해 어떤 반응을 보이는지를 조사하는 데이터 분석의 한 방법입니다.​


이번 분석의 핵심은 영화의 인기와 오스카 후보작 선정의 몇 가지 재미있는 상관 관계입니다. 이를 위해 탐색적 데이터 분석 (EDA), 감정 분석, 워드 클라우드, 바이그램 (bigram) 등의 기법을 활용하였습니다.

데이터


​데이터는 promptcloud.com이 웹 크롤링을 통해 오스카 작품상 후보작의 유튜브 트레일러 동영상에 달린 댓글을 수집하여 Kaggle에 올린 자료를 활용하였습니다.


​[2018년 3월 6일까지 올라온 댓글 전체를 대상으로 아래 항목 수집]​


- 댓글의 본문

- 타임 스탬프

- 좋아요 수

- 댓글 수


​댓글 수, 자주 사용된 단어, 시간에 따른 댓글 감정 변화 추이 등을 통해 해당 동영상에 대한 유저들의 감정 상황을 파악할 수 있었습니다.

분석

댓글 수와 작품상 후보작으로의 선정 간 상관 관계를 파악하기 위해 탐색적 데이터 분석 (Exploratory Data Analysis)부터 시작합니다.


댓글의 수와 오스카 작품상 후보작 선정과의 관계에서 재미있는 상관 관계가 발견되었습니다. 16,059건이라는 가장 댓글이 많이 달린 “덩케르크”가 8개 부문에 선정되어 3개 부문 (최우수 음향효과상, 최우수 편집상, 최우수 음향편집상)에서 수상하였습니다. “겟아웃”은 4개 부문에서 선정되어 1개 부문 (최우수 각본상)에서 수상하였습니다.

그러나 정작 오스카 최우수 작품상은 13개 부문에서 선정되어 4개 부문 (최우수 작품상, 최우수 주제가상, 최우수 감독상, 최우수 미술상)에서 수상한 “셰이프 오브 워터”가 수상하였습니다. 결론적으로 영화의 인기 (댓글의 수)와 후보 선정 및 실제 수상과 어느 정도 경향성이 있지만, 그렇다고 해서 직접적인 연관성이 있다고 할 수는 없습니다.



위 표는 각 영화 트레일러 동영상에 달린 댓글에서 가장 많이 사용된 단어 10개를 분석한 것입니다. 이 단어들이 영화의 핵심 정보를 표현하고 있다고 할 수 있겠습니다.

이를 통해 보면, “콜 미 바이 유어 네임”은 동성간의 사랑에 관한 영화라는 것과 소설을 각색한 영화라는 것을 알 수 있습니다. 실제로 이 영화는 2018 오스카 최우수 각색상에 후보로 선정되어 수상까지 했습니다.

“팬텀 스레드” 댓글의 최다빈도 3개 단어는 다니엘, 데이, 루이스입니다. 이는 이 영화의 주연 배우가 다니엘 데이 루이스를 의미함과 동시에, 그의 은퇴작임을 고려하여 많은 팬들이 그의 이름을 언급한 것으로 해석됩니다.

결론적으로, 댓글에서 가장 많이 언급된 단어로 그 영화의 핵심 정보를 알 수 있다는 것입니다.



위 표는 NRC 감정 어휘를 통한 감정 분석의 결과입니다. 핵심은 댓글에 담겨 있는 긍정적인 감정이 꼭 오스카에서 후보로 선정된 수와 직접적인 연관이 있지는 않다는 것입니다.

13개 부문에서 선정되어 최우수 작품상을 포함한 4개 부문에서 수상한 “셰이프 오브 워터”는 긍정 언급이 3,527건이지만 부정 언급도 2,850건이나 됩니다.

반대로 “겟아웃”은 댓글 수가 두번째로 많고 4개 부문에 선정되었지만, 가장 많이 언급된 것은 부정 언급입니다.

결론적으로 댓글에 표현된 감정은 영화의 인기와도, 오스카 후보작으로 선정된 숫자와도 관련이 없다는 것입니다.




위 그래프는 댓글의 수와 댓글의 감정 변화에 대한 분석입니다. 2018년 1월 23일 3개 부문에서 후보작으로 선정된 “콜 미 바이 유어 네임”이 그 이후 긍정 언급과 부정 언급의 격차가 커졌음을 알 수 있습니다.

오스카 후보작에 선정되었다는 것이 동성애에 대해 부정적인 감정을 갖고 있는 사람들에게 다소 긍정적인 영향을 끼친 것으로 파악됩니다. 이러한 변화는 오스카 후보작에 선정되었다는 사실이 사람들에게 어느 정도의 영향을 끼치는 지를 알 수 있게 해 줍니다.



워드 클라우드를 통해 단순한 숫자 분석 이면의 사실도 확인할 수 있습니다.

“콜 미 바이 유어 네임” 워드 클라우드는 동성애에 대한 사람들의 두 가지 감정을 보여줍니다. 사랑에 대한 아름다운 추억이라는 감정과 사회적 소수자들의 충격적인 실상이라는 감정이 그것입니다.

다른 하나의 워드 클라우드는 영화와 실제 사회 현상의 관계를 나타냅니다. “더 포스트”의 워드 클라우드를 통해 사람들이 참된 저널리즘이라는 영화의 주제와 도널드 트럼프를 연관시키고 있음을 알 수 있습니다.

마지막으로 바이그램을 통한 분석입니다. 순차적으로 연속되는 여러 개의 단어 분석인 N그램에서 가장 낮은 숫자가 바이그램이며, 유튜브 댓글 분석이라는 본 포스팅을 위해 연속하여 함께 언급되는 두 단어에 초점을 맞추었습니다.

“셰이프 오브 워터”의 바이그램이 보여주고 있는 Ape Sapien은 “헬보이”에 등장하는 한 허구의 캐릭터, 그리고 “셰이프 오브 워터”의 메인 캐릭터와 연관되어 있습니다.

결론적으로 많은 팬들은 “셰이프 오브 워터”를 “헬보이”의 속편으로 생각하면서 트레일러 동영상의 댓글에서 많이 언급한 것 같습니다.

결론


​트레일러 동영상에 달린 댓글의 수는 일반적으로 영화의 인기를 가늠하는 지표가 됩니다만, 오스카 후보작 선정과는 직접적인 연관이 있다고 보기 어렵습니다. 가장 많이 언급된 10개 단어와 워드 클라우드는 영화의 내용 및 영화와 관련된 정보를 보여줍니다. 시간의 흐름에 따른 분석은 감정 변화와 오스카 후보작 선정의 관계를, 바이그램은 다른 분석이 놓치고 있는 관객들의 심도 깊은 영화감상을 드러냅니다.​


연구를 좀 더 진행시켜 가장 많은 좋아요 수를 확보한 댓글에 대한 분석이라든가 댓글 수와 후보작 선정의 관계에 대한 시각화, 최우수 작품상 후보작들과 작품상 후보작에 선정되지 못한 작품들의 비교 역시 재미있는 인사이트를 제공해 줄 것으로 기대합니다.​


웹 크롤링 업체에 수집과 분석을 의뢰하면 더욱 정확한 결과를 얻을 수 있지 않을까요?


=========================

스파이더킴 (www.spiderkim.com)

데이터 수집/정제/분석/시각화에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 755회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.