[데이터 시각화] 인스타그램 해시태그 웹크롤링하기


Original Article by Joseph Mata (NYC Data Science Academy Blog) Translated by JJ Hwang




서론 요가와 관련된 사진이나 동영상을 공유하는 인스타그램 계정을 운영하고 있는데, 이 계정의 팔로워 수를 늘이기 위해 무엇을 하면 좋을 지 고민하고 있었습니다. 인스타그램에서 인기있는 요가 강사들이 사용하는 해시태그가 무엇일지 알아보면 좋겠다는 생각입니다. 요가 수행자들이 인스타그램에 사진을 올리는 트렌드가 있는 듯 합니다. 어떤 날은 물구나무서기 자세가 많이 올라오고, 어떤 날은 균형잡기 자세가 많이 올라오는데, 많은 수행자들의 페이지를 방문하여 요가 자세와 포스팅에 달린 해시태그를 분석하는 것이 의미있다고 생각합니다. 이후 그러한 해시태그를 저의 포스팅에 적극적으로 활용하면 내 포스팅도 조회수와 좋아요 수가 증가할 것이라는 것이 기본 발상입니다. 해시태그 분석은 물론 웹크롤링을 활용하여 자동적으로 수집해야 하겠지요. 다음의 세 계정을 선정하여 각 계정의 최근 7개의 포스팅을 웹크롤링하였습니다.   · dylanwerneryoga(Dylan)   ·  seanphelpsyoga(Sean)   ·  kevindhofer(Kevin)


활용한 스킬   ·  Selenium   ·  Python   ·  R Studio   ·  WordCloud2 수집 방식 (1) 내 계정 로그인을 자동화 (2) Xpath를 활용하여 대상 계정의 페이지를 찾아가도록 설정 (3) 대상 페이지 입력과 클릭을 위한 ActionChain 생성 (4) Xpath와 또 다른 ActionChain을 활용하여 가장 최근의 포스팅을 지정 클릭 이 때 해시태그가 보이지 않아 웹크롤링 할 수 없는 문제를 발견했습니다. 이유는 방문자들이 해시태그가 아닌 내용글에 집중하기 위해 계정의 주인이 해시태그를 캡션 밑에 달기 때문입니다. 이에 팔로워들이 댓글을 달면 해시태그가 “마치 사라져 보이지 않는 것 처럼” 됩니다. 해시태그가 다시 보이게 하려면 해당 포스팅에 달린 모든 댓글이 다 보여져야 합니다.


<해시태그가 보이지 않는 인스타그램 포스팅 캡쳐>

이를 해결하기 위해 while loop를 가동시켰습니다. 즉, “더 많은 댓글을 계속해서 띄우라”는 명령인 셈이죠. 이후 해시태그를 크롤링하여 csv 파일로 저장하고 R studio를 활용하여 시각화 하였습니다. 해시태그 분석 총 좋아요 수와 포스팅 하나 당 좋아요 평균 수는 아래와 같습니다.




각 7개의 포스팅에 대한 일짜별 좋아요 수는 아래와 같습니다.


Dylan은 76개의 해시태그를 사용했는데 그 중 41개는 중복없이 한 번만 사용한 것이었습니다. Dylan은 평균적으로 한 포스팅 당 11개의 해시태그를 사용합니다. Dylan이 선호하는 해시태그는 아래와 같습니다. #yoga(7), #mensyoga(7) ,#yogainspiration(7) , #yogachallenge(5)


Sean은 78개의 해시태그를 사용했는데 그 중 49개는 중복없이 한 번만 사용한 것이었습니다. Sean은 한 포스팅 당 평균적으로 12개의 해시태그를 사용했습니다. 그의 선호 해시태그는 아래와 같습니다. #yogatips(8),  #yogahelp(4), #yogafit(4), #yogabeginners(3) 그의 전략은 요가  초보자라는 것을 알 수 있습니다. 그러고 보니 Sean은 이제 막 온라인 교습 프로그램을 런칭하였군요.


Kevin은 163개의 해시태그, 그 중 84개는 중복없이 사용했습니다. Kevin은 한 포스팅 당 평균적으로 12개의 해시태그를 사용합니다. 그가 선호하는 해시태그는 아래와 같습니다. #portugal (11), #yoga(7), #yogainspiration(7), #instayoga(6) 그의 초점은 요가 자세이며 또한 포스팅한 지역이나 그 지역의 주변 풍경이라는 것을 알 수 있습니다.


정리해 보면 21개의 포스팅에 21개의 사진과 317개의 해시태그가 사용되었습니다. 그 중 156개의 해시태그는 중복없이 단발적으로 사용된 것입니다.



결론 제가 좋아하는 세 명의 요가 강사들이 가장 많이 사용하는 해시태그는 #Yogainspritation, #yoga, #menyoga 였습니다. 이 해시태그를 저의 포스팅에도 한 번 사용해보려고 합니다. 이후 알고리즘을 활용하여 저의 포스팅에서 어떤 해시태그가 검색되어 방문자가 유입되었는지 알아보도록 하겠습니다. 소스 코드는 이곳을 참고해 주세요.


========================= 스파이더킴 (www,spiderkim.com) 웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다. 지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 3527회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.