[데이터 시각화] 뉴스 해시태그 크롤링과 워드 클라우드

워드 클라우드 (Word Cloud) 를 아시나요?

사전적으로는 "글에서 언급된 핵심 단어를 시각화하는 기법"으로 요약할 수 있습니다.

기본적으로 많이 언급된 단어를 크게 표현하여 한 눈에 들어오게 하는 방식이며, 방대한 양의 정보를 다루는 빅데이터를 분석할 때 데이터의 특징을 도출해내기 위한 목적에 부합하지요.

워드 클라우드는 데이터 수집, 정제, 시각화의 과정 및 기술로 데이터에서 의미와 가치를 발견하는 데이터 사이언스의 한 사례라 할 수 있겠습니다.


웹크롤링


아래의 내용대로 워드 클라우드 작성을 위한 데이터 수집을 위해 웹크롤링을 시행했습니다.

· 크롤링 대상 : 270여개 뉴스 기사의 1380여개 해시 태그

· 대상 사이트 : 중앙일보 (https://joongang.joins.com/)

· 검색어 : 현대자동차

· 기간 : 2018년 11월 ~ 2019년 1월 (2개월 기사 전체)


데이터 정제

현대자동차라는 검색어를 통해 검색된 중앙일보 기사에 달린 1388개의 해시 태그를 아래와 같이 정제하였습니다.

· 데이터셋을 원하는 용도에 맞게 사용할 수 있도록 처리

· 불일치 및 오류 수정

· 기계 판독이 불가능한 요소 제거

· 적합한 파일 포맷으로의 전환


데이터 분석


사용 빈도가 높은 상위 300개 단어를 추출하여 분석하였습니다.

· 형태소 분석기로 명사만 추출

· 역문서 빈도를 계산하여 사용 빈도가 낮은 단어의 특정성 파악

· 단어 벡터 모델을 활용해 컴퓨터가 텍스트를 숫자로 인식하게끔 변환

· 유클리디안 유사도를 통해 단어간의 유사도 파악


결과


​아래와 같이 멋진 워드 클라우드가 만들어졌습니다. ​


단어들이 현대자동차 로고의 형상을 이루도록 조직하였으며, 단어들의 컬러도 현대자동차의 블루 컬러에 맞추었습니다. 수 백 개의 기사, 수 천 개의 해시 태그 단어들을 일일이 다 읽지 않아도, 언론 기사에 표현된 현대자동차 관련 주요 키워드가 무엇인지 한 눈에 파악할 수 있습니다.


컬러를 다채롭게 하여 9개의 이미지를 통합한 워드 클라우드도 아래와 같이 마련해 보았습니다.

수집, 정제, 시각화의 기술을 거치면 데이터가 더욱 쉽고, 재미있고, 가치있는 것이 됩니다.

웹크롤링과 데이터 시각화는 꼭 스파이더킴과 상의해 주세요!

=========================

스파이더킴 (www.spiderkim.com)

웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 245회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.