[웹크롤링] 공공 데이터 크롤링과 시각화 : 미국 암 통계 데이터

Original Article by Kitae Kim (NYC Data Science Academy)

Translated by JJ Hwang



서론


암은 보건의료의 주요 문제 중 하나이며, 미국의 사망률 2위 요인입니다. 정부, 정책 입안자, 보건의료 전문가, 연구원들이 암이 사회에 미치는 영향을 이해하고 관련 과제들에 대응하는 전략을 수립하기 위해 암 통계보고서를 활용합니다.​


일반적인 암 관련 데이터 뿐만 아니라, 암 통계보고서는 특정 암에 걸린 사람의 수와 암으로 사망한 사람의 수를 매년 보고합니다. 또한 연령대별, 성별, 인종별 지역별, 종류별 암 발병률과 사망률도 보여주고 있습니다.​


본 포스팅은 암 관련 공공 데이터를 수집하고 시각화하는 것을 목표로 했습니다. 연령, 인종, 성별, 지역이라는 변수의 영향을 분석하기 위해 아래 주제별로 데이터가 정리되었으며, 이 곳을 통해 웹 상에서 각 시각화 결과를 확인할 수 있습니다.​


· 주별 암 현황

· 연령대별 암 비율 분포

· 연령대별 암 표준화 비율 분포

· 주별 상위 빈도 10개 암

· 종류별, 인종별, 성별 암 비율

크롤링 대상 웹 사이트


데이터는 아래 두 웹 사이트에서 수집하였습니다.​


1. 주별 암 발생률과 사망률 (1999-2015) 데이터는 Centers for Disease Control and Prevention​에서 수집하였습니다. 데이터셋에는 연도별 신규 암 발생 환자 수 및 각 주별 암에 의한 사망자 수가 포함되어 있습니다.​


2. 연령대 별 암 발생률과 사망률 데이터는 Enigma에서 수집하였습니다. 데이터셋에는 연령대 그룹이 19개로 분류되어 있습니다.


주별 암 현황


암 발생률 (인구 10만명 당 신규로 암이 발생한 환자 수)과 암 사망률 (인구 10만명 당 암으로 사망한 사람의 수) 모두 계산하고 요약하였습니다. 아래 그림1과 2처럼, 각 주별 암의 현황을 종류 별, 성별, 인종별로 정렬하여 살펴볼 수 있습니다.​


역시 그림1과 2는 1999년부터 2015년까지의 암 발생률과 암 사망률을 보여주고 있습니다. 매년 발생률과 사망률 모두 증가하고 있음을 알 수 있는데, 이는 인구의 증가 및 노령 인구의 증가 등에서 그 원인을 찾을 수 있습니다.


그림1. 주별 암 발생률 (1999 - 2015)

그림2. 주별 암 사망률 (1999 - 2015)

연령대별 암 비율 분포


발생률과 사망률은 모두 연령과 강한 상관관계를 갖고 있습니다. 가장 나이가 많은 80세 이상의 그룹이 가장 높은 수치입니다. 연령에 특화된 암의 비율은 55세~59세 그룹부터 드라마틱하게 상승합니다. 발생률은 노인층에서 남성이 여성보다 매우 높고, 사망률 또한 비슷한 경향을 보입니다. 연령대별 발생률과 사망률 분포는 그림3과 4에 각각 표현되어 있습니다.


그림3. 연령대 그룹별 암 발생률 (좌:남성, 우:여성)

그림4. 연령대 그룹별 암 사망률 (좌:남성, 우:여성)

연령대별 암 표준화 비율 분포


연령대 별 암 비율 변이는 그림5와 6을 통해 살펴볼 수 있습니다. 55세 이상 그룹에서 0보다 현저히 높은 수치의 암 표준화 발생률을 볼 수 있고, 암 표준화 사망률은 60에 이상 그룹에서 높은 수치를 보여주고 있습니다. 전반적으로 그림3에서 6까지 살펴보면 암과 상관관계가 가장 높은 변수는 연령이라는 것으로 알 수 있습니다.


그림5. 암 표준화 발생률

그림6. 암 표준화 사망률

주별 상위 빈도 10개 암


그림 7은 각 주에서 새로 암이 발생한 환자수와 암으로 사망한 사람의 수를 보여주고 있으며, 인종, 성별, 연도로 필터링할 수 있습니다. 각 주에서 가장 흔히 발병하는 암은 유방암, 폐암, 기관지암, 전립선암, 대장암, 직장암, 피부 흑색종, 자궁암, 방광암입니다.


그림7. 주별 상위 빈도 10개 암

암 비율 vs. 암 종류


그림 8은 각 연령대 그룹의 특정 암 종류에서 발생률과 사망률을 보여줍니다. 연령대 그룹은 5개를 기반으로 하여 발생률과 사망률을 계산하였습니다. 대부분의 암이 65세 이상 연령대에서 상관관계가 높은 반면, 갑상선암과 고환암은 30세~49세 연령대에서 매우 높은 상관관계를 나타내고 있습니다.


그림8. 종류와 연령대에 따른 암 발생률

암 종류별 발생률과 사망률은 그림 9에 정리되어 있습니다. 예를 들어 (1) 전립선암, (2) 남성 및 여성 유방암, (3) 여성 유방암, (4) 폐암 및 기관지암 군, (5) 대장암 및 직장암 군이 다른 암에 비해 비율이 월등히 높은데, 이는 2015년 미국에서 가장 많이 발병한 5종류의 암이라고 결론지을 수 있습니다.


결론


​모든 암이 다 그런 것은 아니지만, 암이 연령과 관련 있다는 것은 명백한 결론입니다. 유전적 요인, 호르몬, 어떤 환경에서 살고 있는가 및 그 외 다른 요소들 또한 다양한 그룹의 사람들의 암 발생률, 사망률에 영향을 끼칩니다.​


각 주에서 가장 흔히 발병하는 암은 유방암, 폐암 및 기관지암 군, 전립선암, 대장암 및 직장암 군, 피부 흑색종, 자궁암, 방광암 등이며, 남성이 여성보다 전반적으로 비율이 높습니다. 암과 인종-성별을 교차적으로 검토해 보면, 아프리카 계 미국인 남성이 암 사망률이 가장 높고 아시아 및 태평양 제도 계 미국인 여성이 가장 낮습니다.​


보건의료를 비롯한 공공 데이터의 수집과 분석으로 더 많은 데이터 가치를 창출할 수 있습니다. 공공 데이터 프로젝트는 웹크롤링 전문 기업 스파이더킴과 함께 해 주세요!


=========================

스파이더킴 (www.spiderkim.com)

데이터 수집/정제/분석/시각화에서 최고의 서비스를 제공합니다.

지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!

조회 79회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.