[데이터 수집] 빅 데이터 구축을 위한 무료 데이터 소스


Original Article by octoparse.com

Translated by JJ Hwang

품질 좋은 데이터 수집이 데이터 정제, 데이터 분석, 데이터 시각화, 그리고 빅 데이터의 시작입니다. 데이터 수집은 생각만큼 어려운 과정이 아닐 수도 있습니다. 데이터셋을 제공하는 수천 수만의 웹 사이트로부터 쉽게 웹 데이터를 수집할 수 있습니다. 2019년에 활용해 볼 만한 무료 데이터 소스를 정리해 보았습니다.

정부 및 공공 기관 데이터

1. Data.gov : 기후 데이터로부터 범죄 데이터에 이르는 모든 정보를 제공하는, 미국 정부에 의해 무료로 공개되는 가장 기본적이고 가장 포괄적인 웹 사이트입니다.

2. Data.gov.uk : 영국 중앙 정부 부처, 공공 기관, 지방 정부에서 제공하는 데이터셋이 모여 있습니다. 산업, 경제, 범죄, 사법, 국방, 교육, 환경, 행정, 보건의료, 사회, 교통 등 제 분야를 망라합니다.

3. U.S. Census Bureau : 인구, 경제, 교육, 지리 등등 미국 국민들의 생활에 대한 정부 주도의 통계 데이터가 구축되어 있는 웹 사이트입니다.

4. The CIA World Factbook : 267개 국가의 역사, 정부, 인구, 경제, 에너지, 지리, 통신, 교통, 군사 및 국제 문제 데이터에 초점을 맞춘 웹 사이트입니다.

5. Socrata : 소크라타는 시각화 기능까지 탑재한 공공 데이터 전문 소프트웨어 기업입니다. 오픈 데이터, 성과 관리, 데이터 기반 정부라는 목적에 따라 1,200개 이상의 정부 기관이 이 회사 서비스를 활용하고 있습니다.

6. European Union Open Data Portal : 유럽 연합이 제공하는 데이터의 가장 기본적인 포털 사이트입니다. 본 데이터는 각종 통계 자료부터 선거 데이터, 과학적 연구에 이르기까지 유럽 연합의 경제적 발전과 투명성 제고에 기여하고 있습니다. 다른 형식의 데이터베이스와 보고서 형태로 변용 가능하며, 다양한 디지털 포맷으로 활용 가능합니다. 이 포털은 표준화된 카다로그, 앱 및 웹 툴 항목, SPARQL endpoint query 에디터와 rest API 접근 권한, 데이터 활용에 대한 안내를 제공합니다.

7. Canada Open Data : 정부 데이터와 지리공간 데이터에 대한 시범적인 웹 사이트입니다. 캐나다 정부의 투명성, 책임성, 대민 서비스를 향상시키고, 오픈 데이터, 정보 공개, 열린 소통을 통해 혁신과 경제적 기회를 추구합니다.

8. Datacatalogs.org : 미국, 유럽, 캐나다, 오픈 소스 데이터 포털 등의 오픈 공공 데이터를 제공합니다.

9. U.S. National Center for Education Statistics : 미국과 다른 나라의 교육 관련 데이터를 수집하고 분석하는 연방 기관입니다.

10. UK Data Service : 영국 정부가 지원한 설문 조사, 국제 설문 조사, 장기 조사, 영국 인구 데이터, 국제 통합 자료, 산업 데이터 및 질적 연구에 의한 데이터 등을 서비스합니다.

범죄 데이터

1. Uniform Crime Reporting : 법의 적용과 집행에 관련된 공무 담당자, 학생, 연구자, 미디어 담당자 및 일반 대중들이 미국의 범죄 데이터에 접근하기 위한 가장 좋은 웹 사이트입니다.

2. FBI Crime Statistics: 지방과 중앙 차원의 통계적인 범죄 보고서 포털로서 구체적 범죄 양상 및 경향에 대한 데이터를 제공합니다.

3. Bureau of Justice Statistics: 공권력 집행 중 사망, 재소자 통계, DNA분석 등과 관련된 미국 형사법 관련 정보를 제공합니다.

4. National Sex Offender Search: 전국 단위의 성범죄자 현황을 공개하는 공공 안전 웹 사이트입니다. 각 법원에 의해 공개된 데이터가 가장 최근의 자료로 업데이트됩니다.

보건의료 데이터

1. U.S. Food & Drug Administration: FDA의 약물 관련 데이터를 압축 파일로 받아볼 수 있습니다. FDA 약물 관련 정보는 하루에 한 번 업데이트되며, 데이터 파일은 일주일에 한 번 업데이트 됩니다.

2. UNICEF: 유니셰프는 전 세계 어린이와 여성에 대한 데이터를 축적하고 있습니다. 설문 조사부터 다양한 다른 근거에 이르기까지 국가 수준으로 신뢰할만한 정확한 데이터입니다.

3. World Health Organisation: 150개국 이상의 영양, 질병, 건강에 대한 데이터를 제공합니다.

4. Healthdata.gov: 건강보험 데이터, 역학 정보, 인구 분석 등을 포함한 125년 이상의 미국 보건의료 데이터를 포괄하고 있습니다.

5. NHS Health and Social Care Information Centre: 영국 NHS의 데이터입니다. 해당 조직은 260건 이상의 공식 국가 통계자료를 발표합니다. 지역의 보건의료 의사결정자들이 실무 서비스의 품질과 효율성을 증진시키는 데 기여할 수 있도록 중장기 국제 비교 자료까지 포괄하고 있습니다.

금융 및 경제 데이터

1. World Bank Open Data: 금융에서 서비스 수행 지표에 이르는 전 세계 교육 통계 데이터를 제공합니다.

2. IMF Economic Data: 글로벌 금융 안정성 보고서, 지역 경제 보고서, 국제 금융 통계, 환율, 무역 등에 대한 유용한 데이터를 제공합니다.

3. UN Comtrade Database: 시각화를 포함한 글로벌 무역 데이터를 무료로 확보할 수 있습니다. UN Comtrade는 국제 무역 공식 통계와 관련 분석 테이블의 저장소이며, 모든 자료가 API를 통해 제공됩니다.

4. Global Financial Data: 300년 이상의 6만개 이상 기업 데이터를 통해 글로벌 경제의 변화를 분석하는 데 유용한 시야를 얻을 수 있습니다.

5. Google Finance: 실시간 주식 시세, 차트, 금융 뉴스, 환율 등등

6. Google Public Data Explorer: 월드뱅크, OECD, 유로스탯, 덴버 대학교 등을 총괄하는 국제 기구와 대학 기관 공공 데이터를 검색하여 예측하는 구글의 서비스이며 그래프, 바 차트, 교차분석표 및 지도 형식의 리포트 가능.

7. U.S. Bureau of Economic Analysis: GDP를 비롯한 거시 경제와 산업 통계에 대한 미국 공식 데이터. 개인 소득, 기업 이익, 정부 지출 포함.

8. Financial Data Finder at OSU: 금융과 관련된 대량의 링크 제공

9. National Bureau of Economic Research: 거시 데이터, 산업 데이터, 생산성 데이터, 무역 데이터, 국제 금융 데이터 등등

10. U.S. Securities and Exchange Commission: 박람회 데이터부터 기업 금융 보고서에 이르기까지 수집된 데이터로서 분기별로 발행

11. Visualizing Economics: 경제에 대한 데이터 시각화 플랫폼

12. Financial Times: 정보, 뉴스, 글로벌 비지니스 커뮤니티에 대한 서비스 등을 제공하는 언론사

마케팅 및 소셜미디어 데이터

1. Amazon API: 카테고리별로 아마존 웹 서비스 (AWS)의 공공 데이터셋을 탐색하는 API. Amazon API Gateway는 AWS Lambda, Amazon EC2, AWS 이외의 서버에서 호스팅되고 있는 웹 사이트를 자사의 웹 사이트와 연결해 줍니다.

2. American Society of Travel Agents: ASTA는 세계에서 가장 큰 여행 전문사들의 연합체로서, 여행, 크루즈, 호텔, 렌트카 등등을 포함한 제반 여행상품 판매사들에 대한 정보 제공.

3. Social Mention: 소셜 멘션은 소셜 미디어 검색과 분석 플랫폼으로서 전 세계의 유저들이 작성한 게시물을 하나의 흐름으로 표현해 줍니다.

4. Google Trends: 구글 트렌드는 어떤 특정 검색어가 전체 검색어 대비 얼마나 빈번히 검색되었는지를 보여줍니다.

5. Facebook API: 그래프 API를 활용하여 페이스북 데이터를 수집하고 활용할 수 있습니다.

6. Twitter API: 트위터 API를 통해 트위터 사이트에서 발생하는 데이터를 본인의 웹 사이트나 애플리케이션에 연결시킬 수 있습니다.

7. Instagram API: 인스타그램 API를 활용하여 인스타그램과 거의 유사한 고품질 앱 또는 서비스를 구축할 수 있습니다.

8. Foursquare API: 포스퀘어 API를 활용하여 위치 정보 DB에 접속하고 포스퀘어 유저 및 매장과 소통할 수 있습니다.

9. HubSpot: 마케팅 데이터의 저장소로서, 최근의 마케팅 트렌드 정보를 확보할 수 있습니다. 소셜미디어 마케팅, 컨텐츠 마케팅, 웹 분석, 랜딩 페이지, 검색 엔진 최적화 등에 대한 툴도 제공합니다.

10. Moz: 키워드 검색, 링크 설정, 웹 사이트 분석, 페이지 최적화 등을 포괄하는 검색 엔진 최적화 과정에 도움이 되는 데이터와 인사이트를 제공합니다.

11. Content Marketing Institute: 컨텐츠 마케팅에 대한 뉴스와 연구 결과물에 대한 정보를 제공합니다.

언론 및 뉴스 데이터

1. The New York Times Developer Network: 뉴욕타임즈 1851년 기사부터 수집할 수 있으며, 헤드라인, 요약, 관련 미디어로의 링크 등을 이용할 수 있습니다. 책 리뷰, 뉴욕시 이벤트 리스트, 영화 리뷰, 스토리와 이미지 등등도 활용 가능합니다.

2. Associated Press API: AP통신 웹 사이트에 방문하지 않아도, 편집 툴을 이용하여 기사 컨텐츠를 다운받을 수 있습니다. AP통신, 독자, 제3자가 보유한 이미지에도 접근 가능하며, AP통신과 지정된 제3자가 보유한 영상도 수집 가능합니다.

3. Google Books Ngram Viewer: 구글의 온라인 검색 엔진으로서 출판물에서 검색어의 등장빈도를 1500년도 부터 2008년도 까지 연도별로 보여줍니다.

4. Wikipedia Database: 위키피디아는 원하는 유저 모두에게 가능한 모든 컨텐츠의 복사본 데이터를 제공합니다.

5. FiveThirtyEight: 여론조사 분석, 정치, 경제, 스포츠에 초점을 맞춘 웹 사이트입니다. 538에서 다루어지는 스토리의 근거가 되는 데이터와 코드를 깃헙에서 제공합니다.

6. Google Scholar: 구글 스콜라는 학술 데이터의 전체 텍스트 또는 메타데이터에 접근하는 웹 서치 엔진입니다. 최다 인용 논문 또는 도서, 학술발표자료, 논문, 예고, 요약, 기술보고서, 법정 문서, 특허 등을 포함한 학술 자료를 활용할 수 있습니다.

부동산 데이터

1. Castles: 매매, 임대, 관리, 설문조사, 가치평가 등의 항목을 중심으로 한 부동산 데이터 서비스를 제공합니다.

2. Realestate.com: 주택을 처음 구매하는 사람에게 특화된 툴과 전문가 조언을 구매의 각 과정마다 제공합니다.

3. Gumtree: 호주의 지역별 무료 매물 광고 사이트의 원조로서 각종 제품, 차, 부동산, 일자리 등에 대한 거래와 매칭을 지원합니다.

4. James Hayward: 주택 매매, 임대, 관리에 대한 혁신적인 데이터베이스를 제공하는 플랫폼입니다.

5. Lifull Home’s: 일본의 부동산 플랫폼

6. Immobiliare.it: 이탈리아의 부동산 플랫폼

7. Immoweb: 벨기에의 부동산 플랫폼

기업 및 업체 데이터

1. LinkedIn: 링크드인은 비즈니스와 채용을 중심으로 한 SNS이며, 200개 국가에서 5억명의 회원이 가입했습니다. 카테고리별 기업 리스트를 활용할 수 있습니다.

2. OpenCorporates: 1억개 이상의 기업 정보를 보유한 기업 데이터베이스입니다. 기업의 범죄, 부패, 반사회적 활동 등을 제어하려는 공익적 의도로 더 많은 사람들에게 기업 정보를 공개하는 것이 목적입니다.

3. Yellowpages: 최초로 지역 배관공, 수리공, 기계공, 변호사, 치과의사 정보를 제공했던 플랫폼입니다.

4. Craigslist: 일자리, 주택, 개인광고, 매매거래, 중고매물, 서비스, 커뮤니티, 모임, 이력서 등에 대한 카테고리별 미국 광고 플랫폼입니다.

5. CertainTeed: 미국과 캐나다의 도급업자, 인테리어 리모델링, 설치업체, 건축업체 플랫폼입니다.

6. Manta: 제품, 서비스, 교습에 대한 스몰 비즈니스 매칭 플랫폼입니다.

7. EU-Startups: 유럽의 스타트업 기업 리스트를 제공합니다.

그 외

1. Capterra: 비즈니스 소프트웨어 리스트와 후기 플랫폼

2. Monster: Data source for jobs and career opportunities. 구인구직 및 경력 관리 플랫폼

3. Glassdoor: 내부 직원의 후기와 연봉 정보 등이 포함된 구인구직 플랫폼

4. OSMOZ: 향수 정보 플랫폼

=========================

스파이더킴 (www.spiderkim.com)

Value from Web Data

데이터 수집, 정제, 분석, 시각화 분야에서 최고의 서비스를 제공합니다.

조회 226회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.