• mksong8

[빅데이터] 빅데이터 분석을 위한 데이터 정제 프로세스



​ 데이터 분석가라면 다음의 말에 100% 공감할 것입니다.



"데이터 분석을 위해서 데이터 정제에 필요한 노력과 시간이 80%이고 데이터 분석은 20%이다. "



그러나, 솔직히 말해 90%의 데이터 정리와 10%의 데이터 분석이 맞는 말일 것입니다. 데이터를 정제하는 과정에서 많은 인사이트를 얻을 수 있으나 그 과정은 많은 노력과 시간이 소요됩니다. ​ 이번 글에서는 여러 번의 데이터 정제 과정에서 길을 잃지 않고 체계적으로 작업을 완수할 수 있도록 다음과 같은 방법을 제시하고자 합니다. ​



| 데이터 정제 또는 분석 프로그램

​ 데이터 정제와 분석은 주로 다음과 같은 언어로 작업이 진행됩니다. ​ 1. SQL - 구조적 쿼리 언어입니다. 대부분의 회사에서 SQL과 같은 관계형 데이터 베이스에 정보를 저장하고 있습니다. 최근에는 NoSQL과 같은 비관계형 데이터베이스에 데이터를 저장하기도 합니다. ​ 2. R - 가장 일반적인 오프소스 프로그램입니다. 데이터 정제를 위해 Tidyverse나 dplyr 패키지를 사용합니다. ​ 3. 파이썬 - 많이 사용되는 오프소스 프로그램입니다. 파이썬은 데이터 분석 및 인공 지능 분야에서 많이 사용되고 있습니다. 주로 사용되는 패키지는 pandas입니다. ​ 4. SAS - SAS는 엔터프라이즈급 데이터 분석 도구입니다. 대기업 또는 대학교에서 주로 사용되고 있습니다. 비용이 비싸다는 단점이 있습니다.​


| 데이터 정제 프로세스

다음과 같이 데이터 정제 프로세스를 정리해 보았습니다.


1. 데이터 셋 통합 2. 변수 이름 수정 3. 변수 타입 변경 4. 하나 또는 여러 개의 변수를 기준으로 데이터 정렬 5. 입력 데이터 셋과 출력 데이터 셋 변수 설정 6. 데이터 필터링 7. 새로운 변수 생성 8. 변수 수정 9. 테이블 추가 10. 테이블 통합 또는 연결 11. 통합 테이블 수정 12. 변수 또는 그룹별 정보 수정 13. 변수 정규화 또는 표준화 14. 변수 카테고리화 15. 결측값 처리


​ 이 외에도 추가적인 데이터 처리가 필요할 수도 있겠지만, 우선 위와 같이 단계적으로 작업을 해 나가는 것을 추천합니다. 이 방법이 데이터 정제를 시작하는 여러분에게 도움이 되길 바랍니다.

조회 56회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.