​고객센터

Tel: 02-596-8900   Fax : 02-596-8908

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : 서울특별시 강남구 테헤란로 13길 16, 3층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.

PROCESS

2. 데이터 정제

발견

데이터를 통한 가치 창출을 위해 가치분포(Value distribution)와 이상치(Outlier) 같은 데이터의 고유 요소들을 신속하게 발견하는 것이 중요합니다. 이 과정을 통해 트렌드와 데이터 관련 이슈들을 파악하고, 변환 및 분석 프로세스에 대한 방향을 설정합니다.

구조화 

구조화는 데이터 정리를 의미합니다. 원시 데이터는(Raw data) 각기 다른 구조와 크기를 갖고 있기 때문에 분석에 용이하게 일정한 형태로 변형할 필요가 있습니다. 단일 열이 여러 행으로 바뀌거나, 하나의 열이 두 개가 되거나, 혹은 데이터의 위치가 다른 곳으로 옮겨질 수 있습니다.

정제

정제는 분석을 왜곡시킬 수 있는 데이터를 제거하는 작업입니다. 간단한 예로 null 값을 0 또는 빈 문자열로 대체하는 것입니다. 그 이유는 null 값이 분석 패키지를 중단시키는 요인이 되기 때문입니다. 이 밖에도 미국의 캘리포니아 주는 CA, Cal, Calif와 같이 여러 형식으로 표현될 수 있기에 단일 표준 형식으로 대체하여 표준화하는 작업도 필요합니다.

보완

정제된 데이터를 검토한 후 보완 데이터의 추가 유무를 결정합니다. 이 단계에서 제기할 수 있는 질문은 ‘이미 보유하고 있는 데이터로부터 어떠한 새로운 유형의 데이터를 얻을 수 있는가?’ 또는 ‘현재 데이터에 대한 의사 결정에 더 도움이 될만한 기타 정보는 무엇이 있는가?’ 입니다.

검증

유효성 검사는 데이터의 일관성, 안전성, 그리고 품질 검증을 위해 프로그래밍 시퀀스를 반복하는 작업입니다. 유효성 확인의 예로는 정상적으로 배포 되어야할 속성 (예: 생년월일)을 균일하게 배포하거나 데이터에 대한 검사를 통해 필드의 정확성을 확인하는 것입니다.