[데이터 정의] 데이터가 무엇이며, 중요하게 여겨지는 까닭은?


Original Article by Import.io Translated by Joseph Kim


데이터 - 컴퓨터가 처리할 수 있는 형태로 변환된 의미있는 정보(숫자, 단어, 측정값, 관찰값 등)의 모음


여러분이 어떤 산업에서 일하든, 관심사가 무엇이든 간에 "데이터"의 중요성이 부각되지 않는 곳은 아마 없을 겁니다. 오늘날, 데이터는 질병 치료, 기업의 수익 증대, 타겟 광고의 대상 선정, 안전한 건축 설계 등 안 쓰이는 곳을 찾아보기 어려울 정도로 폭넓은 분야에서 활용되고 있습니다.


흔히들 데이터를 정보와 같은 의미로 사용합니다. 하지만 컴퓨팅과 비즈니스(흔히 빅데이터와 관련된) 세계에서는 데이터를 기계가 판독 가능한 정보로 정의합니다. 이것은 사람이 인식할 수 있는 정보와 반대되는 개념입니다.



Humans vs Machines


사람이 인식할 수 있는 비정형 데이터는 사람만이 해석하고 학습할 수 있는 정보를 의미합니다. 이를테면, 사진이나 글의 본문 속에서 의미를 찾아내는 것과 같은 것이죠.


기계가 판독할 수 있는 정형 데이터는 컴퓨터 프로그램이 처리할 수 있는 정보를 의미합니다. 프로그램은 데이터 처리를 위한 일련의 명령어들입니다. 그리고 데이터는 일련의 프로그램에 적용되어 소프트웨어가 됩니다. 프로그램이 데이터에 있는 명령어들을 이해하려면, 데이터는 일정한 구조를 지녀야만 합니다.


정형 데이터 활용에 관한 한 사례로, 미국 해군 장교 매튜 모리(Matthew Maury)는 수년 동안 수기로 작성된 항해보고(human-redable)를 조사한 뒤 해양·해상기상의 자료를 분류하고 통계를 작성하여 항해지침과 해상기상 참고도(machine-redable)를 편찬함으로써 해군의 항해일수를 33% 줄일 수 있었습니다.



Data in the news


포브스 기사와 맥킨지 보고서에 나타난 정형 데이터에는 몇 가지 눈길을 끄는 유형들이 있습니다.


Personal data


흔히 개인정보라 불리는 개인 데이터는 한 사람을 특정할 수 있는 어떠한 정보를 의미합니다. 주로 이름, 주소, 나이, 전화번호 등 신원정보가 포함됩니다. 이 정보는 유출(애슐리 매디슨 스캔들, 우버 불륜 폭로)의 위험성을 늘 안고 있기 때문에 철저한 보안이 필요합니다.


기업들에게 있어 고객의 개인 데이터는 매우 중요합니다. 기업들은 웹 사이트를 통해 고객의 가입을 유도하는데, 가입 과정에서 고객의 이메일 주소나 신용카드 세부 정보 기입을 요구합니다. 기업들은 수집한 개인 데이터를 바탕으로 고객에게 맞춤형 서비스를 제공하여 지속적으로 자사의 서비스 및 제품을 이용하도록 합니다. 일례로, 페이스북은 방대한 양의 고객 데이터를 비슷한 유형(성별, 연령 등)으로 묶어 해당 고객군에게 맞는 컨텐츠를 서비스 화면에 노출시킵니다.


이 밖에, 개인 데이터는 객관화된 형식으로 변환되어 광고와 경쟁력 분석을 위한 목적으로 기업에 판매되기도 합니다. 우리가 전혀 알지 못하는 업체의 타겟 광고에 노출되어 있다면, 이미 우리의 개인 데이터가 해당 업체에 판매되어 사용되고 있다는 증거입니다.


Transactional data


트랜잭션 데이터는 광고 클릭, 상품 구매, 특정 웹 사이트 방문 등 고객이 어떠한 행동을 취했을 때 수집되는 데이터를 말합니다.



우리가 방문하는 대부분의 웹 사이트는 구글 애널리틱스, 서드파티 시스템, 또는 자체 내부 데이터 캡쳐 시스템을 통해 트랜잭션 데이터를 수집합니다.


트랜잭션 데이터는 기업에게 있어 매우 중요한 역할을 합니다. 트랜잭션 데이터에는 가변성(variability)이 나타나기 때문에 기업은 고객이 원하는 것과 원하지 않는 것이 무엇인지를 쉽게 파악하여 최상의 품질 서비스를 제공할 수 있도록 운영 시스템을 최적화합니다. 또한 수집된 대량의 데이터 속에서 숨겨진 패턴과 상관 관계를 발견함으로써 경쟁 우위를 확보하고, 보다 효과적인 마케팅을 통해 매출을 증대시킵니다.


Web data


웹 데이터는 인터넷에서 얻을 수 있는 모든 유형의 데이터를 총칭합니다. 사람들은 경쟁사의 제품, 정부의 공공데이터, 스포츠 경기의 점수 등 웹 상에 공개된(즉, 내부 데이터베이스에 저장되지 않은) 모든 정보를 다양한 목적을 가지고 수집할 수 있습니다.



웹은 기업들이 가장 많은 데이터를 수집하는 공간입니다. 왜냐하면 자체적으로 생산해 낼 수 없는 – 이를테면, 제품의 고객 후기- 데이터에 쉽게 접근 가능하기 때문입니다. 뛰어난 사업모델을 만들고 중요한 의사결정을 내릴 때, 기업은 조직 내·외부에서 일어나는 일과 더 넓은 시장에서 일어나는 일에 대한 정보를 필요로 합니다.


웹 데이터를 활용하여 경쟁사 동향 모니터링, 잠재 고객 발굴, 영업망 관리, 거래선 창출 등 다양한 작업을 수행할 수 있습니다. 비정형 데이터를 정형 데이터로 변환하는 기술이 향상됨에 따라 이러한 용도로 활용되는 사례가 점점 증가하는 추세입니다.


방대한 양의 웹 데이터를 수집하기 위해서는 웹 크롤러를 사용해야 합니다. 경우에 따라 개발자가 직접 만들어 사용하지만, 보통은 서드 파티가 만든 크롤러를 사용하거나 외주 개발을 맡깁니다. 해외에서는 웹 크롤러를 웹 스크래퍼라 부르는데, 이는 사용자로부터 URL을 입력받아 JASON 피드 또는 CSV 같은 구조화된 형식으로 데이터를 가져오는 컴퓨터 프로그램입니다.


Sensor data


센서 데이터는 서로 연결된 지능형 사물들에 의해 생성되는 데이터를 가리키는 말로, 흔히 사물 인터넷(IoT)이라고 부릅니다. 센서 데이터 수집 도구에는 심박수를 측정하는 스마트 워치부터 날씨를 측정하는 외부 센서가 있는 건물까지 매우 다양합니다.


지금까지 센서 데이터는 기업의 운영 시스템을 최적화하는데 주로 사용되었습니다. 예를 들어, 에어아시아는 제너럴 일렉트릭사의 센서와 기술을 사용하여 운영 비용을 줄이고 항공기 출항을 늘리는데 3천~5천만 달러를 절감했습니다. 센서 데이터는 기계의 생산성을 높이기 위한 효율성 극대화 작업에, 또는 유지보수가 필요한 상황에서 알림을 받게 하는 데에도 사용될 수 있습니다.



When does data become Big Data?


엄밀히 따지면, 위의 언급된 모든 유형의 데이터는 빅데이터에 기여합니다. 데이터를 "크게" 만드는 공식 같은 건 없습니다. 이 용어는 단순히 수집량의 증가와 다양한 유형의 데이터를 의미합니다.


전 세계에서 만들어지고 있는 정보가 속속들이 온라인으로 이동하고 디지털화됨에 따라, 데이터 분석이 이전보다 훨씬 더 용이하게 되었습니다. 소셜 미디어, 온라인 서적, 음악, 영상, 그리고 센서의 등장으로 셀 수 없이 많은 양의 데이터가 생산되며 분석의 원천 소스로 활용되고 있습니다.


이전의 분석 소스로 활용된 “정규 데이터”는 그 양과 복잡성이 그렇게 까다롭지 않았습니다. 하지만 오늘날의 빅 데이터는 수집, 저장, 그리고 분석에 필요한 도구들이 엄청난 양의 데이터와 복잡성을 수용할 수 있도록 요구합니다. 최근에는 데이터 처리 인프라가 잘 갖추어져 있는 덕분에 더 이상 샘플링에 의존할 필요 없이 데이터 집합 전체를 처리하여 우리 주변의 세계를 훨씬 더 완벽하게 파악할 수 있게 되었습니다.



The importance of data collection


데이터 수집과 데이터 마이닝의 차이점은 데이터를 수집하고 측정하는 과정에 있습니다. 데이터 수집은 데이터를 분석해 양질의 결과물을 뽑아내는 단계 이전에 선행되어지는 작업입니다. 이러한 작업은 주로 소프트웨어를 이용하여 진행되며, 다양한 수집 절차, 전략, 그리고 기술을 요합니다. 대부분의 데이터 수집은 전자 데이터(electronic data)가 주를 이루는데, 이러한 유형의 데이터 수집은 아주 많은 양의 정보를 담고 있기에, 보통 빅데이터의 영역으로 넘어가는 경우가 많습니다.


그렇다면 데이터 수집이 중요한 이유는 무엇일까요? 기업의 경영진은 철저한 조사와 분석을 통해 의사결정에 필요한 고품질의 정보를 얻고자 합니다. 데이터를 수집하지 않는다면 회사는 시대에 뒤떨어진 방법으로 의사결정을 내릴 수 밖에 없습니다. 대신 데이터 수집을 통해 추세를 파악하고, 문제에 대한 해답을 발견하며, 새로운 통찰을 얻게 됩니다.


The sexiest job of the 21st century?


데이터 수집 후, 모든 데이터는 정제, 분석, 인사이트 도출까지의 과정을 거쳐야만 제 기능을 하게 됩니다. 여러분이 어떤 종류의 데이터를 언급하든 간에, 이 전 과정을 담당하는 사람들을 우리는 데이터 과학자(data scientist)라 부릅니다.


오늘날 데이터 과학자는 세계에서 가장 핫한 직업으로 손꼽힙니다. 구글의 전 임원은 "데이터 과학자야 말로 21세기의 가장 섹시한 직업"이라고 말하기도 했습니다.


데이터 과학자가 되기 위해서는 컴퓨터 과학, 모델링, 통계, 분석, 수학 등의 기초를 탄탄히 쌓아야 합니다. 그래야만 기업이 당면한 복잡한 문제의 해결책을 찾고 비즈니스 프로세스를 정상화할 수 있습니다. 이러한 점이 바로 타직군의 사람들과 구별되는 데이터 과학자만의 특징입니다.


========================= 스파이더킴 (www.spiderkim.com) 웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다. 지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!


조회 7회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.