• mksong8

[데이터 수집] 웹스크래핑으로 수집한 데이터의 품질에 관하여



웹스크래핑으로 데이터를 수집할때, 중요성을 간과했다가 일이 커지면 후회하게 되는 한가지가 있습니다. 그것은 바로 데이터 품질 입니다.

웹데이터를 수집할 때 고품질의 데이터를 얻을 수 있느냐 없느냐에 따하 프로젝트의 성패가 좌우되기도 합니다. 웹에서 수집하는 데이터의 양이 방대하거나 특히 데이터의 정확도가 매우 중요한 경우 그렇습니다.

고품질 데이터는 프로젝트 성공의 열쇠가 되거나 경쟁사가 갖지 못한 비장의 무기가 될 수 있습니다.

이 글에서는 웹에서 수집한 데이터의 품질을 보증하기 위한 방법에는 무엇이 있는지 알아보도록 하겠습니다. 데이터 품질 보증 프로세스를 통해 방대한 양의 고객 데이터를 검증하고 고객에게 고품질의 데이터를 전달할 수 있을 것입니다.​




데이터 품질의 중요성

비즈니스 관점에서 보자면 웹스크래핑 프로젝트에서 가장 중요한 것은 수집된 데이터의 품질입니다. 지속적으로 고품질의 데이터를 수집할 수 없다면 목표한 비즈니스 성과를 달성할 수 없습니다.

빅데이터와 인공지능, 데이터 기반으로 의사 결정을 해야하는 시스템에서 고품질의 데이터는 필수 요소입니다. 그리고 몇몇 기업들은 웹에서 수집한 데이터를 실시간으로 이용하기 때문에 수집 데이터 품질관리는 매우 중요합니다.

소규모 웹스크래핑 프로젝트에서는 데이터 정확도가 떨어지면 손이 많이 가긴 하지만 수정이 가능합니다. 그러나 하루에 수십만 또는 수백만 웹페이지를 스크래핑하여 데이터를 수집하고 있다면 데이터의 정확도나 수집률이 낮아지면 비즈니스에 큰 영향을 줄 위협적인 결과를 초래할 수도 있습니다.

그렇기 때문에 웹스크래핑 프로젝트를 시작할 때에는 항상 고품질 데이터 수집을 위한 방법에 대해 먼저 고민해야 합니다.



데이터 품질 보증

웹데이터 수집을 할 때 고품질의 데이터를 얻는 것이 프로젝트 성패를 좌우할 만큼 중요하다는 것을 알고 있습니다. 그러나 고품질 데이터를 얻기 힘들고 복잡한 이유가 무엇일까요?


바로 다음의 이유들 때문입니다.

1. 요구사항 - 데이터 품질을 높이기 위한 첫 단계는 명확하게 수집할 데이터의 요구사항을 정의하는 것입니다. 필요한 데이터, 최종 데이터의 포맷 및 정확도를 사전의 정의할 수 없다면 수집된 데이터의 품질 평가 또한 불가능 합니다. 사전에 고객사와 충분하게 협의하여 고객의 요구사항을 정확하게 정의하는 것이 중요합니다. 다음과 같은 질문을 고객사에게 질의하는 것이 좋을 것 같습니다.

"데이터 품질이 5% 낮아지면 데이터엔지니어 또는 다음 프로세스 시스템에 미치는 영향이 어느정도 될까요?"

수집하려는 데이터에 대한 품질 목표를 현실적이고 달성 가능하게 정의하려면 명확하게 요구사항을 지정하고 테스트 또한 가능해야 합니다. 특히 다음의 물음에 해당할 경우는 더 그렇습니다.

- 데이터를 수집하고자 하는 웹사이트가 다양한 페이지 레이아웃을 갖고 있습니까? 즉, 웹사이트의 페이지 레이아웃이 다양합니까?

- 원하는 데이터 필드수가 많습니까? (15개 이상)

- 수집해야 할 데이터의 레코드 수가 많습니까? (수십만 개 이상)

- 데이터를 수집하고자 하는 웹사이트의 카테고리가 많으나 동일하게 구성되어 있습니까?

- 웹사이트가 카테고리별로 구성되어 있고, 사용자는 카테고리를 구분할 수 없습니까? (수동 검사르 하고 교차 참조를 해야 하는 경우)

- 지역 정보(우편번호, 도시별) 를 바탕으로 데이터를 수집해야 합니까?

- 모바일 앱으로 데이터를 수집해야 합니까?

2. 효율성 - 웹스크래핑의 장점은 다른 데이터 수집 기술과는 달리 확장과 수정이 용이합니다. 그러나, 수동으로 데이터의 일부분만 검사하거나 눈으로 웹페이지와 수집한 데이터를 검사하는 경우는 효율성이 고려 대상이 아니라는 반증입니다.

3. 웹사이트 구조의 변경 - 데이터가 제대로 또는 수집되지 않거나 정확도가 떨어지는 이유는 대부분 수집하고자 하는 웹사이트의 전부 또는 일부분의 구조가 변경되었기 때문입니다. A/B 분할 테스트, 계절별 프로모션, 지역/언어의 변화 등 큰 규모의 웹사이트들은 지속적으로 변화를 주기 때문에 웹스크래핑으로 데이터 수집이 지속적으로 되지 않을 수도 있습니다. 그렇기 때문에 지속적인 모니터링과 유지보수가 이뤄지지 않으면 웹스크래핑으로 수집한 데이터의 유실율과 정확도는 점점 떨어질 수 밖에 없습니다.

4. 시맨틱스 - 수집된 데이터의 의미를 검증하는 것은 여전히 어렵습니다. 많은 기업들이 웹데이터의 의미를 검증하는데 도움이 되는 기술을 개발하고 있지만 완벽한 시스템은 아직 없습니다. 결과적으로 수동적인 데이터 QA 작업또한 필요합니다.

웹데이터 자동화 QA 시스템 구축시 고려해야 하는 사항

수집한 데이터의 범위는 물론 품질과 정확성 측면에서 높은 수준의 기준이 요구됩니다.


데이터 품질 및 정확성

- 올바른 데이터가 수집 되었는지 검증합니다. (스크랩 된 필드는 정의된 요소에서 올바르게 수집되었는지)

- 수집한 데이터를 사후 처리하여 요구사항에 맞는 포맷으로 표시합니다. ( 데이터 형식, 문자의 추가/삭제 등)

- 필드 이름은 고객이 지정한 필드 이름과 일치 시킵니다.

적용 범위

- 품목 범위 : 수집 가능한 모든 데이터가 수집 되었는지 확인합니다. (항목이란 각각의 제품명, 기사 등)

- 필드 적용 범위 : 수집 가능한 모든 필드의 데이터가 수집되었는지 확인합니다.


웹스크래핑 요구사항의 규모, 웹사이트의 복잡 정도에 따라 자동 데이터 정제에는 아래와 같이 두가지 방법으로 분류됩니다.

1. 프로젝트 기반 자동화 테스트 프레임워크 - 모든 웹사이트에서 데이터 수집이 가능하도록 특정 프로젝트를 위해 사용자가 정의한 자동화 프레임워크를 개발합니다. 스크래핑 요구사항이 복잡하거나 엄격한 법칙에 따라 상호 종속적으로 스크래핑이 되어야 하는 경우 이 접근 방식이 좋습니다.

2. 일반 자동화 테스트 프레임워크 - 웹스크래핑으로 수집한 데이터가 비즈니스의 핵심이 되고 다양한 데이터 유형의 웹페이지 데이터를 수집하기 위해 끊임없이 새로운 프로그램을 개발해야 하는 경우에는 일반 테스트 프레임워크가 좋습니다.


이 두가지를 모두 고려해 보았을 때, 요구 사항이 많은 고객을 위해서는 프로젝트 기반 테스트 자동화 프레임워크를, 일반적으로 수집한 웹데이터의 유효성을 검사하는데는 일반 자동화 테스트 프레임워크를 사용해야 한다고 할 수 있습니다.




웹데이터 수집 모니터링

웹데이터 품질 보증 시스템이 갖춰야 할 또 한가지 특징은 실시간으로 수집하는 데이터의 상태와 결과를 모니터링 할 수 있는 안정적인 시스템을 구축해야 한다는 점입니다.

웹데이터 수집 모니터링 시스템은 데이터 수집이 완료 된 직후에 품질 문제의 원인을 바로 알아낼 수 있어야 합니다. 자동으로 웹데이터 수집 상태를 모니터링 할 수 있을뿐만 아니라 미리 정의된 데이터의 구조, 데이터 형식과 수집된 데이터의 값을 실시간으로 검증합니다. 또한 데이터 수집을 하면서 수집 차단, 에러, 누락등을 모니터링 합니다. 수집된 데이터를 검증하는 것 뿐만 아니라 데이터 수집이 잘못되고 있다는 것이 모니터링 되면 실시간으로 웹데이터 수집을 중지시킬 수도 있습니다.

웹데이터 수집과 정제에 관해 더 궁금하신 점이 있으시면 유펜솔루션에 문의해 주세요. 감사합니다.


조회 43회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.