[고객 사례] 크로스체크 크롤링 활용 사례


Original Article by webhose.io Translated by Joseph Kim


가짜 뉴스와의 전쟁




배경설명


크로스체크는 로드아일랜드주 프로비던스 출신의 대학생들이 “가짜뉴스 타파”라는 사명을 안고 시작한 스타트업입니다.


크로스체크가 개발한 시제품은 사용자가 읽고 있는 모든 기사의 '교차 확인 점수(Cross Check Score)'를 볼 수 있는 브라우저 확장 기능입니다. 점수가 높다는 것은 이 콘텐츠가 신뢰할만한 여러 뉴스 기사와 일치함을 의미하고, 반대로 점수가 낮다는 것은 주어진 웹 컨텐츠 문맥에서 일치하는 뉴스 기사가 없음을 의미합니다. 브라우저 확장기능 출시 후, 크로스체크는 해당 기술을 활용하여 기업인, 언론인, 학생들이 컨텐츠의 진위를 가려내는 데 도움이 되는 제품을 개발할 계획입니다.



목적: 뉴스 데이터 수집을 위한 확장 가능하고 안정적인 인프라 구축


크로스체크의 핵심 기술은 주어진 기사를 데이터베이스에 저장되어 있는 수천 개의 실시간 뉴스 기사들과 상호 참조(cross-referencing)하여 자체 설계한 알고리즘이 콘텐츠의 신뢰성을 교차 확인 점수로 계산하여 나타내는 것입니다. 초기 개발 과정에서 이 팀이 당면한 과제 중 하나가 이러한 데이터베이스를 구축하는 것이었습니다.


크로스체크는 그들이 개발한 소프트웨어를 활용하기 위해 알고리즘 분석이 가능한 형식으로 된 방대한 양의 뉴스 기사들을 수집해야만 했습니다. 웹 상에 있는 수천 개의 사이트를 크롤링하여 컴퓨터가 판독 가능한 형식의 포맷으로 변환한 데이터를 저장하는 기술이 요구되었지만, 초기 단계의 스타트업 입장에서는 이러한 인프라를 구축하는 데 필요한 리소스가 턱없이 부족했습니다.


정형 데이터에 대한 온디맨드 액세스의 필요성을 깨달은 크로스체크는 저희 팀에게 데이터 수집 의뢰를 맡겼고, 최종 결과물인 방대한 양의 뉴스 기사 데이터를 API로 전송 받아 데이터베이스를 구축했습니다. 그 결과, 크로스체크는 수집된 데이터를 활용하여 자신들의 아이디어를 실현시킬 수 있었습니다. 또한, 방대한 양의 웹 데이터를 수집하는데 있어선 전문 업체의 도움을 받는 것이 효과적이라는 데에 동의했습니다.



결과: 광범위한 웹 데이터에 의한 실시간 뉴스 검증


뉴스 데이터 피드를 자신들의 소프트웨어에 통합시킴으로써, 크로스체크는 수천 개의 뉴스 기사들을 실시간으로 공급받을 수 있게 되었습니다. 시스템은 주어진 기사에서 핵심 텍스트, 인용구, 통계치 등의 데이터를 뽑아 데이터베이스에 저장되어 있는 수천 개의 뉴스 기사들과 상호 참조하여 알고리즘이 자동적으로 교차 확인 점수를 계산해 출력할 수 있게 되었습니다.


크로스체크 플랫폼은 자사의 뉴스 데이터 피드와 RESTful API를 기반으로 합니다. 이를 통해 정형화된 뉴스 컨텐츠에 폭넓은 자동 접근이 가능해져 컨텐츠의 알고리즘 분석을 통한 출처의 신뢰도 결과를 산출할 수 있게 되었습니다.


크로스체크는 올해 3월에 첫 번째 소프트웨어를 상용화 하였고, 앞으로 미디어 모니터링과 공공 부문을 비롯한 다양한 분야와 플랫폼에 제품을 확대할 계획입니다.


========================= 스파이더킴 (www.spiderkim.com) 웹크롤링, 웹스크래핑, 웹데이터 수집, 빅데이터에서 최고의 서비스를 제공합니다. 지금 바로 홈페이지를 방문하셔서, 문의 요청해 주십시오!



조회 37회

​고객센터

Tel: 02-596-8900  Fax : 02-6930-5709

10시 - 오후 7시(토, 일요일 및 공휴일은 휴무)

개인정보관리책임자 : 황재준   상호 : 유펜솔루션   대표자 : 김재훈   사업자등록번호 : 426-86-00939
주소 : (본사)대전광역시 유성구 엑스포로446번길 38, 3층 302호 / (지사 및 연구소)서울시 성동구 연무장 15길 11, B동 2층
​ⓒ 2019 UpennSolution Co., Ltd. All rights reserved.