[저널리즘의 미래 66] 가디언의 새로운 데이터 저널리즘 툴 스워마이즈(Swarmize)

10월 24일 가디언이 데이터 저널리즘 플랫폼 스워마이즈(Swarmize)를 공개했다. Swarm(떼)과 접미사 ize(되게 만들다)를 합쳐 ‘끌어 모으다’라는 뜻을 가진 새로운 툴 스워마이즈는 데이터 저널리즘 시대의 저널리스트들이 그 동안 데이터 수집 과정에서 겪었던 많은 어려움을 덜어줄 것이다. 가디언은 6월에 나이트 뉴스 챌린지(Knight News Challenge)의 펀딩을 받아 4개월 동안 스워마이즈를 개발했고 현재는 사내에서 알파 버전으로 활용하고 있다. 이전에는 구글독스(Google Docs)의 스프레드 시트를 이용한 설문으로 데이터를 수집했지만, 기술상의 한계가 있었다. 실제로 가디언의 뉴 디지털 비즈니스 책임자 맥칼리스터는 Journalism.co.uk와의 인터뷰에서 “가디언을 비롯한 많은 뉴스 기관들이 데이터 수집을 위해 구글독스를 사용한다. 무료고, 사용법이 쉽기 때문이다. 하지만 부족한 점이 많다. 데이터저널리즘이 지난 몇 년간 상당히 발전한 데에 비해, 구글독스는 사람들이 원하는 수준의 일을 하기에 제약이 많다.”라고 말했다. 가디언이 스워마이즈를 개발하게 된 결정적 이유는 개발자 톰 아미타쥬와의 인터뷰에서 볼 수 있다. “우리는 저널리스트들이 데이터 클리닝에 가장 오래 시간을 투자한다는 피드백을 많이 받았다. 잘못된 우편번호나 번호로 응답해야 하는 질문에 엉뚱한 답을 써넣은 것을 고치는 등의 일이다.”

스워마이즈의 기본적인 매커니즘은 다음과 같다. 먼저 사용자가 스웜(swarm) 즉, 서베이를 만든다. 이때 각 질문 별로 응답의 필드 타입을 지정할 수 있다. 이를 통해, 응답자가 질문 별로 적합한 형식 혹은 단위로 응답을 해야 제출이 가능하다. 이후 스웜의 시작과 종료 시간을 설정한다. 이 스웜은 다른 사용자들이 편집 혹은 데이터를 열람할 수 있도록 공유할 수 있다. 스웜이 열리고, 팀 멤버들까지 볼 수 있게 되면, 모든 준비가 끝난 것이다. 이제 스웜의 embed 코드를 따서 웹페이지나 SNS을 통해 대중에게 배포한다. 사람들이 서베이에 응답하는 동안 결과창에 표로 실시간 결과가 사용자는 파이차트나 타임시리즈 그래프를 통해 데이터의 분포를 파악할 수 있다. 스웜이 종료되고 데이터가 모이면 csv파일로 다운을 받아 통계 분석 프로그램을 사용한 더 정교한 분석이 가능하다. 그리고 한 번 사용한 스웜은 복제가 가능하기 때문에 동일한 형식의 스웜을 재활용할 수 있다.

요약하면, 스워마이즈는 저널리스트가 필요한 데이터를 정확한 형식으로 수집하여 원하는 정보로 가공할 수 있게 해주는 툴이라고 할 수 있다. 스워마이즈 사용자들이 가질 수 있을 것으로 보이는 차별적 이점은 다음과 같다.

1. 데이터 클리닝에 드는 비용과 시간의 절감
스워마이즈는 응답 필드 타입의 사전 설정이 가능하다. 예를 들어, 응답자의 우편 번호를 묻는 질문에는 반드시 숫자로 답을 입력해야 제출이 가능하다. 그리고 필요한 경우, 숫자 타입의 응답은 최소갑과 최대값을 설정할 수 있다. 질문 하단에는 내용에 대한 추가 설명과 입력할 수 있는 답의 예시를 제시하여, 인터넷 설문의 약점을 보완한다. 이 결과, 저널리스트들은 분석을 하기 위해 엉뚱한 값을 수정하고, 잘못된 데이터를 삭제하는 일련의 과정을 줄일 수 있다.

s1

2. 리얼타임 피드백과 양적 분석
스워마이즈 홈페이지에 있는 활용 사례 중 하나는 스코틀랜드 독립에 대한 TV토론이 방영되고 있는 도중 어느 패널의 말에 동의하는지 웹페이지를 통해 설문을 한 것이다. 이 과정에서, 파이차트를 통한 비율 비교와 타임시리즈 그래프를 통한 시간경과에 따른 시청자들의 의견 변화를 파악할 수 있었다. 구글 스프레드 시트도 실시간 경과 업데이트를 제공하지만, 시간경과에 따른 변화량을 파악할 수 있다는 점에서 차별성을 가지며, 리얼타임 수집뿐만 아니라 대략적인 리얼타임 분석이 가능해진다.

s4grapdh

3. 대량 데이터의 자동 수집과 타임시리즈 분석
스워마이즈의 데이터 저널리즘 툴로서 가장 강력한 이점은 스칼라툴(Scala tool)을 사용한 기존 데이터의 자동 입력과 수집이 가능하다는 것이다. 가디언은 스코틀랜드 독립 투표 전후로 트위터 상의 전반적인 찬반에 대한 분위기를 조사했다. 먼저 해쉬태그 ‪#‎indyref‬, ‪#‎voteyes‬, ‪#‎voteno가‬ 투표를 둘러싼 토론의 키워드라는 것을 파악한 후, 위의 해쉬태그를 쓴 사용자들의 데이터를 자동적으로 입력하는 스칼라툴을 스웜에 연동했다. 이때 사용한 스웜의 질문은 ‘당신은 스코틀랜드가 독립국에 되는 것에 찬성합니까?’였고 필드 타입은 예/아니오로 구분했다. 스코틀랜드 독립을 표시한 해쉬태그 ‪#‎indref를‬포함한 트윗들 중, 찬성표를 의미하는 ‪#‎voteyes를‬ 쓴 트윗들은 예라고 응답한 것으로 입력되고, 반대표를 의미하는 ‪#‎voteno라고‬ 쓴 트윗들은 그 반대로 입력되었다. 또한 ‘트위터 스크린 네임이 무엇입니까?’ ‘트윗의 전문은 무엇입니까?’ ‘당신의 트윗은 어디에서 작성되었습니까?’를 질문에 추가하여 응답자에 대한 정보를 수집할 수 있었다. 중요한 사실은 이 모든 과정이 응답자의 직접 입력이 아닌, 스칼라툴을 통해 자동적으로 입력되었고, 한두 시간 만에 가능했다는 점이다.

결과적으로 94000개 이상의 트윗이 수집되었고, 전체적인 찬반 비율과, 복수 응답을 제외한 트위터 사용자들의 분포, 활발한 트위터 활동을 하는 등의 특정 성격을 가진 트위터 유저들의 찬반 비율, 투표 당일 전후로 한 트윗의 변화 패턴을 볼 수 있었다.

yesno그래프1그래프2그래프3

4. 스웜의 복제를 통한 장기적인 타임시리즈 리서치
스웜이 종료되고 나면 같은 스웜을 다시 열 수는 없지만, 같은 형식의 스웜을 새로 시작할 수 있다. 따라서 하나의 이슈를 시기별로 조사하거나, 종단 연구를 할 때 유용하다. 또한 다른 사용자가 사용한 스웜을 템플릿으로 사용할 수 있다.

clone

데이터 저널리즘은 본질적으로 툴에 의해 발전하는 영역이다. 스워마이즈는 가디언이 이 사실을 꿰뚫고 있다는 것을 보여준다. 맥칼리스터의 다음 말이 이를 증명한다. “스워마이즈가 단지 기존 툴의 대체제가 아니라, 쉬운 데이터 수집을 통해 저널리스트들이 새로운 이야기를 할 수 있는 영감을 제공해줄 것이다. 구글 스프레드시트와 구글 폼은 특정한 종류의 데이터 저널리즘을 만들어냈고, 우리는 그것을 통해 가능했던 수준의 상한선을 쳤다고 생각한다”

박지윤

출처
http://alpha.swarmize.com/
https://www.journalism.co.uk/news/guardian-launches-open-source-data-journalism-tool/s2/a562933/

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s