[특집]빅데이터 선거전략, 현실적 적용을 위해서는?

부의장동향

> 의장단동향 > 부의장동향
[특집]빅데이터 선거전략, 현실적 적용을 위해서는?

기사 작성일 2015-12-22 09:34:48 최종 수정일 2015-12-22 09:34:48
- url이 복사 되었습니다. Ctrl+V 를 눌러 붙여넣기 할 수 있습니다.
- facebook
- kakaostory
- kakaotalk
- twitter
- google+
오바마의 빅데이터 선거운동
2012년 재선에 도전한 미국 오바마 대통령의 선거운동 캠프에는 “동굴”팀이라는 조직이 있었다. 그런 이름이 붙여진 것은 사무실이 그저 단순한 배치 때문이었는지 아니면 극도의 보안 때문이었는지 창문이 하나도 없어서 불을 켜지 않으면 컴컴한 방에서 50명의 괴짜들이 모여서 일했기 때문이다.

이 팀의 정식 이름은 “Analytics Team” 우리 말로 하면 “데이터 분석 팀”이다. 이 팀에 속한 50명의 데이터 과학자들은 미국 민주당 전국위원회에서 그동안 축적해놓은 미국 유권자 데이터베이스에 대해서 다양한 데이터 마이닝 기법으로 철저하게 분석하였다. 그리하여 유권자 1억5천명 개개인에 대해서 ‘오바마 지지 확률’, ‘투표 참여 확률’, ‘설득가능 확률’을 예측하여 점수를 매기고 선거운동의 최종현장에서 전화홍보와 호별방문을 하는 자원봉사자와 선거운동원들의 스마트 폰에 어느 집을 방문하여 누구와 무슨 이야기를 할지를 자동으로 일일이 알려주었다.

미국과 한국의 차이
SNS 분석으로는 ‘매크로’한 집단 트렌드를 알 수 있지만 ‘마이크로’한 개인 성향을 파악할 수는 없다. 마이크로 타겟팅을 위해서는 유권자 데이터베이스를 구축하고 분석해야만 한다.

물론 한국에서는 몇 가지 사유로 이러한 빅데이터 선거운동이 불가능하거나 매우 어렵다. 첫째, 개인정보보호법의 차이이다. 미국의 법률은 ‘선택적 거부’(Opt-Out) 방식으로 개인이 거부할 경우에만 개인정보의 사용이 금지된다. 반면에 한국의 법률은 ‘선택적 동의’(Opt-In) 방식으로 개인이 동의할 경우에만 개인정보의 사용이 금지된다. 현재 법규대로라면 국회의원들이나 후보자들이 소위 ‘지인 카드’를 만드는 것도 본인 동의가 없다면 개인정보보호법 위반의 소지가 있다.

둘째, 선거관리위원회가 공개하는 정보의 범위가 다르다. 선관위에서 유권자 등록시 당원(=정당 지지자) 등록을 받게 되어있어서 민주당원, 공화당원, 무당층이 누구인지 알 수 있다. 게다가 각각의 선거마다 어느 유권자가 투표에 참여하였는지 공개되기 때문에 유권자의 투표 적극성/소극성을 알 수 있다.

셋째로, 무엇보다도 정당의 데이터 축적 수준이 다르다. 미국에서는 1960년대부터 종이 카드로 당원 및 유권자 파일을 꾸준히 축적하여 오다가 공화당은 1990년대부터, 민주당은 2000년대 들어서 이를 전산화하였다. 반면에 한국에서는 정당이 이합집산하기도 하고 당원 기록이 유실되기도 하고 각종 정당행사 및 활동에 참여한 사람에 대한 기록은 전무한 상황이다. 데이터는 10년 넘게 꾸준하게 모아야 의미있는 수준의 규모로 축적할 수 있는 거시지 어느 한 순간에 갑자기 굴러들어오는 것이 아니다.

넷째로, 빅데이터 선거운동이 가능하려면 개인맞춤형 선거운동을 해야 한다. 미국에서는 호별방문과 홍보물 발송을 자유롭게 허용하는 반면에 한국에서는 현행 선거법 상 이메일과 전화를 제외하고는 유권자를 개별적으로 접촉할 수가 없다. 홍보물도 선관위에서 후보별로 1가지 내용의 홍보물만 일괄적으로 그것도 단 1차례 발송한다. 길거리에서 만나는 사람은 그가 누구인지 알 수도 없고 심지어는 그 사람이 유권자인지 그냥 이 곳을 지나가는 타 지역 유권자인지도 알 수가 없다.

한국에서 가능한 빅데이터 선거운동 – 선거지리학과 계층지리학
현재 한국에서 공개된 데이터로 할 수 있는 선거전략은 “마이크로 선거지리학”이다. 현재 분석가능한 최소 단위의 행정구역은 ‘통’이다. 한 통에는 보통 약 700~1,000명의 주민들이 살고 있으며 그 중 유권자는 500~800명이고 이중 400~600명 정도가 실제로 투표에 참여한다. 그중 대체로 양 정당 지지자가 200~300명씩이고 이 중 소극적 지지자가 각기 50~100명 씩이라고 어림셈할 수 있다.

다양한 데이터가 공개되어 있지만 그중 선거에서 가장 활용도가 높은 것은 결국 선관위에서 매번 선거가 끝나면 발표하는 투표구별 역대 선거결과이다. (안타깝게도 지방선거는 2006년부터 행정동별로만 선거결과를 발표하고 있다.) 물론 투표소가 매번 선거마다 동일하게 설치되는 것은 아니고 설사 동일하게 설치되더라도 최소단위 행정구역인 ‘통반’이 변하므로 이를 세밀하게 추적조사하여야 실제로 각 통이 역대 선거에서 어떤 투표 패턴을 보였는지 정확하게 알 수 있다.

이러한 데이터를 분석하여 각각의 통별로 각 당의 핵심지지자들이 몇 %인지, 각 당의 소극적 지지자들이 몇 %인지, 무당층이 몇 %인지 파악할 수 있다. 핵심지지자란 후보를 잘 몰라도 또는 후보가 마음에 안들어도 지지정당 소속이면 무조건 찍어주는 사람을 말한다. 소극적 지지자란 특정 정당을 지지하는 성향은 있지만 그 정도가 약해서 후보가 마음에 안들거나 바쁘다는 이유로 투표소에 안나가는 경우도 종종 있는 사람이다. 그렇다고 소극적 지지자가 반대편 정당의 후보를 찍는 경우는 드물다.

선거운동에서 가장 중요한 것은 바로 소극적 지지자들이다. 소극적 지지자들이 많이 거주하는 지역의 경우 선거운동을 제대로 못할 경우 득표율이 많이 떨어질 수 있고 잘 하면 득표율이 많이 올라갈 수 있다. 반면에 소극적 지지자들이 적게 거주하는 지역의 경우 선거운동을 열심히 해도 일정 정도 고정된 표 이상을 얻기가 힘들며 열심히 하지 않아도 그 이하로도 별로 내려가지 않는다. 선거운동에서는 한정된 시간, 자금, 인력을 어떻게 배치하여야 가장 득표에 효과적일지를 고민하게 된다. 이 때 소극적 지지자들과 무당층 유권자들이 어느 통에 가장 많이 모여 있는지를 알 수 있다면 선거자원의 투입 대비 산출을 극대화할 수 있다. 이를 ‘지리적 타겟팅’(Geo-targeting)이라고도 한다.

그 다음으로 활용가능성이 높은 것은 통계청에서 5년마다 발표하는 인구주택총조사 데이터이다. 이 데이터는 통보다도 더 작은 500명 단위의 “집계구”별로 조사된 결과이다. 각 집계구별로 연령,성별, 교육정도별 인구수는 물론 거주형태, 주택 소유형태, 가구구성 등 자세한 내용을 알 수 있다. 이러한 변수들을 적절히 조합하면 선거에서 유의미한 사회계층이 어디에 상대적으로 많이 거주하고 있는지 알 수 있다. 예를 들어서 연령이 ‘40~55세’인 사람들 중에서 ‘4년제 대학 학사 졸업’인 사람들만을 따로 추리면 대체로 80년대에서 90년대 초에 대학을 다닌 사람들 즉 ‘486 계층’이라고 이름붙일 수 있는 집단이 어디에 많이 살고 있는지 알 수 있다.

마이크로 타겟팅
물론 한국에서도 제한적인 범위 내에서 개인 유권자를 대상으로 하는 마이크로 타겟팅이 가능할 수도 있다. 필자는 최근 여러 종류의 설문조사 응답 원자료를 토대로 정당지지자 예측분석 모델을 개발 중에 있다. 사용하는 변수에 따라서 다양한 모델의 방정식을 만들어낼 수 있었는데 개별 유권자의 특정 정당 지지 여부를 높게는 85%, 낮게는 65% 정도까지 예측할 수 있었다.

문제는 이러한 모델의 개발이 아니라 이러한 모델을 적용할 수 있는 유권자 데이터베이스의 구축이다. 지금부터 전당적으로 이러한 데이터베이스를 밑바닥부터 차곡차곡 축적해가지 않는 한 2017년 대선에서 사용할 수 있는 데이터가 없게 되며 제아무리 정확한 유권자 성향 예측모델을 개발한다고 하더라도 무용지물이 된다. 또한 자유로운 호별방문과 홍보물 발송 등 이를 실제로 적용할 수 있는 개별 유권자 접촉 수단이 확대되지 않는다면 현재로써는 매우 제한적으로만 개인맞춤형 선거운동을 할 수 밖에 없다.

빅데이터 선거운동의 명암
마이크로 타겟팅을 활용한 선거운동에 대해서는 미국에서도 갑론을박이 진행중이다. 이를 부정적으로 평가하는 측에서는 첫째로, 프라이버시 침해를 문제 삼는다. 아무리 추론과 확률이라고 하더라도 내 정치적 견해를 예측해낼 수 있다는 것은 마치 과거 소련의 KGB나 소설 ‘1984’에 나오는 사상검찰과 같은 오싹한 느낌이 들게 만든다.

둘째로, 정당의 가장 중요한 구성원인 적극적 지지자들은 내버려둔 채 정당에 대해서 소극적인 지지를 표하는 유권자들만을 쫓아다니는 문제가 있다고 비판한다. 이를 ‘유기’(遺棄)(Leave-Out) 효과라고 부르면서 정당 민주주의에 부정적 영향을 미칠 것이라고 한다.

하지만 한편에서는 이러한 마이크로 타겟팅이 민주적 제도의 기반을 확장시켜서 그 정당성(legitimacy)을 공고하게 해준다고 긍정적으로 평가한다. 투표참여율이 낮아질수록 그러한 선거에 의해 선출된 정부의 정당성은 낮아진다. 투표참여율을 높이는 가장 좋은 방법은 바로 투표에 참여할 동기를 높이는 것인데 이는 내가 개인적으로 관심있는 정책에 대해서 정당과 후보가 어떤 대안을 제시하는지를 친절하게 알려주어서 마음에 맞는 후보를 당선시키고자 투표장에 나가도록 하는 것이다.

이처럼 개별 유권자의 관심에 귀를 기울이는 노력을 오바마 캠프에서는 ‘마이크로 리스닝’(micro-listening)이라고 표현하였다. 게다가 ‘저 사람은 이러저러할 것이다’라고 누군가에 대해서 추론하는 것은 인간의 본질적인 사고행위이고 우리는 이를 매순간 행하는 것인데 이를 금지하는 것은 또다른 사상검찰이나 다를 바 없다고 주장한다.

우리나라에서도 개인정보보호법 개정과 관련하여 일부에서는 개인식별정보를 삭제하여도 나머지 개인정보들을 조합하면 ‘재식별’의 위험이 있다고 문제제기하고 있지만 이는 정확히 말하면 ‘재식별’이 아니라 ‘확률적 추론’이다. 어떤 사람에 대해서 75% 확률로 추론한다는 것은 25%의 오판 확률이 있다는 것을 의미하기에 그 사람이 누군지 ‘식별’해냈다고 할 수 없는 것이다.

한국에서도 (SNS 선거운동이 아니라) 빅데이터를 활용한 선거운동은 이제 시작이라고 할 수 있다. 정치적, 사회적으로 다양한 측면에서 이에 대한 논의가 활발해져서 정치와 선거의 선진화에 도움이 되는 방향으로 나아가야 할 것이다. 제도적으로 공개할 것은 공개하고 규제할 것은 규제하여 불필요한 낭비와 사생활 침범을 방지하는 바람직한 선을 찾아가기를 바라마지 않는다.

고한석 / 빅토리랩 대표
- 이 저작물은 크리에이티브 커먼스 코리아 표시
  라이센스에 의해 이용하실 수 있습니다.
- 저작자 표시 : 적절한 출처와 해당 라이센스 링크를 표시하고 변경이 있을 경우 공지해야 합니다.
- 비영리 : 이 저작물은 영리 목적으로 이용할 수 없습니다.
- 변경금지 : 이 저작물을 리믹스, 변형하거나 2차 저작물을 작성하였을 경우 공유할 수 없습니다.
재미있고 유익한 국회소식

[특집]디지털 선거시대, 여야는 ‘페이스북’에 집중한다

[특집]뉴미디어 선거의 특징과 주요 쟁점

[특집] 뉴미디어를 활용한 선거 전략의 변화

[특집] 인터넷 - 야누스의 얼굴, 성숙한 민주시민의식이 답이다