1. 역사
여론조사 역사는 성경에 등장할 정도로 오랜 역사를 자랑하는데요. 그 중 1936년과 1948년이 가장 중요합니다.
1936년은 그동안 수차례 대통령 당선 예측에 성공하던 다이제스트지가 틀린 예측으로 회사가 없어진 년도이고,
1948년은 지금까지 전세계적으로 명성이 드높다고 하는 갤럽 또한 그동안 승승장구하다 대통령 예측에 틀린해입니다.
전자는 "자동차 등록부"에서 추출한 표본이 화근이었고, 후자는 8년전 인구주택총조사에 대한 의존, 완전 랜덤이 아닌
한계적 표본추출이 문제였습니다. (예를 들어서 길거리에 거니는 6명을 그냥 조사했다고 생각하시면 됩니다.)
아무튼, 두 차례의 큰 실수 끝에... 여론조사 방식은 과학적인 방식으로 바뀌었고, 지금까지 60년이 지나도록 여론조사
방식은 달라진 전례가 없었습니다. 그럼 여론조사 방식이 어떻냐고요?
2. 여론조사 방식
여론조사 방식의 제1 원칙은 무조건 '확률에 기반되는 것입니다.' 대통령 선거 여론조사를 예를 들자면, 이 글을 보시는 pgr 회원도,
저도, 옆집 철수도 만 19세 이상 대한민국 성인이라면 모두모두 뽑힐 확률이어야만 의미가 있습니다. (이는 현행 여론조사의
문제점과 연관있습니다) 제가 선택 받을 가능성이 0.0000001%가 아닌 아예 0% 라면 여론조사로서 의미가 없습니다.
또한, 여론조사 방식은 성, 연령, 지역별 인구비례를 할당하여 추출하는 방식인데 1000명의 표본으로 된 18대 대통령 선거를
예로 들자면, 서울은 천만명이니까 유권자가 2000만명이라고 치면 500명을 할당하고, 인천은 몇명, 경기는 몇명 해서 15개
시도에 인구에 따라서 할당합니다. (제주도는 거의 제외합니다.) 그리고, 연령별로도 할당하는데 만약 20대에서 표본이 부족하다면?
해당 연령대에 가중치를 부여합니다. 그러니까 500명을 조사해야 하는데, 30명만 조사했다면 30명이 500명 정도의 몫을 다한다는
말입니다
방식을 한마디로 설명하자면 ‘확률적 표집’ 또는 ‘무작위 추출’이라는 표현을 씁니다.
3. 95% 신뢰수준에 플러스 마이너스 3.1?????
최근에 여론조사를 보다보면 '95% 신뢰수준에 오차범위는 ±4.4%' 라는 표현을 자주 볼 수 있습니다.
이 뜻은 뭐냐면, 44.4%의 지지율을 가지고 있는 어떤 사람이 실제 40%~48.8%를 얻을 가능성이 95% 라는 뜻입니다.
다시 말씀드리자면, 20번 중 19번이 맞고, 20번 중 1번은 틀린다는 뜻입니다.
(* 68% 신뢰수준, 99.9% 신뢰수준도 있지만 이는 별 의미가 없답니다...)
계산하는 방식이 있는데요. 표본오차 = 1.96*√이항분포/표본수 입니다.
이항분포는 제가 문과기 때문에 쉽게 설명을 못하지만, 선거에서는 대부분 50% 50%를 물어보기 때문에
p(1-p)=0.5 x 0.5 = 0.25 그러니까 표본오차 = 1.96*√0.25/표본수.... 500명을 표본으로 보자면
표본오차는 4.382693235899588%........ 반올림하면 ±4.4%가 됩니다.
그러므로, 표본오차는 전국민을 대상으로 조사하든, 하나의 지역구를 조사하든, 오버해서 전세계를 조사하든~
500명 조사하면 오차범위는 무.조.건 ±4.4% 입니다..
4. 그렇다면... 미국은 대통령 지지율, 대통령 선거 여론조사시 몇명 포본으로 조사할까요?
우리나라 인구에 8배 정도 되니까... 8000명? 아니아니... 만명? 아닙니다..
보통 천명 하면 많이 한다 그러고, 대부분 700명 정도 합니다. 최근 기사를 발췌해보도록 하겠습니다.
"USA투데이는 여론조사 전문기관인 갤럽과 지난 3월20~26일 미국 12개 경합주의 등록유권자 933명을 대상으로 조사"
"이번 조사는 지난 26~27일 이틀간 606명의 미국인들 대상으로 실시"
.... 솔직히 충격먹은 분들 많이 계실겁니다.. 의외로 표본이 작다구요...
그러나, 기본적으로 과학적인 방식을 사용한 여론조사이기 때문에 600명으로도 충분히 모든 국민을 대표 할 수 있다는 거죠
미국이든 중국이든 러시아든 어디든 전국민을 한명 한명이 뽑힐 가능성만 있다면 500명으로도 충분히 그 여론조사는 의미가 있습니다.
우리나라는 의외로(?) 많은 편인데, 왜 우리나라 여론조사는 족족 틀리느냐!! 문제는 뭐냐!!! 바로 확률입니다 확률
5. 2010년 6월 지방선거 여론조사가 틀린이유...
당시, 숨은 야권표 10%라는 말도 있었지만, 틀렸던 정확한 이유로는 바로! 확률입니다. 확률....
1936년에 다이제스트지가 틀린이유랑 똑같죠... 자동차를 가진 중산층 이상만 조사되는 것 처럼,
한국에서도 당시 KT 전화부 등재부 기준으로 조사했는데, 인터넷 전화로 변경하는 세대는 주로
진보적이거나 젊은 층 유권자들이 많아 KT 등재부 기준은 보수 유권자 민심을 더욱 반영했죠..
(게다가, 보통 평일 오후에 조사하는데 주로 집에 주부들이나 노년층이 많이 계시니까요)
그래서 나온게 바로 'RDD 방식'입니다. 지역번호와 중간 번호는 고정시키고 마지막 번호를 랜덤으로 돌리는 방식인데
요즘 방송 3사 여론조사 업체가 쓰고 있는 방식입니다. 솔직히, 이또한 2011년 서울 시장 재보궐선거에 나왔지만,
20대/30대가 제대로 산출 안되어서 또다시 새롭게 등장한게 바로 "휴대전화 20% + RDD 80%" 입니다...
가장 정확한 방식인데, 왜 휴대전화 방식을 제대로 못쓰냐... 그건 바로, 휴대전화 번호가 해당 지역에 사는 번호인지
제대로 알 수 없기 때문입니다. 리얼미터만이 자체적인 휴대전화 패널이 있는데, 이를 구한다는건 힘든일이죠...
또한, 응답률도 문제 되는데요.... 많은 수의 여론조사 업체들, 각 후보자의 여론조사를 사칭한 홍보행태로 인해 수많은
여론조사에 지친 국민들이 답변을 피하고 있는데요.. 그래서 최근 여론조사의 응답률은 5∼7%에 불과 합니다...
그 밖에, 야권 성향 유권자들이 응답을 회피하거나 속마음과 다른 답변하는 등의 여러가지 문제점을 안고 있는게 여론조사의 현실입니다.
6. 그러나...
여론조사는 점점 더 많은 곳에서 사용되고 있는데요.. 특히, 이번 공천과정이나 야권 단일 후보 선정 과정에서 많이 사용되었는데,
표본오차와 신뢰수준에 대한 고려없이 마구잡이로 사용되는건 문제 있다고 봅니다...
하지만, 너무 여론조사 무용론 쪽으로 몰고가는 것도 문제가 있습니다. 실제로, 2011년 4·27 재보궐 선거에서 RDD만 사용된 경남
김해을 지역은 내내 이봉수 국민참여당 후보가 이겼지만, 결과는 김태호 한나라당 후보가 승리했습니다.
공표 마지막 날 여론조사 기사를 보시면 "4.27재보선 김해을 여론조사, 이봉수 42.5% 김태호 37.7%!!" 라는 걸 보실 수 있을 겁니다.
그렇기 때문에 꼭 여당은 유리, 야당은 불리하다고 생각하지는 않습니다.
이번 총선을 통해 또다시 어떤 여론조사가 진짜 여론을 반영할 수 있을지 궁금하네요.
7. 참고
참고로 원래 국회의원 선거는 90개 초박빙 지역 출구조사 + 나머지 전화 조사로 진행되었는데,
이번 방송 3사 여론조사는 246개 지역 전체 출구조사를 진행합니다... 얼마나 맞출지, 전화 여론조사와
어떤 차이가 있는지 이 또한 좋은 관전포인트 같네요!
세줄 요약
1. 내가 뽑힐 확률이 있냐 없냐가 여론조사의 가치가 있냐 없냐가 판별됨
2. 표본수 500명은 무조건 ±4.4%, 1000명은 무조건 ±3.1%
3. 여론조사 산출 방식은 죄가 없다!! 문제는 모든 유권자가 뽑히느냐....
* 信主님에 의해서 게시물 복사되었습니다 (2012-04-17 20:01)