저자 : 빅토르 마이어 쇤버거(Viktor Mayer-Schonberger), 케네스 쿠키어(Kenneth Cukier)
역자 : 이지연
Chapter 1 현재
데이터로 하여금 말하게 하라|들쭉날쭉하지만 더 많아서 괜찮은 데이터
Chapter 2 많아진 데이터
일부에서 전체로
Chapter 3 들쭉날쭉한 데이터
질보다 양|들쭉날쭉한 데이터의 실제 모습
Chapter 4 인과성과 상관성
예측과 선호|환영과 깨달음|폭발하는 맨홀|이론의 종말?
Chapter 5 데이터화
세상의 수량화|단어들이 데이터가 될 때|위치가 데이터가 될 때|소통이 데이터가 될 때|모든 것의 데이터화
Chapter 6 가치
데이터의 ‘옵션 가치’|데이터의 재사용|재조합형 데이터|확장 가능한 데이터|가치가 하락하는 데이터|데이터 잔해의 가치|오픈 데이터의 가치|값을 매길 수 없는 가치
Chapter 7 영향
빅 데이터의 가치 사슬|새로운 데이터 중개인|전문가의 종말|효용의 문제
Chapter 8 리스크
사생활 마비|확률과 처벌|데이터의 독재|빅 데이터의 어두운 면
Chapter 9 통제
동의에서 책임으로|사람 vs 예측|블랙박스 깨기|알고리즈미스트의 부상|외부 알고리즈미스트|내부 알고리즈미스트|데이터 왕에 대한 규제
Chapter 10 다음
데이터가 말을 할 때|빅 데이터보다 더 큰 데이터
2009년 조류 인플루엔자에 대한 감염경로 파악을 위해 미국 질병관리 본부가 동분서주하고 있을 때, 구글은 몇 주전에 이미 몇 주전에 독감의 확산이 예측 가능하다는 논문을 네이처에 내 놓았다. 2007, 2008 년 발생한 독감과 주요 검색어들의 상관성을 확인하기 위해 4억 5천만 개의 수학적 모델을 테스트 해 보았고, 그 결과 특히 45개 검색어와 상관성이 97% 일치 한다는 결론을 얻어낸 것이다.
2003년 오렌 에치오니 (Oren Etzioni)는 동생 결혼식에 참석하기 위해 시애틀에서 LA로 가야 했다. 몇 달전에 예매했던 에치오니는 옆에 앉은 사람들에게서 더 늦게 예매했음에도 더 싼 가격에 비행기 티켓을 샀다는 말을 듣고 화가 났다. 돌아온 에치오니는 41일간 여행 웹사이트에서 ‘긁어 낸’ (그는 MetaCrawler 를 만드는 것을 도왔다), 1만 2천개의 가격 샘플을 이용해 예측 모델을 만들었고 가격이 떨어질거 같으면 더 기다리고 오를거 같으면 산다는 단순한 아이디어로 여행객들의 돈을 아껴주는 사이트를 만들었다. 후에 이 작은 프로젝트는 페어캐스트 (Farecast) 라는 신생 기업으로 진화했다.
2000년, 이제 막 대학을 졸업한 스물두 살의 청년 루이스 폰 안 (Luis von Ahn)은 ‘스팸보트 (spamboad)’ 문제를 해결할 방법을 고안해 낸다. 등록자들이 자신이 인간임을 증명하게 만들면 되는 것이었다. 결국 그는 삐뚤삐뚤해서 알아보기 힘든 글자를 등록 절차에 추가하는 아이디어를 생각해냈다. 사람들은 몇 초 안에 글자들을 해독해서 정확하게 타이핑할 수 있겠지만 컴퓨터는 당황할 것이다. 폰 안은 자신이 만든 것을 ‘캡차 (Captcha ; Completely Automated Public Turing Test to Tell Computers and Human Apart)’ 라고 불렀다.
책에서 인상 깊었던 구절을 갈무리 하는 것으로 이 책의 리뷰를 대신한다. 스스로 몇 문단의 감상으로 정리하기에도 벅참을 느껴서 이고, 또 Summary 하는 것으로 잃어야 하는 정보가 너무 많으므로 호기심만 갖고 다시 한번 책을 읽는 편이 바람직하다고 느꼈다. 갈무리는 목차 기준이다.
1. 현재
19page.
「빅 데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해내는 일이다. 그리고 이 과정에서 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.」
2. 많아진 데이터
43page.
「더 큰 데이터를 수집하고 사용할 수 있게 되었건만 우리는 새로 얻은 이 자유를 아직 제대로 즐기지 못하고 있다. 정보의 이용 가능성에는 한계가 있다는 가정하에 경험을 쌓고 제도를 만들어왔기 때문이다. 수집 가능한 정보가 조금인 줄 알았기에 조금만 수집했다. 생각에 족쇄가 만들어졌다. 우리는 심지어 가능한 적은 데이터만 사용하는 테크닉을 사용하기까지 했다. 통계학의 목표 중 하나는 최소의 데이터로 가장 풍부한 결과를 확정하는 것이다. 실제로 우리는 표준이나 프로세스, 인센티브 구조 등에서 사용하는 정보의 양이 늘어나지 못하게 막았고 이런 관행을 문서화시켰다. 빅 데이터로의 이행이 뭘 뜻하는지 알려면 먼저 과거로 가봐야 한다.」
47page.
「통계학자들은 샘플링의 정확성을 극적으로 향상시키는 방법으로 샘플의 크기를 늘리는 것이 아니라 무작위로 샘플을 추출하는 것임을 밝혀냈다. 실제로 깜짝 놀랄 이야기지만 무작위로 추출한 1,100 명의 사람에게 ‘예·아니오’ 식 질문을 할 경우 그 결과는 놀라울 만큼 전체 인구를 대표한다. 20번 중 19번은 오차 범위가 3퍼센트 이내다. 이것은 전체 인구가 수십만 명인지, 수억 명인지와는 관계가 없다. 왜 이렇게 되는지는 복잡한 수학적 이유가 있지만 간단히 설명하면, 초기의 일정 수준을 넘고 나면 샘플의 수가 커질수록 각 관찰에서 얻는 새로운 정보의 양이 줄어들기 때문이다.
샘플의 크기보다 무작위성이 중요하다는 사실은 깜짝 놀랄 만한 통찰이었고 이로써 정보를 취합하는 새로운 접근법이 열렸다. 무작위 샘플을 이용한 데이터 수집은 낮은 비용으로도 전체를 매우 정확하게 추정해냈다. 그 결과 정부는 전체 인구조사를 10년에 한 번 실시하기 보다는 무작위 샘플을 이용한 소규모 인구조사를 매년 실시할 수 있었다.」
48page.
「이 새로운 방법은 공공 부문과 인구조사를 넘어 다른 영역까지 빠르게 확산되어 응용됐다. 말하자면 무작위 샘플링은 ‘빅’ 데이터 문제를 ‘감당할 수 있는’ 데이터 문제로 축소시켰다. 기업들은 제조 품질 확보에 무작위 샘플링을 활용해서 낮은 비용으로 쉽게 품질을 개선했다. 원래 포괄적 품질관리는 컨베이어 벨트에서 나오는 모든 제품을 조사해야 했지만, 이제는 묶음당 몇 개의 무작위 샘플 검사면 충분했다. 또한 새로운 방법의 도입으로 소매업에는 소비자 조사, 정치에는 임시 조사 (snap poll) 라는 것이 나타났다. 이로써 이전에는 인문학이라 불렸던 학문의 한 부분이 사회 ‘과학’으로 변신했다.
무작위 샘플링은 엄청난 성공을 거두었고 현대적인 대규모 조사의 근간이 됐다. 하지만 이것은 어디까지나 전체 데이터를 수집하고 분석하는 것에 대한 차선의 대안일 뿐이다. 무작위 샘플링은 수많은 약점을 동반한다. 무작위 샘플링 조사의 정확성은 샘플 데이터를 수집할 때 무작위성을 얼마나 확보할 수 있는지에 달려 있다. 그런데 이 무작위성을 얻는 것은 쉬운 일이 아니다. 데이터를 수집하는 방식에 체계적 편향이 있을 경우 산정된 결과치는 완전히 다른 수치가 나올 수도 있다.」
3. 들쭉날쭉한 데이터
76page.
「구글 번역의 시스템이 잘 작동하는 이유는 알고리즘의 뛰어나서가 아니다. 그것은 마이크로소프트의 방코나 브릴 같은 역할을 한 구글 번역의 개발자들이 단순히 고품질이 아닌 더 많은 데이터를 사용했기 때문이다. 구글이 IBM의 캉디드보다 수만 배나 더 큰 데이터 집합을 사용할 수 있었던 것은 데이터의 들쭉날쭉함을 받아들였기 때문이다. 구글이 2006년 공개한 1조 단어짜리 말뭉치는 인터넷에 떠돌아다니던 콘텐츠를 가져온 것이었다. 말하자면 ‘야생의 데이터’였다. 이것을 ‘훈련용 데이터 집합 (training set)’ 으로 해서 구글의 시스템은 예컨데 영어 한 단어가 다른 단어 다음에 올 확률을 계산했다. 이것은 이 분야의 유명한 조상 격이라고 할 수 있는 1960년대의 브라운 말뭉치 (Brown Corpus; 영어 단어 100만개를 사용했다.)로부터는 상당히 멀어진 것이었다. 더 큰 데이터 집합을 사용함으로써 음성인식이나 컴퓨터 번역의 기반이 되는 자연어 처리 분야에 큰 걸음을 내디딘 것이다. 구글의 인공지능 분야 전문가 피터 노빅과 동료들은 『데이터의 터무니없이 뛰어나느 효과성 (The Unreasonable Effectiveness of Data』 이라는 논문에 다음과 같이 썼다. ‘많은 데이터를 가진 간단한 모델이 적은 데이터를 가진 정교한 모델보다 뛰어나다’」
4. 인과성과 상관성
120page. (개인적으로 이 챕터의 내용을 가장 좋아한다.)
「오히려 인간이 인과관계를 통해 세상을 본다고 할 때 우리는 인간이 세상을 이해하고 설명하는 근본적인 두 가지 방식을 지칭하고 있는 것이다. 하나는 빠르고 환영에 불과한 인과성을 통하는 방식이고, 다른 하나는 느리고 꼼꼼한 인과관계 실험을 통한 방식이다. 빅 데이터는 이 두 가지 방식 모두의 역할을 바꿔놓을 것이다.
첫 번째는 인과적 연관을 찾고 싶은 우리의 직관적 욕구다. 우리는 원인이 존재하지 않을 때초자 원인을 가정하는 편견을 갖고 있다. 이것은 문화나 양육, 교육 수준 때문이 아니다. 연구 결과에 의하면 오히려 이것은 인간의 인지가 작동하는 방식과 관련되어 있다. 두 가지 사건이 연달아 일어나는 것을 보면 정신은 두 사건을 인과적 관계로 보려는 강한 충동을 느낀다.」
121page.
「프린스턴 대학의 심리학 교수이자 2002년 노벨 경제학상 수상자인 대니얼 카너먼 (Daniel Kahneman)은 앞의 예시를 이용해 우리에게는 두 가지 생각 모드가 있다고 제시한다. 하나는 몇 초 만에 우리를 결론으로 비약하게 만드는 빠르고 힘들지 않은 방식이다. 다른 하나는 특정 이슈를 처음부터 끝까지 충분히 생각하게 만드는 느리고 힘든 방식이다.
빠른 사고방식은 아무런 인과관계가 없을 때조차 인과적 연결성을 ‘보도록’ 강하게 편향되어 있다. 이 사고방식은 기존의 지식과 믿음을 재확인하려는 편견을 가진다. 태곳적에는 이런 빠른 사고방식이 생존에 도움이 됐다. 위험한 환경에서는 제한된 정보로도 빠르게 결정해야 할 일이 많았기 때문이다. 하지만 진짜 인과관계를 규명하기에는 부족하 경우가 많다.
안타깝게도 우리 두뇌는 천천히 체계적으로 생각하지 않고 게으름을 피는 경우가 아주 많다고 카너먼 교수는 주장한다. 우리는 빠른 사고방식이 그 자리를 대신하게 내버려둔다. 그 결과 우리는 상상 속의 ‘인과성’을 ‘봄’으로써 근본적으로 세상을 잘못 이해하는 경우가 자주 있다.」
124~127page.
「과학자들은 그동안 이런 인과관계 증명의 어려움을 실험을 통해 극복해왔다. 추정하는 원인을 실험에서 조심스럽게 적용하거나 배제했을 때 결과도 그에 따라 바뀌면 그것은 인과적 연관이 있다는 뜻이다. 실험 조건을 조심스럽게 통제할수록 실험에서 확인된 인과적 연관이 맞을 가능성도 높아진다.
그러니 상관성과 마찬가지로 인관성도 증명될 수 있는 경우는 드물고 높은 개연성으로만 보인다. 하지만 상관성과는 달리 인과적 연관을 확인하는 실험은 현실적이지 못한 경우가 많고 심각한 윤리적 문제를 일으키기도 한다. 왜 특정 단어가 독감을 가장 잘 예측하는지 그 원인을 확인할 수 있는 인과적 실험을 어떻게 구성한단 말인가? 광견병 백신의 효과를 확인하기 위해 백신이 있음에도 불구하고 수십, 수백 명의 사람들을 (백신을 맞지 않은 ‘대조군’으로 관찰하려고) 고통스럽게 죽어가게 둘 것인가? 그리고 실험이 가능한 경우조차 높은 비용과 시간이 소요된다는 문제는 여전히 남는다.
이에 비해 상관성과 같은 비 인과적 분석은 빠르고 싸게 먹히는 경우가 많다. 인과적 연결과는 달리 우리에게는 비인과적 관련성을 분석할 수 있는 수학적·통계적 방법론이 있고, 관련성이 얼마나 강한이 자신 있게 보여줄 수 있는 디지털 툴도 갖추고 있다.
게다가 상관성은 그 자체로만 유용한 것이 아니라 인과관계 연구를 위한 길을 알려주기도 한다. 어느 두 요소가 잠재적으로 서로 연결되어 있다고 상관성이 우리에게 알려주면 우리는 그 속에 인과적 관계가 있는지, 그렇다면 이유는 무엇인지 더 자세히 연구할 수 있다. 저렴하고 신속한 필터링 메커니즘은 특수 통제된 실험을 통한 인과 분석에 소요되는 비용을 낮춰준다. 상관성을 통해 먼저 중요한 변수의 단서를 포착한 다음 그것을 가지고 실험에서 인과성을 조사하면 된다.
하지만 조심할 필요가 있다. 상관성이 강력한 이유는 통찰력을 제공하기 때문일 뿐만 아니라 그 통찰이 상대적으로 분명하기 때문이다. 하지만 전체 그림 속에 다시 인과성을 집어넣으면 이런 통찰이 불투명해지는 경우가 자주 있다. 예컨대 캐글(Kaggle) 이라는 회사는 기업들을 대상으로 누구나 참가할 수 있는 데이터 마이닝 대회를 주최한다. 2012년 캐글은 중고차의 품질에 관한 주제로 대회를 열었다. 어느 중고차 판매회사가 데이터를 제공했고 대회에 참가한 통계 전문가들은 경매에서 구매 가능한 차량 중 결함이 있을 가능성이 높은 차량을 어떤 것인지 예측하는 알고리즘을 만들었다. 상관분석 결과 오렌지색 차량은 결함이 있을 가능성이 훨씬 낮았다. 결함 비율이 다른 차량들 평균의 절반 정도였다.
이 내용을 읽으면서조차 우리는 이미 왜 그럴까를 생각하고 있다. 오렌지색 차량을 소유한 사람은 차를 좋아하는 사람일 가능성이 크니까 차량 관리를 더 잘하나? 오렌지색은 특별 주문 색상이니까 차량이 다른 면에서도 더 조심스럽게 고객 맞춤식으로 제조된 것인가? 아니면 오렌지색 차량은 길에서 눈에 확 띄니까 사고가 날 확률이 적고 그래서 판매 시점에 상태가 더 좋은 것인가?
순식간에 우리는 대립되는 인과적 가설들의 그물망 속에 갇혀 버린다. 하지만 이런 식으로 원리를 알아내려는 노력은 상황을 더 흐릿하게 만들 뿐이다. 상관성은 존재한다. 이것을 수학적으로 보여줄 수 있다. 그러나 인과적 연관도 똑같이 쉽게 해결할 수는 없다. 따라서 우리는 상관성 뒤에 있는 이유를 설명하려는 노력은 시작하지 않는 편이 좋다. ‘결론’ 아닌 ‘이유’를 찾는 일은 그만둬야 한다는 얘기다. 그렇지 않으면 고물차를 가진 사람에게 엔진의 결함을 피하려면 오렌지색 페이트를 칠하라고 조언하는 사태가 벌어질지도 모른다. 이 얼마나 우스꽝스러운 생각인가?
이런 사실들을 고려한다면 확고한 데이터에 근거한 상관분석 또는 그와 비슷한 비인과적 방법들이 ‘빠른 사고’의 결과인 대부분의 직과적 인과성보다 우월한 것도 충분히 이해가 가는 일이다. 그런데 비인과적 분석은 점점 더 많은 분야에서 느린 인과적 사고보다도 더 유용하고 효율적인 툴이 되고 있다. 조시미스럽게 통제된(그대서 비용과 시간이 많이 드는) 실험보다 말이다.
최근 과학자들은 원인을 조사하는 실험의 비용을 낮추기 위해 노력해왔다. 그런 경우의 하나가 적절한 설문 조사들을 교묘히 결합해 ‘유사실험 (quasi-experiment)’ 을 만드는 방법이다. 유사 실험을 사용하면 몇몇의 인과성 조사는 더 쉬워질 수도 있다. 하지만 이것도 비인과적 방법을 효율성을 따라가지는 못한다. 게다가 빅 데이터 자체도 전문가들이 조사할 만한 가능성 높은 원인들을 알려주는 방식으로 인과성 탐구를 돕고 있다. 많은 경우 우리가 ‘결론’에 만족하지 않고 특별히 ‘이유’를 조사하고 싶을 때는 먼저 빅 데이터로 작업해보고 더 심도 있는 인과성 조사에 나서면 되는 것이다.
인과성이 폐기되는 일은 없을 것이다. 하지만 의미의 주된 원천으로서의 지위는 상실하고 있다. 빅 데이터는 비인과적 분석에 큰 힘을 실어주고 있으며 많은 경우 인과적 조사를 대체하고 있다. 바로 뒤에 이어지는 맨해튼의 골칫거리인 맨홀 폭발 사례가 이 점을 잘 보여줄 것이다. 」
5. 데이터화
147, 148 page.
「’데이터(data)’ 라는 말은 라틴어로 ‘사실(fact)’로서 ‘주어진다(given)’는 뜻이다. 이것은 유클리드가 쓴 고전의 제목이기도 하다. 그 책에서 유클리드는 기하학을 설명할 때 알려진 것 혹은 알려졌다고 증명할 수 있는 것에서부터 시작한다. 오늘날 데이터는 기록되거나 분석되거나 재정리할 수 있는 어떤 것을 가리킨다. 아직까지는 모리 선장이나 코시미즈 교수가 만들어낸 변환 작업을 가리킬 만한 좋은 단어가 없다. 그러니 우리는 이런 변환 작업을 ‘데이터화’라고 부르기로 하자. 어떤 현상을 데이터화한다는 것은 표로 만들고 분석이 가능하도록 그 현상을 수량화된 형태로 만든다는 뜻이다.
다시 말하지만 데이터화와 디지털화는 서로 아주 다른 개념이다. 디지털화란 아날로그 정보를 컴퓨터가 처리할 수 있도록 2진법 코드의 0과 1로 만든다는 뜻이다. 우리가 컴퓨터를 가지고 처음했던 일은 디지털화가 아니었다. 컴퓨터 혁명의 초반부는 말 그대로 계산을 하던 (computational) 시대였다. 이전의 방식으로는 오랜 시간이 걸리던 계산을 수행하기 위해 기계를 이용했던 것이다. 미사일 탄도표라든지 인구조사, 날씨 같은 계산 말이다. 그 후에야 아날로그 콘텐츠를 디지털화하는 작업이 시작됐다. 그래서 1995년 MIT 미디어랩의 니콜라스 네그로폰테(Nicholas Negroponte)가 『디지털이다.』 라는 기념비적 책을 출간했을 때 네그로폰테의 큰 주제 가운데 하나는 원자에서 비트로의 이행이었다. 1990년대에 우리는 주로 텍스트를 디지털화했다. 스토리지 용량, 처리 능력, 통신 대역폭 등이 커진, 좀 더 최근에는 다른 형태의 콘텐츠, 즉 사진, 영상, 음악 등도 디지털화되고 있다.
지금 기술 전문가들 사이에서는 암묵적인 믿음이 하나 있다. 바로 빅 데이터의 계보를 거슬러 올라가면 반도체 혁명이 있다는 믿음이다. 이것은 사실이 아니다. 현대적인 IT 시스템이 빅 데이터를 가능하게 한 것은 분명하지만 핵심적인 측면에서 보면 빅 데이터로의 이행은 인류의 오래된 탐구 과정의 연속선상에 있다. 세상을 측정하고 기록하고 분석하려는 탐구 말이다. IT 혁명은 도처에서 볼 수 있지만 대부분 그 강조점은 ‘T’, 즉 기술 (technology)’ 에 있었다. 이제는 우리의 관심을 ‘I’, 즉 정보 (information) 에 집중할 때다.」
6. 가치
184, 185page
「인간의 컴퓨터 사용 능력을 좀 더 생산적인 데 쓸 수 있는 방법을 찾던 폰 안은 곧 후속 방법을 생각해내고 리캡차(ReCaptcha) 라는 딱 맞는 이름을 붙였다. 무작위로 글자를 타이핑하는 대신 컴퓨터의 광학 문자인식 프로그램으로는 인식할 수 없는 텍스트를 스캐닝하는 프로젝트에서 두 단어를 골라 타이핑하도록 하는 방법이었다. 두 단어 중 하나는 다른 사람이 타이핑한 것을 확인하는 용도로서 타이핑한 사람이 인간이라는 신호가 됐다. 다른 단어는 새로 명확화가 필요한 단어였다. 정확성을 확보하기 위해 시스템은 평균 다섯 명의 사람이 정확히 입력해야만 흐릿한 한 단어를 옳은 단어로 신뢰했다. 이 데이터는 이용자가 인간임을 증명한다는 주된 목적을 가지고 있었지만 2차적인 목적도 있었다. 불분명한 단어를 디지털화 된 텍스트로 해독하는 일이었다.
이 방법이 만들어낸 가치는 엄청났다. 이 일을 대신하도록 사람을 고용했다면 비용이 얼마나 들었을지 생각해보면 알 수 있다. 리캡차를 한 번 이용할 때 대략 10초가 소요된다고 하면 하루 2억번의 리캡차를 하는 데 드는 시간은 약 50만 시간이다. 2012년에 미국의 최저임금은 시간당 7.25달러였다. 컴퓨터가 해독할 수 없는 단어를 명확화하기 위해 시장에서 자원을 얻었다면 비용은 하루에 약 400만 달러, 1년이면 10억 달러 이상이 소요되었을 것이다. 그런데 폰 안은 그 일을 사실상 공짜로 하는 시스템을 설계한 것이다. 구글은 어떤 웹사이트든지 이 시스템을 공자로 이용할 수 있게 했다. 현재 리캡차는 페이스북, 트위터, 크레이그스리스트 (Craigslist) 등 20만 개 사이트에서 사용되고 있다.
리캡차에 관한 이야기는 데이터의 재사용이 얼마나 중요한지를 잘 보여준다. 빅 데이터와 함께 데이터의 가치가 변하고 있다. 디지털 시대에는 데이터가 거래를 뒷받침하는 역할을 버리고 그 자체가 재화가 돼 거래되는 경우가 많았다. 그런데 빅 데이터의 세상에서는 상황이 다시 바뀐다. 데이터의 가치가 주된 용도에서 미래의 잠재적 용도 쪽으로 이동한다.」
215, 216page
「정부 데이터 개방이라는 아이디어에 큰 힘을 실어준 사전이 있었다. 2008년 1월 21일 버락 오바마 미 대통령이 출근 첫날 연방 기구의 수장들에게 보낸 메모에서 가능한 많은 데이터를 개방하라고 명한 것이 바로 그것이다. 그는 ‘의심에 직면해서는 개방성이 답이다’라고 지시했다. 이것은 특히 정반대의 사항을 지시했던 그의 전임자와 비교할 때 놀랄 만한 선언이었다. 오바마의 이 명령으로 접근이 개방된 연방 정부 정보 저장소인 ‘data.gov’ 라는 웹 사이트가 생겼다. 이 사이트의 정보 보유 규모는 2009년 47개의 데이터 집합에서 출발해 3주년이 된 2012년 7월에는 172개 기관에서 나온 45만 개에 달하는 데이터 집합으로 성장했다.
심지어 정부 저작권이라는 이름으로 많은 정보를 묶어두고, 어렵고 비싼 방식으로 사용 허가를 내주던(온라인 지도 업체가 우편번호를 사용하는 것도 허가를 내줬다) 과묵한 영국 정부에서도 상당한 진보가 있었다. 영국 정부를 정보 개방을 촉진하는 규칙을 발표하고 월드와이드웹을 발명한 팀 버너스 리 (Tim Berners-Lee) 와의 공동 지위 아래 오픈 데이터 연구소 (Open Data Institute) 설립을 지원했다. 데이터를 정부의 손아귀에서 풀어주고 오픈 데이터의 새로운 용도 개척을 촉진하기 위해서였다.
유럽연합에서도 오픈 데이터 운동을 선언했고 이것은 대륙 전체로 퍼쳐나갔다. 오스트레일리아, 브라질, 칠레, 케냐 등 그 외 국가들도 오픈 데이터 전략을 발표하고 시행이 들어갔다. 국가보다 하위차원으로 시 또는 지방자치단체에서도 오픈 데이터를 수용하는 사례가 전 세계적으로 늘고 있다. 세계은행은 그동안 제약이 있었던 경제, 사회 지표에 관한 데이터 집합 수백 종을 개방했고 다른 국제기관들도 이런 추세에 동참하는 사례가 늘고 있다.
이와 동시에 웹 개발자와 선견지명이 있는 사상가들도 데이터를 가장 잘 활용할 수 있는 방법을 찾기 위해 커뮤니티를 형성하고 있다. 미국의 코드 포 아메리카 (Code for America) 와 선라이트 재단 (Sunlight Foundation), 영국의 열린 지식 재단 (Open Knowledge Foundation) 등이 그런 사례다.
오픈 데이터의 가능성에 관한 초기 사례는 플라이 온 더 타임 (FlyOnTime.us) 이라는 웹 사이트에서 찾아 볼 수 있다. 이 사이트의 방문자들은 악천후로 특정 공항의 항공편이 지연될 가능성에 관해 서로 정보를 주고받았다. 이 웹사이트는 인터넷을 통해 공짜로 접근과 이용이 가능한 공식 데이터 소스로부터 얻은 날씨 정보와 항공편 정보를 결합했다. 또한 이 사이트는 연방 정부가 축적한 정보의 유용성을 보여주기 위해 오픈 데이터 옹호자들이 개발한 것이었는데, 심지어 소프트웨어 코드까지 오픈 소스로 만들어서 다른 사람들이 배워 재사용할 수 있도록 했다.」
7. 영향
256, 257, 258 page
「마이클 루이스 (Micheal Lewis) 의 원작에 기초한 영화 <머니볼>은 빌리 빈 (Billy Beane)의 실화를 다루고 있다. 그는 오클랜드 애슬레틱스의 단장으로서 야구 선수의 가치를 어떻게 평가하느냐에 관한 100년 묵은 규칙을 던져버리고 새로운 기준으로 게임을 바라보는 수학적 방법을 채용했다. 이 방법은 ‘타율’과 같은 유서 깊은 통계를 버리고 ‘출루율’과 같은 이상한 방식으로 게임을 생각했다. 데이터에 기초한 이 접근법 덕분에 그동안 언제나 존재했지만 무시되었던 야구의 새로운 차원이 모습을 드러냈다. 선수가 베이스에 어떻게 도착하느냐는 중요하지 않았다. 땅볼로 진루하든 야비하게 걸어 나가든 나가기만 하면 되는 것이다. 도루가 비효율적이라는 사실이 데이터를 통해 드러나자 경기에서 가장 흥미진진한 부분이지만 ‘생산성’은 가장 떨어지는 도루라는 요소는 게임에서 사려져야 했다.
상당한 논란에도 불구하고 빈은 팀에 세이버메트릭스 (sabermetrics) 라는 방법을 도입했다. 세이버메트릭스란 스포츠 기자 빌 제임스가 미국 야구연구협회 (Society for American Baseball Research) 를 참고해서 만들어낸 용어로, 당시만 해도 약간 엽기적인 하위문화에 속했다. 빈은 갈릴레오의 지동설이 가톨릭교회의 권위에 상처를 냈던 것처럼 더그아웃의 독단에 도전하고 있었다. 결국 그는 20연승이라는 대기록을 세우며 긴 세월 고전해온 팀을 2002년 시즌 아메리칸 리그 서부 지구 1위로 이끌었다. 이때부터 통계 전문가들은 야구의 현자로서 스카우터의 자리를 대체했다. 그리고 다른 많은 팀들도 앞다투어 세이버메트릭스를 도입했다.
같은 맥락에서 빅 데이터가 몰고 올 가장 큰 충격은 데이터에 기초한 의사 결정이 인간의 판단을 강화하거나 기각하게 만들 수 있다는 점이다. 예일 대학의 경제학자이자 법학 교수인 이언 에어스 (Ian Ayers) 는 자신의 저서인 『슈퍼 크런처스 (Super Crunchers)』 에서 사람들은 직감이 들더라도 통계 분석 때문에 어쩔 수 없이 다시 한번 생각하게 된다고 주장했다. 빅 데이터에서는 이것이 더 중요해 진다. 실질적 전문가라고 할 수 있는 전공별 전문가는 통계 전문가나 데이터 분석가와 비교되어 일정 부분 빛을 잃게 될 것이다. 통계 전문가와 데이터 분석가는 기존의 방식에 구애됨이 없이 데이터가 말하도록 하기 때문이다. 이 새로운 핵심 인력들은 예단이나 선입견 없이 상관성에 의존할 것이다. 마치 모리가 주름이 쪼글쪼글한 선장들이 술집에서 뱃길에 관해 얘기하는 내용을 액면 그대로 받아들이지 않고, 취합된 데이터가 진실을 드러내줄 거라고 믿었던 것처럼 말이다.
우리는 많은 영역에서 전공별 전문가들의 영향력이 줄어드는 것을 보고 있다. 미디어 영역을 보면 허핑턴 포스트나 고커(Gawker), 포브스 같은 웹사이트에서 어떤 콘텐츠가 만들어지고 발표될지는 사람인 편집자가 아니라 데이터가 정기적으로 결정한다. 데이터는 사람들이 무엇을 읽고 싶어 하는지 노련한 저널리스트의 직감보다 더 잘 말해줄 수 있다. 온라인 교육 회사 코세라는 데이터를 통해 학생들이 영상 강의의 어느 부분을 반복적으로 재생했는지 보고 어던 학습 교재가 어려웠는지 알아낸다. 그리고 이 정보를 다시 선생님들에게 전달해서 교재가 개선될 수 있게 한다. 앞에서 보았듯이 제프 베저스는 아마존에서 내부 도서 담당자들을 없앴다. 알고리즘에 의한 추천이 더 큰 판매고를 올린다는 것을 데이터가 보여주었기 때문이다.」
260, 261page
「분명 전공별 전문가들은 사라지지 않을 것이다. 다만 그 우월성이 줄어들 것이다. 이제부터는 빅 데이터 전문가들과 무대를 나눠 써야 하기 때문이다. 인과성이라는 왕자가 상관성이라는 거지에게도 세상의 이목을 나눠줘야 하는 것처럼 말이다. 이렇게 되면 지식을 평가하는 방법도 바뀐다. 우리는 한 분야를 깊이 전공한 스페셜리스트를 이것저것 아는 제너럴리스트보다 높이 평가하는 경향이 있다. 즉 깊이를 중시해왔다. 하지만 전문 지식은 정밀성과 비슷한 면이 있다. 즉 정보가 충분치 않고 딱 맞는 정보를 얻을 수 없어서 직관과 경험에 의존해야 했던 스몰 데이터의 세상에서는 전문 지식이 적합하다. 그런 세상에서는 경험이야말고 쉽게 전달할 수도 책에서 배울 수도 없는, 어쩌면 의식적으로 알고 있지도 못한 잠재된 지식의 오랜 축적이므로, 똑똑한 의사 결정을 내리는 데 결정적 역할을 한다.
하지만 바보 같은 데이터를 잔뜩 가지고 있을 때는 이를 이용해야 한다. 빅 데이터를 분석할 수 있는 사람이 미신이나 관습적 사고를 넘어설 수 있다면 그것은 이들이 더 똑똑해서가 아니라 데이터를 갖고 있기 때문이다. (그리고 아웃사이더라서 그 분야 내에서 옥신각신하는 다툼에 치우칠 일이 없기 때문이다. 전문가들은 이런 다툼 때문에 어느 편이냐를 막론하고 시야가 좁아지기도 한다). 이런 사실은 회사가 소중히 여기는 직원이 되는 방법도 달라진다는 뜻이다. 무엇을 알고, 누구를 알며, 직장 생활에 대비해 무엇을 공부해야 할지가 바뀐다.
수학과 통계학, 그리고 약간의 프로그래밍과 네트워크 과학이 직장 생활의 기본이 될 것이다.」