마스터 알고리즘

마스터 알고리즘, 비즈니스북스

페드로 도밍고스 지음

[목차]

제1장 머신러닝의 혁명이 시작됐다
머신러닝은 무엇인가 / 최고의 기업들이 머신러닝을 채택하는 이유 / 머신러닝이 과학을 혁신한다 / 국가의 운명을 바꾼다 / 지상 전쟁에 한 명, 가상 전쟁에 두 명 / 우리는 어디로 향하는가

제2장 마스터 알고리즘은 어떻게 탄생하는가
신경과학에서 / 진화론에서 / 물리학에서 / 통계학에서 / 컴퓨터 과학에서 / 머신러닝 vs 지식공학 / 머신러닝 vs 인지 과학 / 머신러닝 vs 머신러닝 실행자 / 마스터 알고리즘은 당신에게 무엇을 주는가 / 또 다른 만물 이론이 될 것인가 / 본선에 진출하지 못하는 후보들 / 머신러닝의 다섯 종족

제3장 흄이 제기한 귀납의 문제 _기호주의자의 머신러닝
데이트를 할 수 있을까, 없을까 / ‘세상에 공짜는 없다’라는 정리 / 지식 펌프에 마중물 붓기 / 세상을 다스리는 법 / 무지와 환상 사이 / 당신이 믿을 만한 정확도 / 귀납법은 연역법의 역이다 / 암 치료법 학습하기 / 스무고개 놀이 / 기호주의자의 믿음

제4장 우리 두뇌는 어떻게 학습하는가 _연결주의자의 머신러닝
퍼셉트론의 성장과 쇠퇴 / 물리학자가 유리로 두뇌를 만들다 / 세상에서 가장 중요한 곡선 / 초공간에서 등산하기 / 퍼셉트론의 복수 / 세포의 완전한 모형 / 두뇌 속으로 더 깊이 들어가기

제5장 진화, 자연의 학습 알고리즘 _진화주의자의 머신러닝
다윈의 알고리즘 / 탐험과 개발 사이의 딜레마 / 최적 프로그램의 생존 / 성의 임무는 무엇인가 / 자연에서 ‘학습’을 배우는 두 종족 / 가장 빨리 학습하는 자가 승리한다

제6장 베이즈 사제의 성당에서 _베이즈주의자의 머신러닝
세상을 움직이는 정리 / 모든 모형은 틀리지만 그중에는 유용한 모형도 있다 / 예브게니 오네긴에서 시리까지 / 모든 것은 연결되어 있다, 직접 연결되지는 않지만 / 추론 문제 / 베이즈 방식 학습하기 / 마르코프가 증거를 평가한다 / 논리와 확률이라는 불행한 짝

제7장 당신을 닮은 것이 당신이다 _유추주의자의 머신러닝
할 수 있으면 비슷한 점을 찾아봐 / 차원의 저주 / 평면 위의 뱀들 / 사다리 오르기 / 기호주의 vs 유추주의

제8장 선생님 없이 배우기
같은 종류끼리 모으기 / 데이터의 모양 발견하기 / 보상과 처벌 그리고 강화 학습 / 자꾸 연습하면 아주 잘하게 된다 / 연관 짓기 배우기

제9장 마스터 알고리즘을 위한 마지막 퍼즐 조각
여러 가지 학습 알고리즘을 어떻게 통합할 것인가 / 궁극의 학습 알고리즘 / 마르코프 논리 네트워크 / 흄에서 가사 로봇까지 / 지구 규모의 머신러닝 / 의사가 지금 당신을 진찰할 것이다

제10장 이것이 머신러닝이 펼치는 세상이다
섹스, 거짓말 그리고 머신러닝 / 디지털 거울 / 디지털 모형들의 사교 생활 / 공유할 것인가 공유하지 않을 것인가, 그리고 어디에서 어떻게? / 신경망이 내 일자리를 빼앗는다 / 전쟁터에서 인간이 싸우지 않는다 / 구글+마스터 알고리즘=스카이넷? / 진화, 두 번째 막이 시작됐다

 

이 책은 저자인 워싱턴대학교 컴퓨터 공학과 교수인 페드로 도밍고스의 역작이다. 내가 역작이라 칭하는 이유는 기술서적으로서의 가치와 동시에 일종의 문학적인 재치도 발견할 수 있기 때문이다. 머신러닝을 기호주의자, 연결주의자, 진화주의자, 베이즈주의자, 유추주의자의 머신러닝으로 다섯 가지 종족(영역)으로 구분하고 이들 각 종족들의 특징을 집어내고 그들이 신봉해 마지않는 마스터 알고리즘이 무엇인지, 또 각 영역이 발전되 온 역사도 짚어 본다. 마지막에 “궁극의 알고리즘” 장에선 이들 다섯 종족이 사는 머신러닝 왕국의 통합으로 궁극의 마스터 알고리즘은 무엇인지 어떻게 다섯 가지 알고리즘을 통합해 완전체로 구성할 수 있는지를 왕국의 비유로 설명한다. 여기까지가 하이라이트다.

난 이 책에 나온 머신러닝의 기법과 기술적인 참고자료들 (책의 마지막 부분에 ‘더 읽을거리’ 로 잘 정리되어 있다.) 과 그냥 혼자보고 놔두기에 아까울 정도로 재밌었던 부분들을 모아서 블로그의 섹션으로 삼고 싶다. 따라서 “머신러닝>ML Books>마스터 알고리즘” 카테고리에는 마스터 알고리즘에서 한번 쯤 언급된 내용들이 등재될 것이다.

아래는 책에 있었던 표현들 중 기억에 남는 부분들 위주로 갈무리를 했다. 머신러닝 알고리즘과 기법적인 부분은 차차 소개하도록 하겠다. 여기서는 책의 흥미를 가질만한 부분들만 발췌해 본다.

하지만 알고리즘의 에덴동산에도 뱀이 있다. 그 뱀은 복잡성 괴물 (complexity monster) 이라 불린다. 이 복잡성 괴물은 히드라처럼 머리가 여러 개다. 그중 하나인 ‘공간복잡성 (space complexity)’ 은 알고리즘이 컴퓨터 저장 장소에 보관할 정보량의 크기다. 컴퓨터가 제공할 수 있는 기억 장소보다 더 큰 기억장소가 필요하면 이 알고리즘은 사용할 수 없으며 포기해야 한다. 이 괴물의 형제는 ‘시간복잡성 (time complexity)’ 이다. 알고리즘을 수행하는 데 걸리는 시간, 즉 원하는 결과를 얻기까지 알고리즘을 수행하는 데 걸리는 시간, 즉 원하는 결과를 얻기까지 알고리즘이 트랜지스터를 사용하는 횟수를 의미한다. 우리가 기다릴 수 있는 시간보다 알고리즘을 수행하는 시간이 더 길면 그 알고리즘은 쓸모가 없다. 복잡성 괴물에서 가장 무시무시한 얼굴은 ‘사람이 연관된 복잡성 (human complexity)’ 이다. 알고리즘이 너무 복잡하게 뒤얽혀서 인간 두뇌가 이해하지 못하거나, 알고리즘의 여러 부분 사이에서 일어나는 상호작용이 너무 많고 복잡하면 슬금슬금 오류가 생기기 시작하는데, 사람이 발견하지 못해 고치지 못할 경우 알고리즘은 우리가 원하는 동작을 수행하지 않는다. [35p]

 

2000년 4월 MIT 신경과학자팀이 과학 잡지 《네이처》에 특별한 실험 결과를 기고했다. 그들은 흰담비의 눈에서 나온 신경을 청각 피질(뇌에서 소리를 처리하는 부분)로 다시 연결하고 귀에서 나온 신경을 시각 피질로 다시 연결했다. 당신은 흰담비가 심각한 장애를 입을 거라고 생각하겠지만 결과는 그렇지 않았다. 청각 피질은 보는 법을 배웠고 시각 피질은 듣는 법을 배웠으며 흰담비는 멀쩡했다. 보통 포유류는 시각 피질이 망막에 대한 지도를 가지고 있어 망막에서 이웃한 영역에 연결된 신경들은 피질에서도 가까이 있다. 새로 신경이 연결된 흰담비는 그 대신 청각피질에서 망각에 대한 지도를 작성했다. 시각 정보가 촉감 인식을 담당하는 체지각 피질로 새롭게 연결되면 체지각 피질도 보는 법을 배운다. 다른 포유류도 이런 능력을 지니고 있다.

선천적으로 맹인의 시각 피질은 다른 뇌 기능을 수행한다. 청각 장애인의 청각 피질도 같은 식으로 작동한다. 맹인은 머리에 장착된 카메라에서 나오는 영상 신호를 혀에 설치된 전극 배열로 보내는 방식을 이용하여 혀로 ‘보는 법’을 배울 수 있다. 높은 전앞은 밝은 화소를 나타내고 낮은 전압은 어두운 화소를 나타낸다. 벤 언더우드 (Ben Underwood) 는 박쥐처럼 반향 위치 측정( echolocation to navigate) 을 이용하여 길 찾는 법을 스스로 터득한 맹인 아이다. 혀를 차고 메아리를 들으며 주위에 부딪히지 않고 걸어 다니는 데다 스케이트보드를 타고 농구까지 해낸다. 이 모든 것은 여러 감각에 할당된 뇌의 영역이 단지 눈이나 귀, 코 등 입력에 따라 구분될 뿐이며 뇌는 전적으로 같은 학습 알고리즘을 사용한다는 증거다. 연합 영역은 여러 감각 영역에 연결됨으로써 그들의 기능을 획득하고 실행 영역은 연합 영역과 운동 영역을 연결하여 자신의 기능을 획득한다. [67,68p]

 

하지만 기술을 사용하기 위해 세부 사항까지 완벽하게 터득할 필요는 없어도 훌륭한 개념 모형 (conceptual model)은 확보해야 한다. 예를 들어 라디오의 작동 과정은 알지 못해도 라디오 채널을 찾는 법이나 음량을 바꾸는 법은 알아야 한다. 우리는 머신러닝 전문가가 아닌 터, 머신러닝이 하는 일의 개념 모형은 모른다. 구글과 페이스북 혹은 최신 분석 도구들을 사용할 대 구동되는 알고리즘은 어느날 밤 갑자기 집 앞에 나타난 검은 리무진과도 같다. 과연 타야 할까? 어디로 데려갈까? 하지만 지금은 손님석이 아니라 운전석에 앉아야 할 때다. 우리 손에 들어오는 대로 아무 알고리즘이나 쓰며 몇 년간 고생하다가 결국 처음 시작할 때 알아야 했다고 뒤늦게 발견하는 고통을 겪는 대신 각기 다른 머신러닝이 가정하는 내용을 알면 올바른 알고리즘을 선택할 수 있다. 머신러닝이 무엇을 최적화하는지 안다는 것은, 우리가 블랙박스 안에 무엇이 들어있는지 아는 게 아니라 우리가 바라는 일을 최적화하도록 확실히 요구할 수 있다는 것이다. 특정한 머신러닝 알고리즘이 어떻게 결론에 이르는지 안다면 그 정보를 활용하는 법, 즉 무엇을 믿어야 하고 제조자에게 무엇이 돌아가고 다음에는 더 나은 결과를 얻는 방법을 터득할 것이다. 이 책에서 우리가 개념 모델로서 개발할 보편적인 머신러닝을 통해 이 모든 일을 인식의 과부하없이 해낼 수 있다. 머신러닝의 근본은 간단하기 때문에 가장 안쪽에 들어 있는 러시아 인형을 꺼낼 때처럼 수학과 전문 용어의 층들을 하나씩 벗겨 내기만 하면 된다. [93,94p]

 

흄은 로크가 시작한 경험주의적 사고 체계를 경험주의가 논리적으로 귀결되는 결론까지 이끌었고, 가장 사소한 지식에서 가장 진보한 지식까지 모든 지식 위에 아직도 다모클레스의 칼처럼 매달려 있는 질문을 제기했다. ‘우리가 본 것에서 시작한 일반화를 보지 못한 것까지 적용하는 일을 어떻게 정당화할 수 있는가?’ 모든 머신러닝은 이 질문에 답하려는 시도라 할 수 있다. [115p]

 

두 요소의 조합이 모두 실패한다면 몇 개의 요소의 조합이라도 모두 시도할 것이다. 머신러닝 개발자와 심리학자는 이것을 ‘조합 개념 (conjunctive concept)’ 라 부른다. 사전에 쓰인 낱말의 정의는 접합 개념이다. 의자는 앉는 부분과 등받이와 다리 몇 개로 구성된다. 이들 중 어느 하나라도 없애면 더 이상 의자가 아니다. 접합 개념은 톨스토이가 《안나 까레니나》의 첫 문장을 쓸 때 마음속에 있던 것이다. “행복한 가족은 모두 비슷하다. 불행한 가족은 나름대로 불행의 요인이 있다.” 개인에게도 적용되는 말이다. 행복하려면 건강과 사랑, 친구, 돈, 좋아하는 일 등이 필요하다. 이 중 하나라도 없으면 불행이 따라온다. [126p]

 

호르헤 루이스 보르헤스 (Jorge Luis Borges) 의 소설 《기억의 천재 푸네스》에 완벽한 기억력을 지닌 젊은이가 나온다. 처음에는 완벽한 기억력이 엄청난 행운처럼 보이지만, 사실은 무시무시한 저주다. 푸네스는 과거에 본 하늘의 구름은 언제 보았던 것이든 정확한 모양을 기억할 수 있지만 오후 3시 14분에 옆에서 본 개가 3시 15분에 앞에서 본 개와 같다는 것은 이해하기 어려워 한다. 그는 거울에 비친 자기 얼굴을 볼 때마다 놀란다. 푸네스는 일반화를 할 수 없다. 그에게 두 사물은 마지막 하나까지 똑같이 보일 때만 같다. 제한 사항이 없는 규칙 학습 알고리즘은 푸네스와 같아서 역시 제대로 작동할 수 없다. 학습은 중요한 부분을 기억하는 만큼 세부 항목은 잊는 것이다. 컴퓨터는 궁극적으로 특수 재능을 지닌 학습장애인이다. 컴퓨터는 힘들이지 않고 모든 것을 기억할 수 있지만 우리는 그것을 기대하는 게 아니다. [133p]

 

S자를 옆으로 길게 늘인 것같이 보이는 이 곡선은 다양한 이름으로 알려졌는데 지수함수, 시그모이드 곡선 혹은  S자 곡선이라 부른다. 세상에서 가장 중요한 곡선이므로 꼼꼼히 살펴보기를 권한다. 처음에는 입력이 커지면 출력이 천천히 증가하는데 아주 천천히 증가하여 일정한 값을 유지하는 것으로 보인다. 그러다가 더 빠르게 변하기 시작하고 매우 빠르게 변하다가 점차 더 천천히 변하여 다시 일정한 값이 된다. 트랜지스터의 입력과 출력 사이의 관계를 나타내는 전달 곡선도 S자 곡선이다. 컴퓨터와 두뇌의 많은 부분에 이런 S자 곡선이 적용된다. 물론 S자 곡선은 거기서 끝나지 않는다. S자 곡선은 모든 종류의 상태전이 (phase transition)를 나타내는 곡선이다. 가해진 자기장에 따른 전자 스핀 변화의 확률함수와 철의 자석화, 하드디스크에 정보를 쓰는 동작, 세포에서 이온 채널의 열림, 얼음의 액화, 물의 기화, 초기 우주의 급속한 팽창, 진화론의 단속평형설, 과학에서 일어나는 패러다임 전환, 신기술 확산, 다인종 이웃에서 벗어나려는 백인들의 교외 이주, 소문, 유행병, 혁명, 제국의 쇠퇴 등 아주 많은 예가 있다. 급격한 변화 시점인 티핑 포인트도 똑같이 S자 곡선이라 부를 수 있다. 지진은 이웃한 지질구조판 두개의 상대적인 위치에서 나타난 상태 전이다. 한밤에 집에서 들리는 ‘딱’ 소리는 벽 속의 구조판이 미세하게 위치를 바꾸며 나는 소리일 뿐이니 겁먹을 필요없다. 슘페터는 경제는 하강과 상승을 하며 발전한다고 말했다. S자 곡선은 창조적 파괴를 나타낸다. 재정 이득과 손실이 당신의 행복에 미치는 영향은 S자 곡선을 따르는 터, 엄청나게 큰 건에는 진땀 빼지 마라.

해밍웨이의 소설 《태양은 다시 떠오른다》에서 마이크 캠벨은 어떻게 파산했느냐는 질문에 간단히 대답한다. “두 가지 상황이 있었다. 서서히 그러다가 갑자기 파산했다.” 리먼브라더스의 파산도 같은 식으로 말할 수 있다. 이런 방식이 S자 곡선의 본질이다. [182, 183p]

 

그런데 가장 인기 있는 선택 사항은 우리의 슬픔을 술잔에 넣어 버리고 정신 못 차릴 정도로 취하여 밤새도록 비틀거리며 돌아다니는 것이다. 기술 용어로 마르코프 연쇄 몬테카를로 (Markov chain Monte Carlo) 라고 부르고 줄여서 MCMC 라 한다. 몬테카를로라는 말이 붙은 까닭은 같은 이름의 카지노에 방문하는 것 같은 기회를 포함하기 때문이고, 마르코프 연쇄가 붙은 까닭은 각 단계가 오직 이전 단계하고만 연관되는 일련의 단계를 거치는 과정을 포함하기 때문이다. MCMC 방식의 착상은 소문난 술꾼처럼 최종적으로는 네트워크의 각 상태를 방문한 횟수가 상태의 확률에 비례하도록 이 상태에서 저 상태로 건너뛰면서 무작위로 걷는 것이다. 그런 다음 예를 들어 강도 침입의 확률을 강도 침입이 있었던 상태를 방문한 횟수의 비율로 나타낸다. 얌전한 마르코프 연쇄는 안정된 분포로 수렴하고 일정 시간 후에는 항상 거의 같은 답을 내놓는다.  [270p]

 

재미있는 실험이 또 있다. 로비의 눈으로 흘러 들어오는 영상을 취하여 각 영상 프레임을 영상들의 공간에 있는 한 점으로 취급하고, 이 점들의 집합에 대하여 차원 축소를 적용하여 하나의 차원에 표시한다고 하자. 주요 차원은 무엇일까? 바로 시간이다. 책장에 책을 정리하는 도서관 사서처럼 시간은 각 프레임을 가장 비슷한 프레임 옆에 놓는다. 시간이 이러한 일을 하는 걸 인식하는 것은 두뇌가 지닌 대단한 차원 축소 능력이 발휘된 자연스런 결과일 따름이다. 기억을 연결하는 도로망에서 시간은 주요 도로이고, 우리는 곧 이런 것을 살펴볼 것이다. 시간은 다른 말로 하면 기억의 주요 성분축이다. [351p]

 

한쪽만 보면 머신러닝은 데이터 수집과 인간의 기여 부분에 가려 암박멸 연구 과제의 작은 부분에 불과해 보이기도 한다. 하지만 다른 쪽에서 보면 머신러닝은 전체 사업의 핵심이다. 머신러닝이 없으면 암에 대한 생물학 지식은 수천의 데이터베이스와 수백만 과학 저술, 작은 부분만 아는 의사들에게 흩어지고 우리에게는 암에 대한 파편화된 생물학 지식만 있을 것이다. 이런 지식을 일관성 있게 하나로 모으는 것은 아무리 똑똑하더라도 사람이 혼자서 할 수 있는 일이 아니다. 오직 머신러닝만 할 수 있다. 모든 암이 서로 다르기 때문에 공통의 유형을 찾으려면 머신러닝이 필요하다. 조직 하나만 해도 수십억 가지 정보를 내놓기 때문에 새로운 환자에게 개별적으로 무엇을 해야 하는지 파악하려면 머신러닝이 필요하다.

궁극적으로 암 박멸 알고리즘을 만들려는 노력은 이미 진행 중이다. 시스템생물학이라는 새로운 분야의 연구원들은 개별 유전자나 단백질의 신진대사를 뛰어넘어 전체 신진대사망의 모형을 세운다. 스탠퍼드대학의 한 연구 조직은 전체 세포의 모형을 만들었다. 유전학 및 보건을 위한 국제연합 (Global Alliance for Genetic and Health) 은 대규모 분석을 목표로 연구원과 종양학자의 데이터 공유를 촉진한다. CancerCommons.org 에서는 암을 설명하는 모형을 수집하며 환자들이 자신의 병력을 모으고 비슷한 사례에서 서로 배우도록 한다. 파운데이션 메디슨은 환자의 암 세포에서 변이를 정확히 찾아내어 가장 적절한 약을 제안한다. 10년 전에는 암을 치료할 수 있을지, 어떻게 치료할지 분명하지 않았다. 이제는 암 치료에 도달하는 길을 볼 수 있다. 먼 길이지만 우리는 마침내 발견했다. [417, 418p]

 

Leave a Comment