“An Introduction to Statistical Learning with R” 은 참 잘 쓰여진 책입니다. 통계학 비 전공자가 이해하기 쉽도록 구성되어 있으며, 영어 문장 역시 간결하고 꼭 필요한 내용만으로 이뤄져 문장들의 완결성이 무척 높은 편입니다. 개인적으로는 읽었던 내용을 복기해 보며 내용들을 상기하고, 다른 분들께는 책의 내용을 직접 인용하거나 개인적으로 정리한 내용을 토대로 하여 소개하고자 합니다.
첫 내용은 chapter 01. Introduction 의 내용 중 통계 학습의 역사와 이 책의 구성, 선언 부분입니다. 서문을 통해서 이 책이 전달하고자 하는바를 대략적으로 이해할 수 있고, 머신러닝의 역사에 대해서도 짧막하게나마 훑어볼 수 있는 계기가 될 것입니다. 아래 영어 원문과 함께 번역한 내용을 올립니다.
통계학습의 간략한 역사
통계학습이란 용어는 꽤 새로운 것이지만, 많은 개념들은 오래 전에 있었던 것이었다. 19세기 초에 Legendre 와 Gauss 는 처음으로 천문학 문제에 성공적으로 적용한 최소 좌승법에 관한 논문을 발표하였다. 선형 회귀는 개인의 월급 같은 정량적인 예측을 위해 사용되었다. 환자의 삶과 죽음, 주가 지수의 증가와 감소와 같은 정성적인 값들을 예측하기 위해서, Fisher 는 LDA; linear discriminant analysis 를 1936에 발표하였다. 1940년대에는 많은 사람들이 logistic regression 같은 다른 방식에 매진했다. 1970년대에는 Nelder 와 Wedderburn 은 선형 회귀와 logistic regression 을 특수한 경우로 포함하여 함께 generalized linear models 라는 용어를 만들어 냈다.
1970년대 후반에는 데이터로부터 학습하는 많은 방법들이 가능해졌다. 그러나 그 대부분은 선형적인 방법들이었는데, 왜냐하면 비 선형적인 방법들은 그 당시에 계산이 불가능했기 때문이다. 1980년대 들어 계산 기법이 비선형적인 기법들에도 충분히 적용될 만큼 발전되었다. 1980 대 중반에 Briemann, Friedman, Olshen과 Stone 은 트리 분류기 및 트리 회귀 기법을 소개했는데, 모델 선택방식에서 교차검증을 포함하는 실질적인 구현의 강점을 처음으로 설명하였다. Hasite 와 Tibshirani (이 책의 저자)는 generalized additive models 를 1986년 처음 발표했는데 generalized linear models 의 비선형 확장이었다.
그 이후로 머신 러싱과 다른 기술들의 출현에 고무되어서 통계 학습은 지도학습과 비지도학습 모델과 예측에 초점을 맞춘 통계학의 한 부분으로 자리잡게 되었다. 최근 들어서는 R 과 같은 강력하고 사용자 친화적인 소프트웨어에 기인하여 통계 학습은 커다란 진보를 맞고 있다. 통계학자들과 컴퓨터 공학자들에 의해 개발되고 사용되던 기법들이 앞으로는 더 넓은 커뮤니티에서 필수적인 도구로 사용될 수 있는 잠재력을 갖고 있음을 말해주고 있는 것이다.
이 책은,
The Elements of Statistical Learning (ESL) by Hastie, Tibshrani, and Friedman 은 2001 년에 최초로 출간되었다. 그 이후로, 이 책은 통계적 머신 러닝에 대한 바이블 처럼 중요해졌다. 그것은 광범위하고 상세한 통계적 학습의 기법에 대한 기술 및 상대적으로 광범위한 독자들을 위한 책으로서의 역할이었다. 하지만, ELS 의 위대한 성공 이면에는 주제적인 부분이 있었다. 출간될 당시는 통계적 학습에 대한 흥미가 폭발하던 시기였다. ESL 은 해당 주제에 대한 최초의 종합적인 입문 서적이었다.
ESL 이 출간된 이래로, 통계적 학습영역은 꾸준히 번영의 시대를 이루었다. 크게 두 가지 영역으로 확대되어 왔다. 가장 명확한 발전은 과학적 질문들을 해결하기 위한 새롭고 향상된 통계적 학습 기법들이었다. 그러나 통계 학습은 그 외의 영역으로도 그 범위를 확대해 나갔다. 1990년대 계산 능력의 증대는 비 통계학자들에게 최신 통계기법을 적용할 수 있는 기회를 주었다. 하지만 불행히도 이런 시도들은 기술적으로 매우 전문적이라는 제한에 의해 통계학이나 컴퓨터 공학자, 그것들을 구현하고 이해할 수 있는 교육을 받은 관련 영역에만 국한되는 점이 있었다.
최근들어 새롭게 향상된 소프트웨어 패키지들은 많은 통계적 학습 방법들의 구현의 짐을 덜어 주었다. 동시에 정말 많은 분야에서 통계적 학습에 관한 관심은 증대되었다. 비지니스에서 헬쓰 케어, 유전학, 사회 과학 그리고 그것들을 넘어서서 통계적 학습은 실제적인 응용에 중요한 수단이 되었다. 결과적으로 처음 학술적인 관심에서 출발하였으나 방대한 잠재적 관심을 받는 주류 분야로 자리매김하게 되었다. 이런 경향은 앞으로도 방대한 양의 데이터와 그것들 분석하는 소프트웨어의 가용성을 증가하도록 할 것이다.
이 책, An Introduction to Statistical Learning (ISL) 의 목적은 통계적 학습의 학술적인 측면을 주류 분야들로 전환시키는 것을 활발히 하는데 있다. ISL 은 ESL 을 대체하려고 하지 않는다. ESL 은 더 방대한 기법들을 다루고, 훨씬 깊이 있는 설명을 하기 때문이다. ESL 은 통계적 학습기법들의 기술적 상세를 알고 이해하고 싶어하는 전문가들 (통계학과 머신러닝 또는 관련 분야의 대학원 학위자들)에게 중요한 교재로 병행할 수 있다고 생각한다. 그러나 통계적 학습의 사용자 집단은 이제 좀 더 다양한 관점과 배경을 가진 개인들을 포함하여 확대되었다. 그러므로, 우리는 조금 덜 기술적이고 좀 더 접근하기 쉬운 ESL 버전의 책이 필요하다고 생각했다.
이 주제를 수 년간 강의하면서 상급 학부생들 뿐만 아니라 비지니스 운영, 생물학, 컴퓨터 공학 분야의 석사나 박사 학생들이 통계적 학습에 많은 관심을 갖고 있는 것을 알게 되었다. 이들 다양한 그룹들이 단순한 흥미만이 아니라 통계적 학습의 배경에 숨은 모델과 직관, 강점과 기술적인 상세에 대해 이해하는 것이 중요하다. 예를들면 최적화 알고리즘과 이론적인 속성들 같은 것들이다. 이들 학생들이 다양한 방법론들에 대해 알고, 통계적 학습 툴을 이용하여 자신들의 분야에 기여하는데 상세한 부분까지 아주 깊은 이해는 필요하지 않다고 생각한다.
ISLR 은 다음 네 가지 전제를 기반으로 한다.
1. 많은 통계적 학습 방법은 비단 통계학만을 넘어서, 학술적이거나 또는 학술적이지 않거나 훈육등의 다양한 범주에 관련있고 유용하다. 우리는 많은 현대의 통계적 학습 과정이 선형 회귀와 같은 고전적 방법의 경우와 같이 널리 이용 가능하고 사용되어야한다고 믿는다. 결과적으로 모든 방법들을 고려하는 대신에, 가장 광범위하게 응용되는 방법들을 소개하는데 집중한다.
2. 통계적 학습이 일련의 ‘블랙박스’로 여겨져서는 안 된다. 어떤 유일한 방법도 모든 응용에 적합할 수는 없다. ‘박스’ 내부의 장치들을 이해하지 않거나 그 장치간의 상호작용을 이해하지 않는다면 가장 좋은 ‘박스’를 선택하는 것은 불가능하기 때문이다. 따라서 우리는 우리가 고려하는 각 방법들 내부의 모델링, 직관, 가정, trade-off 들을 주의깊게 살펴볼 것이다.
3. 각 장치들이 어떤 일을 수행하는지 아는 것은 중요하지만, 그 박스 내부의 장치를 직접 만드는 것은 불필요하다. 그러므로 우리는 모델 적합이나 이론적인 속성들에 대해 기술적으로 상세히 설명하는 것은 최소화 하려한다. 우리는 독자들이 기본적인 수학적 개념들에 대해서는 함양하고 있다고 가정한다. 그렇다고 수학과 대학원생 수준을 가정하지는 않는다. 예를 들면, 행렬 대수와 같은 것들은 거의 배제할 것이므로 매트릭스나 벡터와 같은 상세한 지식이 없더라도 이 책을 이해하는데 큰 문제는 없을 것이다.
4. 우리는 독자들이 통계적 학습을 현실 세계 문제 해결하는데 적용하는 것에 관심을 갖고 있다고 가정한다. 이들 기법들을 함양시키고 실제적 적용하는데 도움주기 위해 각 chapter 에 R computer lab 을 구성했다. 각 lab 에서 독자들은 현실적 응용을 맛 볼 수 있을 것이다. 우리들 강의에서 이들 자료들을 가르쳤을 때, 1/3 정도의 시간을 lab 에 할당했으며 이것은 매우 유용했다는 걸 알 수 있었다. R 의 명령어 인터페이스 환경에 낯선 학생들은 학기의 1/4은 어려움을 겪기도 했다. 우리가 R 을 사용한 이유는 무료이고 이 책에 나온 모든 방법들을 구현하는데 문제가 없을 만큼 강력하기 때문이다. 또한 다른 추가적인 방법들도 수천가지의 많은 패키지들을 다운로드하여 사용할 수 있게 되어 있다. 가장 중요하게는 R 은 학계의 통계학자들을 위해 선택된 언어이며, 새로운 방법들이 상업 패키지들에서 구현되기 이미 수년 전에 R 에서는 사용가능하기 때문이다. 그러나 ISL 의 lab 은 자가학습용이다. 다른 소프트웨어를 사용하고 싶거나 실제 응용문제에 적용하지 않아도 되는 경우에는 넘어가도 된다.
[다음은 영문]
A Brief History of Statistical Learning
Though the term statistical learning is fairly new, many of the concepts that underlie the field were developed long ago. At the beginning of the nineteenth century, Legendre and Gauss published papers on the method of least squares, which implemented the first successfully applied to problems in astronomy. Linear regression is used for predict qualitative values, such as an individual’s salary. In order to predict qualitative vales, such as whether a patient survives or dies, or whether the stock market increases or decreases, Fisher proposed linear discriminant analysis in 1936. In the 1940s, various authors put forth an alternative approach, logistic regression. In the early 1970s, Nelder and Wedderburn coined the term generalized linear models for an entire class of statistical learning methods that include both linear and logistic regression as special cases.
By the end of the 1970s, many more techniques for learning from data were available. However, they were almost exclusively linear methods, because fitting non-linear relationships was computationally infeasible at the time. By the 1980s, computing technology had finally improved sufficiently that non-linear methods were no longer computationally prohibitive. In mid 1980s Breiman, Friedman, Olshen and Stone introduced classification and regression trees, and were among the first to demonstrate the power of a detailed practical implementation of a method, including cross-validation for model selection. Hastie and Tibshirani coined the term generalized additive models in 1986 for a class of non-linear extensions to generalized linear models, and also provided a practical software implementation.
Since that time, inspired by the advent of machine learning and other disciplines, statistical learning has emerged as a new subfield in statistics, focused on supervised and unsupervised modeling and prediction. In recent years, progress in statistical learning has been marked by the increasing availability of powerful and relatively user-friendly software, such as the popular and freely available R system. This has the potential to continue the transformation of the field from a set of techniques used and developed by statisticians and computer scientists to an essential toolkit for a much broader community.
This Book
The Elements of Statistical Learning (ESL) by Hastie, Tibshrani, and Friedman was first published in 2001. Since that time, it has become an important reference on the fundamentals of statistical machine learning. Its success derives from its comprehensive and detailed treatment of many important topics in statistical learning, as well as the fact that (relative to many upper-level statistics textbooks) it is accessible to a wide audience. However, the greatest factor behind the success of ESL has been its topical nature. At the time of its publication, interest in the field of statistical learning was starting to explode. ESL provided one of the first accessible and comprehensive introductions to the topic.
Since ESL was first published, the field of statistical learning has continued to flourish. The field’s expansion has taken two forms. The most obvious growth has involved the development of new and improved statistical learning approaches aimed at answering a range of scientific questions across a number of fields. However, the field of statistical learning has also expanded its audience. In the 1990s, increases in computational power generated a surge of interest in the field from non-statisticians who were eager to use cutting-edge statistical tools to analyze their data. Unfortunately, the highly technical nature of these approaches meant that the user community remained primarily restricted to experts in statistics, computer science, and related fields with the training ( and time) to understand and implement them.
In recent years, new and improved software packages have significantly eased the implementation burden for many statistical learning methods. At the same time, there has been growing recognition across a number of fields, from business to health care to genetics to the social science and beyond, that statistical learning is a powerful tool with important practical applications. As a result, the field has moved from one of primarily academic interest to a mainstream discipline, with an enormous potential audience. This trend will surely continue with the increasing availability of enormous quantities of data and the software to analyze it.
The purpose of An Introduction to Statistical Learning (ISL) is to facilitate the transition of statistical learning from an academic to a mainstream field. ISL is not intended to replace ESL, which is a more comprehensive text both in terms of the number of approaches considered and the depth to which they are explored. We consider ESL to be an important companion for professionals (with graduate degrees in statistics, machine learning, or related fields) who need to understand the technical details behind statistical learning approaches. However, the community of users of statistical learning techniques has expanded to include individuals with a wider range of interests and backgrounds. Therefore, we believe that there is now a place for a less technical and more accessible version of ESL.
In teaching these topics over the years, we have discovered that they are of interest to master’s and PhD students in fields as disparate as business administration, biology, and computer science, as well as to quantitatively-oriented upper-division undergraduates. It is important for this diverse group to be able to understand the models, intuitions, and strengths and technical details behind statistical learning methods, such as optimization algorithms and theoretical properties, are not of primary interest. We believe that these students do not need a deep understanding of these aspects in order to become informed users of the various methodologies, and in order to contribute to their chosen fields through the use of statistical leaning tools.
ISLR is based on the following four premises.
1. Many statistical learning methods are relevant and useful in a wide range of academic and non-academic and disciplines, beyond just the statistical sciences. We believe that many contemporary statistical learning procedures should, and will, become as widely available and used as is currently the case for classical methods such as linear regression. As a result, rather than attempting to consider every possible approach (an important task), we have concentrated on presenting the methods that we believe are most widely applicable.
2. Statistical learning should not be viewed as a series of black boxes. No single approach will perform well in all possible applications. Without understanding all of the cogs inside the box, or the interaction between those cogs, it is impossible to select the best box. Hence, we have attempted to carefully describe the model, intuition, assumptions, and trade-offs behind each of the methods that we consider.
3. While it is important to know what job is performed by each cog, it is not necessary to have the skills to construct the machine inside the box! Thus, we have minimized discussion of technical details related to fitting procedures and theoretical properties. We assume that the reader is comfortable with basic mathematical concepts, but we do not assume a graduate degree in the mathematical sciences. For instance, we have almost completely avoided the use of matrix algebra, and it is possible to understand the entire book without a detailed knowledge of matrices and vectors.
4. We presume that the reader is interested in applying statistical learning methods to real-world problems. In order to facilitate this, as well as to motivate the techniques discussed, we have devoted a section within each chapter to R computer labs. In each labs, we walk the reader through realistic application of the methods considered in that chapter. When we have taught this material in our courses, we have allocated roughly one-third of classroom time to working through the labs, and we have found them to be extremely useful. Many of the less computationally-oriented students who were initially intimidated by R’s command level interface got the hang of things over the course of the quarter or semester. We have used R because it is freely available and is powerful enough to implement all of the methods discussed in the book. It also has optional packages that can be downloaded to implement literally thousands of additional methods. Most importantly, R is the language of choice for academic statisticians, and new approaches often become available in R years before they are implemented in commercial packages. However, the labs in ISL are self-contained, and can be skipped if the reader wished to used different software package or does not wish to apply the methods discussed to real-world problems.