Hogg, McKean, Craig <수리통계학 개론> 경문사
수리통계학 개론 - YES24
수리통계학 개론
www.yes24.com
<수리통계학 개론> 후기 - 데이터 사이언티스트가 수리통계 공부해야하는 이유
통계 공부를 하고 있습니다.
제대로 개발했다고 말할 수 있는 시점부터 이제 4년차입니다. 내년이면 5년차가 되겠지만, 생물정보학 베이스로 소프트웨어개발 약간, 웹개발 약간, 연구 약간, 머신러닝 약간 섞여있는 잡종 개발자가 되어버렸습니다. 성격상 잡종보다는 순혈 외길만 파는 장인정신을 선호하지만, 부러워할 수 밖에 없는 건 제가 박사가 아니라 박사 수료라는데서도 드러나겠죠. 긴 시간을 정해두고 천천히 그 시간을 다 채우는 느긋함이 없으니까요ㅎㅎ
다행히 급한 성격이지만 엉덩이가 가볍진 않습니다. 연차가 쌓이면서 뭐 하나 그래도 전문적으로 공부할 수 있는 여유가 퇴근 후에 생겨서, 이것저것 해보다가 결국 자연과학으로 전공 따라 돌아가고 있습니다. 자연과학대학 생명과학부가 어디 가질 않네요. 소프트웨어나 웹 개발 같은 전통적인 컴퓨터공학뿐 아니라, 요즘은 머신러닝 딥러닝 인공지능까지도, 원리도 모른채 추상적인 아키텍처 위에서 돌릴 수 있는 시대입니다. 처음에는 저도 껍데기만 알고 프로그램 짜고, 웹 띄우고, 모델 만들어 돌렸는데, 왜? 왜? 왜? 를 반복하다보니 더 깊은 정보를 얻으려면 책이 아니라 대학원을 가야하는 시점이 오더라구요.
다행히 대학원은 다시 가지 않았습니다만,
아무튼 하다보니 깊은 정보는 결국 자연과학으로 돌아가더라구요. 컴퓨터공학에서 전자공학으로, 물리학으로, 수학으로. 또는 인공지능에서 통계학으로, 또는 수학으로. 안타깝게도 저는 물리를 그다지 좋아하지 않아서 컴퓨터공학에서 땅파기를 어느 시점에 멈췄습니다. 그래도 인공지능에서 통계학으로 돌아가기는 꽤나 적성에 맞는 것 같습니다. 더 깊은 수학의 영역은 발도 못들였지만, 논리의 전개가 제가 이해하고싶은 부분까지 깊게 들어갔다가 나오는 것 같아 공부할 때 편안함을 느낍니다.
1학년 때 교양통계도 듣고 대학원에서 생물통계도 들었는데, 공부가 부족했나봅니다. 자연과학대학 통계학과, 옆 건물 수업을 들을 걸 그랬습니다. 옆 건물 친구들이 듣는 커리큘럼을 혼자 공부하며 따라가보기로 했습니다. 선형대수학과 해석학을 얕게, 아주 얕게 공부했습니다. 정 이해 안되면 건너 뛰고, 수리통계학까지 갔습니다. 이번에 읽은 책이 바로 그 책입니다.
이 책은 읽고 나서 느낀 점을 세 가지로 요약할 수 있을 것 같습니다.
1. 수리통계는 교양통계를 수식으로 풀어내는 과정뿐이라 별 게 없는데도 겁나 어려웠습니다.
Hogg 수리통계학개론은 수리통계학의 근본이라고 여기저기서 말해줬습니다. 근데 그분들이 저거 보려면 다른 쉬운 책을 먼저 보라고 그러셨는데;; 저는 저를 너무 맹신했습니다. 쏟아지는 증명과 계산 속에서 개고생하면서 간신히 읽었고, 역시 너무 이해 안되는 부분은 넘어갔습니다. 책 중반부를 넘어선 후반부는 비모수나 베이지안 등 다양한 이론에 대해 얕게 가르치는 파트라, 다른 깊은 책을 읽기로 했습니다. 그랬더니 한두달 정도 걸린 것 같습니다.
2. 수리통계를 공부하고 나니 "A와 B가 다르다"라는 개념을 이제야 이해한 것 같습니다.
학부 때 이과라면 통계학 수업을 많이들 들었을겁니다. 수리통계가 커버하는 범위는 교양 통계와 거의 같습니다. 다만 우리가 아는 t-test니 카이제곱분포니 하는 것들을 싹다 증명하고 넘어가니, 통계검정이라는, 결국 "A와 B는 다르다"라는 결론을 내기 위해서 하는 그 복잡한 과정을 왜 어떻게 거쳐야하는지를 납득할 수 있습니다. 막말로 이제 쉽게 "A와 B는 같다, 다르다"식의 말을 들을 때마다 합리적으로 의심을 할 수 있게 되었습니다.
3. 인공지능을 사용하는데에 수리통계는 필요없습니다. 인공지능 모델을 완전히 이해했다고 말하려면 수리통계가 필요합니다.
머신러닝은 통계학과 컴퓨터공학이 합쳐 발달된 학문입니다. 딥러닝은 머신러닝의 다양한 방법론 중 하나인데, 성능이 하도 좋아서 별도 학문으로 무럭무럭 크고있죠. 솔직히 다 통계가 엄청 필요하진 않습니다. 1~2학년 수준의 확률론 정도만 알아도 됩니다. 통계학에서 3학년에 하는 수리통계는 통계검정에 초점을 맞추고 있지, 자율학습을 통한 생성모델 등등으로 가는 길 위에 서있는 것 같진 않습니다.
더 좋은 결과를 내게끔 하는 게 공학, 그 결과가 진짜 더 좋은 결과인지, 얼마나 더 좋은 결과인지를 보여주는게 자연과학의 영역입니다. 인공지능 개발은 공학의 영역이고, 통계학은 자연과학의 영역입니다. 하지만 인공지능 모델을 이해하려면 결국 자연과학의 영역에 들어서야합니다.
공학적인 방법론으로만, 인공지능 모델이 더 좋은 결과를 내게 수리하는 데에는 통계가 필요 없었습니다. 하지만 인공지능 모델의 "결과가 좋은가"를 말할 때가 아니라 "정확히 결과가 좋다고 말할 수 있는가", "결과가 옳은가" 또는 "결과가 맞는가"를 말하려면 통계가 필요해질 것 같습니다. 그리고 인공지능을 완전히 이해했다고 말하려면 결과가 "좋은가"가 아니라 "옳은가"를 말할 수 있어야 한다고 생각합니다.
결국 저는 이제야 먼 길을 시작한겁니다. 아직 한참 남았습니다. 통계학과 커리큘럼을 싹다 떼면 또 포스팅을 하겠지만, 저는 그 내용들을 다 한번씩 공부했음에도, 피상적으로만 알고있지 수학적으로 알고있는건 아닌 것 같네요. 인공지능 공부하다가, 또는 관련 일을 하다가 "그래서 이 모델이 왜 더 좋다는거지?", "그래서 이 모델이 좋다는게 진짜 확실한건가?"라는 근원적인 의문이 드시는분들은, 저처럼 수리통계 약간이나마 공부해보시면 좋을 것 같습니다.
'서평' 카테고리의 다른 글
<HTTP 완벽 가이드> 후기 - 흔치 않은 웹개발 근본 (2) | 2023.02.14 |
---|---|
<데이터 중심 애플리케이션 설계> 개발서적 후기 (0) | 2022.09.13 |
<실용주의 프로그래머> 개발서적 후기 (0) | 2022.09.13 |
댓글