통계학 공부 후기 / 전공교재 리뷰 시리즈 |
1. 통계학 공부 후기 / 전공교재 리뷰 (상) - 왜 통계 공부? |
2. 통계학 공부 후기 / 전공교재 리뷰 (중) - 기초과목 리뷰 |
3. 통계학 공부 후기 / 전공교재 리뷰 (하) - 심화과목 리뷰 |
통계공부 커리큘럼
첫 포스트와 저번 포스트에 이어서, 통계학 전공 공부를 리뷰해볼까 합니다. 다시 한 번 말씀드리지만, 저는 비전공자고, 데이터 분석을 위한 수준만 날림 공부를 했습니다. 정말 전공자 분들이 하듯이 시험을 친다는 전제 하에 한땀한땀 증명하고 한땀한땀 연습문제 풀지는 않았습니다. (전혀 안하진 않았습니다) 그러니까 너무 진지하게 듣진 말아주세요, 저처럼 통계 깔짝 공부하려는 AI 개발자는 환영입니다ㅎㅎ
이번 포스트, (하)편에서는 (중)편에 이어 여기서 3학년 2학기와 4학년 내용을 스쳐지나가듯이 공부하며 느낀점을 기록하겠습니다. 주관적 선호도와 사용한 교재도 소개하겠습니다. ("수치"라고 된 실습 과목은 일단 제외하고, 몇몇 저세상 난이도 수학 과목도 제외하고...)

이산자료분석 (범주형자료분석)
- 선호도: 중. 초반 카이제곱검정까지 내용과 중반 로지스틱회귀 내용이 중요합니다.
- 교재: 범주형 자료분석 개론을 사용했습니다.
통계검정, 그러니까 "A랑 B가 같냐?"로 대표되는 이 학문에서 A와 B라는 이 표본들은 연속된 숫자일 수도 있고, 너구리와 올빼미처럼 한 카테고리, 다시 말해 범주형일 수도 있습니다. 이 과목은 범주형 표본을 어떻게 검정할지를 설명해주는데, 당연히 중요합니다만 중반을 지나 로지스틱회귀 내용이 나오고 나면 결국 앞에서 배운 회귀분석에서 했던 얘기를 또 하게 됩니다. 회귀는 신이었습니다, 저만 몰랐지... 아무튼 카이제곱검정이나 피셔검정 등등 세상에 수많은 범주형 데이터를 검정할 때 쓸 방법론이 많이 나옵니다.
다변량자료분석
- 선호도: 하. 중요하긴 하지만... 후술하겠습니다.
- 교재: 저는 R을 활용한 다변량 통계분석 입문을 사용했습니다. 해외에서도 교재가 여러 선택지로 갈리는 것 같았습니다.
네, 사실 다 다변량입니다. 하나의 요인만으로 결정되는게 세상에 어딨을까요? 그런 일차원적인 세상이 아니라 우리는 최소 삼차원 세상에 살고 있기 때문에, 대부분 분석은 다변량분석입니다. 여러 요인으로 결정되는 것들을 어떻게 분석할 것인지에 대해, 회귀분석이나 분산분석이나 t검정 등등 다양한 방법론을 발전시켜나갑니다만, 사실 AI 좀 하시던 분들은 아는 내용이 많이 나옵니다. PCA라든지... 근데 그것들을 엄밀하게 증명하고 계산하기에는 말 그대로 다변량이라 계산량이 많기 때문에, 예제가 결국 컴퓨터로 풀 수 밖에 없어서 깊게 공부하기 어려웠습니다.
시계열분석
- 선호도: 중. 노이즈 제거해서 선형회귀하기?
- 교재: SAS/ETS를 이용한 시계열분석
이 책 표지가 안예뻐서 살까말까 고민했는데,읽어보니 정말 좋은 책이더라구요.
분석하고자 하는 자료의 종류가 시간에 따라 바뀌는 경우, 즉 시계열 자료를 분석하기 위한 방법론입니다. "시간에 따라 바뀐다... 이거 시간축을 갖는 선형회귀를 하면 되겠다" 싶지만 그렇게 쉽게 해결되지는 않습니다. 저같은 경우에는 알고리즘트레이딩 공부를 깔짝 할 때 공부했던 내용들이 나오는데, 역시 엄밀하게 검정하고 들어가니 만만치 않았습니다. 사실 AI 계열에서는 시계열분석이 거의 딥러닝 RNN 으로 많이 넘어와서, 엄밀한 통계적 검정을 잘 하진 않는 걸로 알고 있는데, 경제학 쪽에서는 엄밀한 예측이 필요해 많이 사용하는 것 같습니다. 저는 엄밀하게까진 알고싶지 않아서 조금만 읽고 다른 교재로 넘어갔습니다.
비모수통계
- 선호도: 중. 생물학에서는 엄청 많이 써서 저는 좀 익숙한데, 다른 분야는 자주 쓰진 않는 것 같습니다.
- 교재: 저는 자유아카데미 비모수통계학 with R 교재를 써서 공부했는데, 딱 이거다 하는 책은 없는 것 같습니다. 이 책 엄청 좋았습니다. 설명도 좋고 예제도 재밌고.
세상이 만만치 않음을 알려주는 또다른 분야, 비모수통계입니다. 통계는 표본의 특성이 모집단의 특성과 같은가, 즉 모수와 같은가를 검정하는데, 이 모수조차 모른다면 어떻게할지에 대해 알려주는 과목입니다. 불을 지피는 화염방사기의 구조는 모르지만, 부싯돌의 모양은 우리가 잘 알고 있죠. 모수를 알 때의 검정은 이론적으로 이해하기 어렵지만, 생각보다 모수를 모를 때의 비모수검정은 이론적으로 꽤 단순한 방법론이 많아서, 공부하다보면 은근 재밌습니다. 그냥 생물학에서 많이 접해서 반가운 것 같기도... 다만 특이한 케이스들이 많아서 실제로 사용할 일이 많아보이진 않기도...
확률과정론
- 선호도: 하. 베이즈나 시계열을 위한 발판인데, 사실 너무 근본 수학이었습니다.
- 교재: 저는 외국 교재가 국내에 번역된게 없는줄 알고 확률과정론 입문 (이외숙 저) 를 사서 공부했는데, 나중에 찾아보니 로스의 확률모형 이란 교재가 번역되어있더라구요. 확률모델로 검색할걸. 이외숙 교수님 저서도 엄청 어렵진 않고 괜찮았습니다.
사실 여기는 제가 얘기할 수 있는게 많지 않습니다. 확률과정이라는 것이 어떤 시점까지의 확률을 기반으로 다음 시점의 확률을 독립적으로 예상할 수 있을지에 대한 이야기인데, 이게 시계열과 베이즈에서 사용된다고 생각해서 공부를 시도했지만 재생과정? 부터 어려워서 자체드랍했습니다. 마르코프 연쇄 (Markov chain) 는 생물학에서도 자주 등장하는데, 그냥 베이지안을 피상적으로 공부하는데서 만족하기로 자체적으로 합의했습니다...ㅠ 공학이나 공정, 물리학 분야에서는 확률과정론이 정말 중요하다는 얘기를 전해들었습니다.
베이즈통계
- 선호도: 중. 학문의 중요성만 따지면 상인데, 제 개인적 선호도긴 하니까...
- 교재: 저는 베이지안 통계학의 이론, 계산 및 응용 이라는 교재를 보았는데, 무지 어려워서 딴걸로 갈아탈 준비 중입니다.
베이즈 또는 베이지안 통계학은, 여태까지 나왔던 통계학 방법론이 절대적인 모수와 그 안의 작은 표본에 대해 얘기한다면, 작은 표본과 그보다 작은 표본을 가지고 얘기하는 분야라고 간단히 표현해볼 수 있습니다. 사실 저도 확신을 가지고 설명하진 못하는게, 이 과목이 여태까지 나왔던 통계학 방법론과 많이 다르다보니 피상적으로 이해하는 난이도와 깊게 이해하는 난이도가 차원이 다릅니다. 저도 교재의 초반부까지는 무리없이 읽다가, 중반부부터 저 세상 수학이 나와서 일단 때려쳤습니다. AI 공부하거나 생물정보학 공부할 때 접했던 베이즈 난이도가 아니더군요... 나중에 각잡고 다시 공부할 생각입니다. 개인적으로는 베이지안이라는 분야 자체가 마음으로 와닿지 않아서 좋아하진 않지만...
AI/ML/DL 교재리뷰...? 이건 또 언제 해
이로서 통계학 전공 공부 후기와 교재 리뷰를 마쳤습니다. 실변수함수론과 함수추정과 확률과정론은 수학이 난해하고 당장 필요하지 않아서 스킵했고, 생존분석과 통계적품질관리는 교재를 따로 사진 않고 필요할 때 찾아서 공부할 생각입니다. 데이터마이닝은 AI, 머신러닝/딥러닝 (ML/DL) 공부할 때 추가로 필요한 부분을 공부할 예정이구요.
아직 공부할 것이 너무 많습니다. 임상의료에서 사용하는 통계학이나, 머신러닝, 딥러닝, 데이터마이닝 등등 교과서들을 쫘르륵 순서를 정해놓고 읽고 있습니다. 수리통계학이랑 회귀분석, 베이즈통계는 다시 공부해야죠. 다음에 리뷰를 할 때는 AI/ML/DL 교재리뷰 라는 제목으로 돌아오겠네요. 최대한 빠른 시일 내에, 이번에는 대충이 아니라 진지하게 정독해서 올 수 있도록 노력해보겠습니다.
'과학 > 통계' 카테고리의 다른 글
통계학 공부 후기 / 전공교재 리뷰 (중) - 기초과목 리뷰 (2) | 2022.11.12 |
---|---|
통계학 공부 후기 / 전공교재 리뷰 (상) - 왜 통계 공부? (0) | 2022.11.12 |
수리통계 확률분포 요약 총정리 한 눈에 보기 (0) | 2022.10.14 |
댓글