![[독서] 수학의 쓸모](https://image.inblog.dev?url=https%3A%2F%2Finblog.ai%2Fapi%2Fog%3Ftitle%3D%255B%25EB%258F%2585%25EC%2584%259C%255D%2520%25EC%2588%2598%25ED%2595%2599%25EC%259D%2598%2520%25EC%2593%25B8%25EB%25AA%25A8%26logoUrl%3Dhttps%253A%252F%252Finblog.ai%252Finblog_logo.png%26blogTitle%3D%25EC%258A%25A4%25ED%2583%25AF%25EB%25B8%2594%25EB%25A1%259C%25EA%25B7%25B8%2520-%2520%25EB%258D%25B0%25EC%259D%25B4%25ED%2584%25B0%2520%25EC%2582%25AC%25EC%259D%25B4%25EC%2596%25B8%25EC%258A%25A4&w=2048&q=75)
수학의 쓸모란 책을 알게 됐을 때가 2020년이다.
그 당시 이 책을 읽기 전까지 내가 4년이란 시간동안 배웠던 통계학의 개념들이 어떻게 사용되는 건가, 에 대한 엄청난 궁금함과 갈증이 있었다.
그 때 우연히 읽게 된 책이 바로 수학의 쓸모이며 덕분에 당시에 가지고 있었던 의문과 갈증을 해결할 수 있었다.
알고보니 꼭 맞지는 않는 조언들
통계학은 메인이 될 수가 없어. 다른 도메인에서 갖다 쓰는 건 되는데 통계학으로는 좀...
공부를 하면서 가장 많이 들었던 선배들의 말씀이다.
심지어 대학원을 졸업하고 NLP 분야에서 다양한 회사들의 컨설팅 외주를 받는 곳에 취업하고 일하시는 한 선배는 모 학교에 돌아와서 강의를 하며 이런 말을 했다.
통계학이요? 수학? 음... 전혀 안 써요ㅎ
흠… 뭐지? 그럼 통계학을 왜 공부하지?
그럼 프로그래밍이랑 공학 지식들만 알면 되는 건가 싶었다.
당시에 정말 많은 방황을 했었는데 이 책이 나름의 구원책이 됐었고 덕분에 지금까지 공부를 지속할 수 있었다.
데이터 분석
책을 읽고 나서 나는 자신에 차서 친구들과 후배들을 모아서 바로 데이터 분석을 시작했었다.
내가 배웠던 개념들이 현실 세계에서 이렇게 적용될 수 있다고?
대학교 지식을 배우는 것에서 끝나는 게 아니라 배워본 것을 적용하고 세상의 뜨거운 감자가 된 머신러닝, 딥러닝도 공부하고 적용하다 보면 나도 사회에 쓸모가 될 수 있는 사람이 될 수 있을 것 같았다.
그러한 믿음 덕분에 나는 지금까지 공부를 할 수 있었던 것 같다.
벌써 이 책을 읽은지 2년이 되가지만, 그동안 몇 번씩 다시 보기도 하며 제대로 이해하지 못한 부분은 조금씩 더 이해하고 새로운 관점으로 바라볼 수 있었다.
다른 사람들도 기회가 된다면 이 책을 읽어보면서 이야기와 맥락을 통해 수학, 통계학 지식들이 이런 식으로 세상에 쓰일 수 있겠구나 라는 생각을 접해봤으면 좋겠다.
인상깊었던 내용들
- 조건부 확률은 비대칭적이다. ex) 뺨을 맞아서 울 확률 ≠ 울어서 뺨을 맞을 확률.
- 세계 2차 대전에서 왈드가 격추돼 귀환하지 못한 비행기 Data(Null)를 채우기 위해서 엔지니어들과 상의해 Data를 채우기(Imputation) 위해 엄청 노력했던 부분에서 ‘Domain에 대한 이해와 고민 그리고 긴밀한 협업’이 정말로 필요하구나 라고 생각함.
- 넷플릭스 추천 모형 대회 1등 팀의 Latent Feature를 찾기 위해 Factor Analysis를 사용했구나.
- 소비자의 데이터를 거대한 다차원 유클리드 공간에서 분류하고 가입자가 위치한 지역의 특성에 맞게 선호를 파악해 감상할 작품을 추천해주는 거구나. (알고리즘의 개인화 → 조건부 확률)
- 신경망이 필요한 이유: 광범위한 예측 과제들을 잘 수행하기 때문.
- 계산을 병렬적으로 나눠서 처리해주는 그래픽 카드를 이용해 대용량 모형을 이용할 수 있다.
- 페이스북, 인스타, 유튜브의 태그가 소비자의 검색에도 도움이 되지만 회사가 인공지능 모델을 학습시킬 때에도 엄청나게 도움이 된다. 알아서 데이터의 특성을 라벨링 해주니까ㅋㅋㅋㅋ
- 엄청나게 많은 시행착오 → 틀린 건 반영해서 모델을 수정하면 된다.
- 많은 매개변수를 사용한다는 것은 우리가 상상하는 위상공간을 압축시키고 세분화하는 것.
의료분야에서 데이터를 활용했으면 하는 부분
(요즘은 데이터를 잘 쓰지 않을까?)
- 단순히 체크리스트와 결과만 확인하는 것이 아니라 데이터의 경향을 나타내는 그래프나 차트를 활용하면 좋을 것 같다.
- 데이터가 있더라도 의사들이 데이터에 접근하고 이용하는 능력을 훈련할 필요가 있다. (그럴 시간과 의지가 과연 될까?ㅠㅠ)
핵탄두가 탑재된 핵잠수함 찾기
- 모든 확률은 우리가 알고 있는 지식(사전 정보, prior)에 따라 달라진다. ex) 돈 버는 법을 잘 알면 더 부유해질 확률이 상승한다.
- 자율주행 차의 베이지안 업데이트 과정 또한 현재 위치의 정보(prior)와 이동하면서 수집하는 정보(likelihood)를 이용해 비슷한 원리로 이룰 수 있다. (근데 이건 엔비디아나 테슬라의 stack과 업무 프로세스를 참고해서 얘기하는 게 옳을 것 같다.)
- 미국의 통계학자 존 크레이븐은 핵탄두를 보유한 스콜피온 잠수함을 어떻게 찾았나?
- 다양한 전문가들의 의견을 반영해 사전 확률을 계산
- 사전 확률에 따른 유력한 장소를 탐색.
- 찾으면 Good, 없으면 likelihood에서는 탐색한 곳의 확률이 낮아지고 이는 사후(posterior) 확률을 계산할 때 반영.
- 사전 확률(현재의 믿음) × 가능도(데이터, likelihood) ∝ 사후 확률(수정된 믿음)
- 이게 무한 반복
Share article