181128-TodayWhatILearned

181128 TWIL


To-do-list : 오늘 할일

  1. ~ Classification 성능평가
  2. 수학 9장 2절
  3. Pandas ~ 100pages

오늘 한 일은 무엇인가

  1. ~ Classification 성능평가
  2. 수학 9장 2절

내일 할 일은 무엇인가

  1. Pandas 100page

무엇을 느꼈는가

  • 프로젝트를 한번 해서 그런지, 지금 공부하는 내용도 앞으로 프로젝트에서 어떻게 활용해야할지 염두? 걱정?
    하며 공부를 하게 되는 것 같다. 메소드를 정리할 필요가 있고, 배우는 각 개념들이 어떤 판단을 바탕으로 사용해야
    하는지 생각하며 공부하게 되는 것 같다.
  • 시간이 부족하여, 메소드들을 좀더 디테일하게 보지 못하는 아쉬움이 있지만, 이런 것들을 주말 등을 통하여
    보충할 필요가 있다.

181127-TodayWhatILearned

181127 TWIL


To-do-list : 오늘 할일

  1. 알고리즘 복습
  2. Shell script cheatsheet 작성
  3. Pandas - 100page
  4. 수학 9장-2절

오늘 한 일은 무엇인가

  1. 알고리즘 복습
  2. Shell script cheatsheet 작성

내일 할 일은 무엇인가

  1. Pandas - 100page
  2. 수학 9장-2절
  3. Classification Intro, Scikit-Learn 의 전처리 부분 code 정리

무엇을 느꼈는가

  • 알고리즘 복습이 계획했던 것 보다 훨씬더 오래 걸려서, 기존에 계획했던 Pandas 와 수학은 보지 못했다. 오늘 공부한 분류도 다시 공부해야하는 만큼, 내일 공부할 양은 매우 많을 것 같다.
  • 정리하는 내용들을 내가 보기 편하고, 쉽게 사용 할 수 있도록 하는 방법을 많이 고민해보아야겠다. 파일들이 누적되고 쌓이면서, 이제는 효율적으로 검색하거나 찾아서 볼 수 있는 것이 매우 중요한 것 같다. 어떻게 정리하거나 검색할 수 있는 Tool이 있을지 틈나는대로 생각해봐야겠다.

181126-TodayWhatILearned

181126 TWIL


To-do-list : 오늘 할일

  1. 이미지 데이터 처리, 사운드 데이터 처리 공부
  2. Shell script 정리
  3. Pandas - 50page
  4. 수학 8장-2절

오늘 한 일은 무엇인가

  1. Shell script 공부

내일 할 일은 무엇인가

  1. 알고리즘 복습
  2. Shell scipt cheatsheet 작성
  3. Pandas - 100 page
  4. 수학 9장-2절

--- ## 무엇을 느꼈는가 - RedBlack tree 를 배우면서, 왜 color violation 을 해결하고, 색을 기준으로 정렬했을 때, O(logN) 으로 장점이 되는지에 관해 궁금하다. 자세한 수학적 증명보다, color 와 알고리즘의 효율이 어디서 연결 되는지 궁금하다. 이런 궁금증들은 이렇게 메모 해두었다가, 여유가 생길 때 꼭 찾아 보아야 겠다. - shell script 기본 문법을 공부하면서, Python 이 얼마나 직관적인 언어인지 느꼈다. 직접 해보면서, while, if 조건문 등을 쓸때, 띄어쓰기에 예민했고, DO ~ DONE 의 couple 이 중요했다. 또한, if , case 가 끝날 때는, 직관대로 done 이 아니라 fi, esac 등으로 닫아 줘야 하는 것이 위트 있지만서도, 쉽게 기억될 것은 아님을 알게 되었다.
  • DO 도 OD 였다는데, 지금 OD 는 안되네.. DO 는 DONE 으로 쓰자 !!!!

181125-TodayWhatILearned

181125 TWIL


오늘 한 일은 무엇인가

  1. (스터디) A* Alogorithm git 정리
  2. (프로젝트) 프로젝트 리뷰
  3. (프로젝트) 깃허브 다루기
  4. (개인공부) 판다스 공부
  5. (개인공부) 자연어 처리 메서드 정리

내일 할 일은 무엇인가

  1. (개인공부) 자연어 처리 메서드 마저 정리
  2. (개인공부) AWS 정리
  3. (개인공부) 연속확률분포 정리(수식 꼼꼼하게)

무엇을 느꼈는가

  • 지난주 프로젝트 리뷰 시간에 박사님께서 주신 Comment를 바탕으로 지난 프로젝트 했던 것을 복기하는 시간을 가졌다. 그 중 오늘 집중해서 탐구 했던 것은, Partial Regression 에서 경향이 보였을 때, 이를 구체적으로 어떻게 다루는지 연구하였다. 우리가 Partial Regression plot 을 보고 두가지 경향이 있을때, 한 경향에 대해 뽑아 냈고, 이 뽑아낸 경향을 바탕으로 다시한번 본 Feature 들이 어떤 특성을 가지고 있는지 알 수 있었다.
  • 여기서 필요한 것은 Partial Regression 을 해석 할 수 있는 개념과 이를 바탕으로 다시한번 DataFrame 을 정렬하고, 여기서 Data 들의 특성을 뽑아 낼수 있는 판단력이 필요했다. 당연히 이를 구현하기 위해 Pandas를 다루는데 능숙함 역시 필요했다.
  • 커멘트 받은 것을 이렇게 다시 구현했다는 것에 큰 보람을 느끼며, 프로젝트 진행 당시 좀더 꼼꼼하게 이런것을 생각 할 수 있었으면 좋았을 것이라는 아쉬움도 함꼐 느낀다.
  • 퍼포먼스에 치중하는 것이 아니라 데이터 자체에 어떤 특성이 있는지 파악하려고 노력하는것이 무엇보다도 중요함을 느낀다.
  • 판단을 위해서는 Data 를 보기 편하게 정렬하고, 시각화 하는 것이 매우 중요하다. 앞으로 이를 위해 알고 있는, 알아야되는, 한번 봤는데 잘 기억 안나는 것이 어쩌면 다행이기에, method 들을 간단하게 나마 정리하려고 한다.
  • 개인적인 기록으로 git, github 를 사용하는 것은 어렵지 않았다. 하지만 팀 협업을 하려고보니, git 을 다루는게 아직 능숙지 않았다는 것을 깨달았다. 오늘은 git과 github 에 대해 가볍게 공부했고, 이를 바탕으로 어떤식으로 협업해야하는 것인지 간단하게 나마 알게 된것 같다.

math_cheatsheet

이산확률분포

베르누이 분포 (bernoulli distribution)

  • 동전 생각하기

  • 결과가 두가지 중 하나

  • 확률변수를 1 or 0 으루 주었을 때,
    $$
    \text{Bern}(x;\mu) = \mu^x(1-\mu)^{(1-x)}
    $$

  • 확률변수를 1 or -1 로 주었을 때,
    $$
    \text{Bern}(x; \mu) = \mu^{(1+x)/2} (1-\mu)^{(1-x)/2}
    $$

1
2
3
4
#예제코드
#베르누이 분포 SciPy
#100개 sampling
sp.stats.bernoulli(mu).rvs(100, random_state=0)

이항분포 (binomial distribution)

  • 동전을 N번 던졌다
  • 성공확률이 $\mu$ 인 베르누이 시도를 $N$ 번 반복 할 때, 성공 횟수를 $X$ 라 하면,

$$ X \sim \text{Bin}(x;N,\mu) $$

$$ \text{Bin}(x;N,\mu) = \binom N x \mu^x(1-\mu)^{N-x} $$

1
2
sp.stats.binom(N, mu).rvs(100, random_state=0)

카테고리 분포 (Categorical distribution)

  • 주사위 생각해!
  • $K$ 개의 카테고리가 있을 때,
    $$ x = (x_1, x_2, x_3, x_4, … , x_k) $$

각 원소 x_i 가 1이 나올 수 있는 확률 ($i$번쨰 원소의 성공확률)을 $\mu_i$ 라 하면,

$$ \text{Cat}(x;\mu) = \mu_1^{x_1} \mu_2^{x_2} \cdots \mu_K^{x_K} = \prod_{k=1}^K \mu_k^{x_k} $$

이 표현은 One-Hot-Encoding 으로 카테고리 분포를 표현 했기에 가능하다.

단,

$$ 0 \leq \mu_i \leq 1 $$

$$ \sum_{k=1}^K \mu_k = 1 $$

1
2
3
#카테고리 분포는 SciPy 의 메소드가 없으므로, 다항분포의 N을 1로 준다.
#mu 는 각 term 이 나올 수 있는 확률 vector
sp.stats.multinomial(1, mu)

다항 분포 (Multinomial distribution)

  • 주사위를 여러번 던졌다.
  • 카테고리 시도를 $N$ 번 반복하여 $k$ $(k=1,…,K)$ 가 $x_k$ 번 나올 확률분포.
1
2
3
#N : number of trial
#mu 는 각 term 이 나올 수 있는 확률 vector
sp.stats.multinomial(N, mu)

numpy_cheatsheet

np.arange(start, end)

  • start 에서 end-1 까지의 행렬(array) return

np.linspace(start, end, number_of_dots)

  • number_of_dots : 범위 안의 점 갯수

np.zeros_like(x)

  • 0으로 채운 x 와 같은 크기의 행렬

181123-TodayWhatILearned

181123 TWIL


Today’s To-Do-List

  1. (스터디) 스터디 원들과 A* Alogorithm 개념 정립
  2. (스터디) 스터디 원들과 함께할 깃 레포 설정, Code Convention 정하기
  3. (개인공부) AWS EC2, crontab, shell-script 공부
  4. (개인공부) 기본 통계량 복습
  5. (개인공부) KoNLPY, NLTK 훑어보기

오늘 한 일은 무엇인가

  1. (스터디) A* Alogorithm 공부
  2. (스터디) A* 구현, Class 단위로 윤곽 잡기
  3. (개인공부) 확률분포, 기본 통계량 꼼꼼히 보기
  4. (개인공부) shell-script

내일 할 일은 무엇인가

  1. 확률분포, 기본 통계량 스터디
  2. main프로젝트 Review (Procedure 정리, 시계열 적용 고민)
  3. AWS 복습
  4. (스터디) git repo 설정, A* Algorithm 코드 작성

무엇을 느꼈는가

  • 열심히 개념을 정립하는 것도 중요하지만, 계속 해서 정리하고 스스로에게 Feedback 을 주는 것이 중요하다. 어떤 Procedure 중에 있는 것인가를 아는 것이 가장 중요하다. 앞으로의 적용을 항상 고민해야한다.
  • 회기분석 프로젝트를 마친 것을 다시한번 복기할 필요가 있기에, 이번 주말을 통해 개인적으로 복기를 해보려고 한다. 이에 앞서 이번주부터 시작한 기본 통계량 부터의 복습을 같이 하면서 프로젝트 과정중 잊었던 개념들을 적용하는 연습을 주말동안 다시한번 차근차근 해보아야 한다.

181121-TodayWhatILearned

181121 TWIL


오늘 한 일은 무엇인가

  1. A* Alogorithm : Pseudo Code 작성
  2. ~ PACF 공부

내일 할 일은 무엇인가

  1. 시계열 모형의 추정 부분 나머지 공부
  2. NLTK, KoNLPY 메소드 정리

무엇을 느꼈는가

  • A* 알고리즘에 관련된 많은 자료들을 읽어보고, 정리하면서 어떻게 구체적으로 이 알고리즘이 흘러가는지
    파악했다. 기초적인 알고리즘들은 체계적으로 정리되어있는 자료들이 많지만, 이렇게 응용이 된 알고리즘들은
    업계와 학계에서 사용하면서 점차 개발됨에 따라 다양하고, 어느 방면에 효율성을 맞추느냐에 따라서 정말 다양하게
    파생된 것들이 많다. 그 중에서도 가장 간단하고 기본적인 원리가 설명되어있는 documentation 을 찾고,
    이해하려고 하다보니 시간이 많이 걸린 것 같다.
  • 이렇게 기본적인 이해를하고, 다양한 응용된 문서를 보니, 그 각각이 추구하고 있는 방향도 읽혀지는 것 같다.
    내일부터는 이렇게 파악된 것을 바탕으로 본격적인 코드 구현을 해보아야할 것 같다. 오늘 잠깐 생각한 바로는,
    우리가 배웠던 자료구조를 사용하는 것이 효율적인지, 파이썬에 내장되어있는 자료구조를 사용 할 것인지 간에
    효율을 결정하는데, 어떤 factor 를 기준으로 정해야 할지 모르겠다. 스터디 때 이 부분도 물어보고, 이야기를
    나눠보면 좋을 것 같다.
  • AR, MA 가 p, q 차로 되었을 때, k에 따른 PACF 함수의 모양을 증명해 보면서, AR, MA 의 ACF,
    COV general form 을 계속 찾아보면서 증명하게 되었다. 사실은 이 부분까지 다시한번더 증명하고 이를
    참조하는 방향으로 증명을 써 내려가야하는 것이 맞지만, 이전에 했다는 핑계로 참조했는데, 찜찜하다.
    증명은 어렵지 않았으나, 외워야 한다는 것이 좀 압박이다.

181120-TodayWhatILearned

181120 TWIL


오늘 한 일은 무엇인가

  1. 시계열 공부(SARIMA)
  2. BST 공부

내일 할 일은 무엇인가

  1. A* 알고리즘 공부
  2. 회기분석 리뷰

무엇을 느꼈는가

  • 오늘 시계열을 강의가 마무리 되면서, 가장 중요한 교훈은 ‘세상의 모든 시계열 데이터를 현재 배운 모델로
    구현할 수 없다’인 것 같다. 회기 분석보다 훨씬더 어려웠던, 수식 전개들이 많았는데 모델링 할 수 있는 실제
    데이터가 많이 없다는 것이 안타까웠다.
  • 그럼에도 불구하고 이전 프로젝트에서 다루었던 데이터를 ARIMA 등을 적용할 수 있을지 다시한번 프로젝트
    파일을 열어봐야겠다.
  • 내일은 Projectmini 에서 하기로한 A* 알고리즘을 구현하는 것을 고민해 봐야한다. 프로젝트 기간동안
    미뤄두었던 것을 하는 것이라, 의지는 충만하지만, 이전에 막혔던 부분에서 다시 어디서부터 봐야할지 복기 하는
    시간이 오래 걸릴 것 같다.

181119-TodayWhatILearned

181119 TWIL


오늘 한 일은 무엇인가

  1. 시계열 공부
  2. MA, AR, ARMA 공부 및 수식 꼼꼼히 전개
  3. 스터디 모임 : 프로그래밍 구현계획짜기

내일 할 일은 무엇인가

  1. ARIMA, SARIMA 수식 정리
  2. DataStructure 코드 정리
  3. A* 알고리즘 공부
  4. 회기분석 리뷰

무엇을 느꼈는가

  • 할게 산더미인듯한 느낌이지만, 하나씩 그어나가다보면 되겠지라는 마음으로…
    체력적으로 힘듬이 느껴진다..