181114-TodayWhatILearned

181114 TWIL


오늘 한 일은 무엇인가

  1. flight prediction

내일 할 일은 무엇인가

  1. 프로젝트 모임

무엇을 느꼈는가

  • 계속 비행기 delay시간을 예측하는 프로젝트를 진행하고 있다. 여러가지 feature 들을 다루면서 arrival delay 를 예측하는 것을 목표로 삼고 있는데, 가지고 있는 데이터에서 공통적인 특징을 발견할 수가 없다.
  • 외부 데이터를 사용해야할지, 갸지고 있는 데이터 셋에서 새로운 컬럼을 만들어야 할지 모르겠다. 많은 컬럼을 만들고 지우면서, 단순히 아이디어, 혹은 이러지 않을까라는 추측으로 컬럼을 만드는 것이 방법론 적으로 잘못된 것인가하는 의문이 들기도 한다.
  • correlation 이 높은 것을 가지고 OLS 를 돌리는 것 외에 새로운 컬럼을 가지고 만드는 것. 어떻게 다루어야 할지 고민이다.
  • 이제 due date 가 얼마 남지 않은 만큼 최대한 남은 기간 열심히 돌려보고 만들어보면서 계속 trial and error 로 찾아보아야 겠다.

181111-TodayWhatILearned

181111 TWIL


오늘 한 일은 무엇인가

  1. Project 모임

내일 할 일은 무엇인가

  1. Project_Data 탐색
  2. 시계열 분석 공부

무엇을 느꼈는가

  • 어제보다는 약간의 진보가 있었지만, 이에 대한 이유는 명확히 몰라 사실 분석이라기보다 얻어걸린 기분이든다. EDA 를 통해 작성한 모델링에서의 식은 아직까지 완성된 느낌을 받지 못해 답답하고, 방향성을 잘못 접근하고 있는 것인가 하는 느낌을 받기도 했지만, 마지막에 조금 기분이 나아졌다.
  • 내일 오전에는 프로젝트에 밀렸던 시계열 데이터 분석에 관한 기초적인 공부를 다시 하고, 오후에는 프로젝트 데이터를 좀더 살펴보아야겠다.

181110-TodayWhatILearned

181110 TWIL


오늘 한 일은 무엇인가

  1. Prediction main project data 탐색

내일 할 일은 무엇인가

  1. Project 모임

무엇을 느꼈는가

  • 어제 고민했던, 시간을 사용하여 Regression 을 돌리는데는 성공하였다. 단위를 바꿔주는 방법으로 60진법도 생각하고, radian 으로 바꾸는 방법도 생각해보다가 epoch 방법으로 기준시점에서 지난 초 수 로 scale 과 unit 을 바꿔준디 돌렸더니, 돌아는간다…
  • 문제는 전혀 예측했던 모형이 아니었다. scatter plot 의 외형만 보고 판단했다는 것을 마지막에 깨달은 것 같다. 모델을 하기위해 묶어보고 새로운 feature 라고 생각되는 것도 빼보지만 아직 경향성이나 공통적인 특정 같은 것은 보이지 않는다.

181109-TodayWhatILearned

181109 TWIL


오늘 한 일은 무엇인가

  1. Crawling miniproject 발표
  2. Prediction main project data 탐색

내일 할 일은 무엇인가

  1. Project 모임

무엇을 느꼈는가

  • Crawling miniproject 의 troubleshooting 시간이 있었다. 발표를 끝내고 나서는 하나를 마쳤다는 시원한 감이 있었지만, comment 들을 듣고 많이 부족함을 느낀 시간이었다. 코드를 작성할 때, 공통된 요소의 추상화가 선택적이 아니라 필수적임을 알게되었다. 간단한 것이라도 반복적으로 작성하는 것은 python convention 에도, 또 프로그래밍의 근본적인 취지에도 어긋나는 것이다. 처음부터 일반화된 포맷으로 작성하기엔 아직 실력이 많이 부족하다. 간단한 구현에서 module 화까지 내가 짜는 대부분의 코드를 연습하다 보면 늘겠지…
  • 메인 프로젝트의 data 간의 연관성이 잘 보이지 않는다. 지난 시간에 알게된 하루 주기로의 delay가 반복됨을 알고 있었으나, datetime 형식으로, 혹은 int나 float 형식으로 ols 에 집어 넣으면 주기성을 잡아내지 못하는 것 같다. 시간 단위로 X feature 로 들어가면 좋을 것 같은데, ols formula 에 시간을 집어넣으면 계속 category 화 된다. 이렇기 때문에 그 해당 정확한 시간이 있지 않으면 coefficient 가 먹지 않지….
  • 시간을 표현하기 위해 60진법도 찾아보고, 1분 단위로 int 숫자에 mapping 할까도 생각해보았으나, 결국 mapping 해서 ols 에 돌리면 2400 이후 값은 없는데도 x 축에 들어가게 된다….

181108-TodayWhatILearned

181108 TWIL


오늘 한 일은 무엇인가

  1. Project Data EDA, OLS 돌려보기

내일 할 일은 무엇인가

  1. Project Data EDA, OLS 돌려보기

무엇을 느꼈는가

  • 프로젝트 과정에서 Performance 가 안나오는 이유에 대해 알게된 계기였다. EDA 는 계속 하더라도 부족함이 많은것이고,
    데이터를 처리할 때 line by line 근거가 있어야 한다고 느꼈다.
  • 처음부터 전 과정을 진행하는데 있어 매우 시행착오가 많았고, 또 앞으로도 많을 것이지만 계속 반복해서 시행해보는 것이 중요할 것 같다.

181107-TodayWhatILearned

181107 TWIL


오늘 한 일은 무엇인가

  1. Crawling Project 정리 및 제출

내일 할 일은 무엇인가

  1. Prediction Project

181105-TodayWhatILearned

181105 TWIL


프로젝트 STEP

  1. 전처리 Nan 값 처리 해결
  2. Partial Regression Plot 그려보기

오늘 한 일은 무엇인가

  1. 프로젝트 모임
  2. Crawling miniProject 와 mainProject 진행

내일 할 일은 무엇인가

  1. 프로젝트, 오늘까지 진행사항 코드 정리
  2. 수학 회기 전체 정리
  3. 프로젝트 생각하기

무엇을 느꼈는가

  • 오늘은 프로젝트 모임을 통해서, 많은 것을 얻었다. OLS function 을 실제로 돌림에 있어서 많은 제약조건이
    필요함을 알게되었고, 그만큼 데이터전처리가 매우 중요하다는 것을 알게 되었다.
  • 다양한 feature 들마다 다양한 방법으로 전처리를 해주어야 한다. 처음엔 NaN값의 처리 방식에 대해 고민했으나,
    이제는 각 feature 의 특성들마다 전처리 해주는 방식이 달라져야 하고, 또 이번 고비가 넘어가게 되면
    좋은 prediction 결과를 얻기 위해 다양한 feature 의 조합이 필요함이 피부에 와닿았다.
  • 만족스런 결과물을 얻기 위해선, 아는게 많은 것 보다, 그 결과물을 만들고자 하는 구성원이 중요함을 느꼈다.
    알고있는 지식은 해결해야할 문제보다 항상 작기 마련이다. 또한 알고있는 지식이 완벽한지는 계속 스스로 의문을
    던지며 업데이트 해야만한다. 하지만 이보다 더 중요한 것은 문제에 부딪힐 때마다 의욕적이고, 해결해보고자 하는 팀원들
    덕분에 오늘의 보람과 뿌듯함을 얻을 수 있었던 것 같다.

181104-TodayWhatILearned

181104 TWIL


오늘 한 일은 무엇인가

  1. 회기 부분 공부
  2. Project Data 회기 돌려보기

내일 할 일은 무엇인가

  1. Project 모임
  2. 회기 부분 정리
  3. 크롤링 프로젝트 개선 사항 고민
  4. (시간이 되면) A* 알고리즘 코드 짜보기

무엇을 느꼈는가

  • 다리를 다치고 통증으로 인해 집중해서 코드를 짜기 힘들었다. 수학 이론을 공부하면서 내일 있을 프로젝트
    모임을 준비했고, 팀원들께서 만든 코드를 정리하며 데이터를 다시 추출하였다. 이 데이터들을 통해 회기의 몇몇
    가지를 돌려보았다. 이것을 토대로 내일 팀원들과 함께 이야기를 나눠보며 좀더 어떻게 할 수 있을지 고민해봐야
    겠다.

181103-TodayWhatILearned

181103 TWIL


오늘 한 일은 무엇인가

  1. Crawling miniProject 코드 작성
  2. Pandas 라이브러리 정리
  3. Project 주말동안 할일 정하기

내일 할 일은 무엇인가

  1. Project Data 회기 돌려보기
  2. 회기 부분 공부
  3. 크롤링 프로젝트 개선 사항 고민
  4. (시간이 되면) A* 알고리즘 코드 짜보기

무엇을 느꼈는가

  • whoscored 사이트의 Player 정보를 크롤링 하는 miniProject 의 코드를 작성하였다. Selenium을
    통해서 크롤링하는데, headless 적용을 하면 에러가 나는 부분을 어떻게 처리해야할지 고민해보아야 한다.
    Chrome webdriver 를 열어놓는 환경과 headless 환경의 차이가 있는 것 같은데, 이 부분은 document
    를 살펴보아야 할 것같다. window창을 열어놓는것 과 그렇지 않은 것의 차이점이 있는지 확인해야한다.
  • 함수로 짠 코드를 class 화 시킬 때는 다루는 범위가 커져야 한다는 강박관념이 있다. class 화 시켰을
    때의 편의성 부분을 고민하면서 위 생각으로 흐름이 이어지는 것 같은데, 그렇지 않기 위해 class의 장점을
    좀더 체감해볼 필요가 있다.
  • Linear Regression 강의를 들으면서, LineByLine 수식을 이해하는데는 문제가 없으나 이야기의 큰 그림
    을 놓치는 경향이 있는 것 같다. 내일은 이 부분을 중점적으로 공부해보고, 메인 프로젝트에 적용해보는 것 까지
    해봐야겠다.

181102-TodayWhatILearned

181102 TWIL


오늘 한 일은 무엇인가

  1. Database - MySQL 공부
  2. A * 알고리즘 스터디
  3. NaN 값 처리에관한 자료 서칭

내일 할 일은 무엇인가

  1. Project 모임
  2. Pandas 라이브러리 정리
  3. miniProject Crawling 코드짜기
  4. A * 알고리즘 짜기

무엇을 느꼈는가

  • 오늘 스터디에서 A* 알고리즘를 주제로 얘기를 좀더 나누었다. 각자 공부해오신 내용을 바탕으로 알고리즘의
    흐름이 어떻게 되어가는가 좀더 구체적으로 생각해보고자 했다. 좀더 해결법에 가까워진 느낌을 받았으나,
    이제는 좀더 구체적으로 구현해보면서 다가오는 문제들을 해결해보고자 했다. 모든걸 완벽하게 이해하고 실현하는
    것만이 답은 아니기 때문이라고 생각한다.
  • 주말동안은 프로젝트, 미니프로젝트, 알고리즘 적용 코딩, 수학 공부, DB공부.. 산더미지만 하나씩 그어나가
    야겠다.