181114-TodayWhatILearned

181114 TWIL


오늘 한 일은 무엇인가

  1. flight prediction

내일 할 일은 무엇인가

  1. 프로젝트 모임

무엇을 느꼈는가

  • 계속 비행기 delay시간을 예측하는 프로젝트를 진행하고 있다. 여러가지 feature 들을 다루면서 arrival delay 를 예측하는 것을 목표로 삼고 있는데, 가지고 있는 데이터에서 공통적인 특징을 발견할 수가 없다.
  • 외부 데이터를 사용해야할지, 갸지고 있는 데이터 셋에서 새로운 컬럼을 만들어야 할지 모르겠다. 많은 컬럼을 만들고 지우면서, 단순히 아이디어, 혹은 이러지 않을까라는 추측으로 컬럼을 만드는 것이 방법론 적으로 잘못된 것인가하는 의문이 들기도 한다.
  • correlation 이 높은 것을 가지고 OLS 를 돌리는 것 외에 새로운 컬럼을 가지고 만드는 것. 어떻게 다루어야 할지 고민이다.
  • 이제 due date 가 얼마 남지 않은 만큼 최대한 남은 기간 열심히 돌려보고 만들어보면서 계속 trial and error 로 찾아보아야 겠다.

181112-TodayWhatILearned

181112 TWIL


오늘 한 일은 무엇인가

  1. 프로젝트 발표 및 Feedback

내일 할 일은 무엇인가

  1. 프로젝트 모임 & 시계열 공부

무엇을 느꼈는가

  • 메인프로젝트를 다루는 기간동안의 중간결과를 발표하는 시간을 가졌다. 전달력이 충분하지 못한 느낌을 많이 받았다. 내 머릿속에 있는 것을 다른 사람에게 전달하는 능력 역시 많이 필요함을 깨달은 시간이었다.
  • 프로젝트 내용에 있어서는, 아직 부족한것이 많다. 퍼포먼스도 눈에 띄게 나오는 것이 없다. 원인은 아마도 눈에 띄는 데이터들의 경향성을 보지 못한 탓이 아닐까 싶다. 가지고 있는 train 데이터 전체를 두고는 뚜렷한 경향성을 보지 못하고 있다. 여러가지 제한 조건을 두면서 쪼개서 봐야하는 작업이 더 필요한 것 같다.

181111-TodayWhatILearned

181111 TWIL


오늘 한 일은 무엇인가

  1. Project 모임

내일 할 일은 무엇인가

  1. Project_Data 탐색
  2. 시계열 분석 공부

무엇을 느꼈는가

  • 어제보다는 약간의 진보가 있었지만, 이에 대한 이유는 명확히 몰라 사실 분석이라기보다 얻어걸린 기분이든다. EDA 를 통해 작성한 모델링에서의 식은 아직까지 완성된 느낌을 받지 못해 답답하고, 방향성을 잘못 접근하고 있는 것인가 하는 느낌을 받기도 했지만, 마지막에 조금 기분이 나아졌다.
  • 내일 오전에는 프로젝트에 밀렸던 시계열 데이터 분석에 관한 기초적인 공부를 다시 하고, 오후에는 프로젝트 데이터를 좀더 살펴보아야겠다.

181110-TodayWhatILearned

181110 TWIL


오늘 한 일은 무엇인가

  1. Prediction main project data 탐색

내일 할 일은 무엇인가

  1. Project 모임

무엇을 느꼈는가

  • 어제 고민했던, 시간을 사용하여 Regression 을 돌리는데는 성공하였다. 단위를 바꿔주는 방법으로 60진법도 생각하고, radian 으로 바꾸는 방법도 생각해보다가 epoch 방법으로 기준시점에서 지난 초 수 로 scale 과 unit 을 바꿔준디 돌렸더니, 돌아는간다…
  • 문제는 전혀 예측했던 모형이 아니었다. scatter plot 의 외형만 보고 판단했다는 것을 마지막에 깨달은 것 같다. 모델을 하기위해 묶어보고 새로운 feature 라고 생각되는 것도 빼보지만 아직 경향성이나 공통적인 특정 같은 것은 보이지 않는다.

181109-TodayWhatILearned

181109 TWIL


오늘 한 일은 무엇인가

  1. Crawling miniproject 발표
  2. Prediction main project data 탐색

내일 할 일은 무엇인가

  1. Project 모임

무엇을 느꼈는가

  • Crawling miniproject 의 troubleshooting 시간이 있었다. 발표를 끝내고 나서는 하나를 마쳤다는 시원한 감이 있었지만, comment 들을 듣고 많이 부족함을 느낀 시간이었다. 코드를 작성할 때, 공통된 요소의 추상화가 선택적이 아니라 필수적임을 알게되었다. 간단한 것이라도 반복적으로 작성하는 것은 python convention 에도, 또 프로그래밍의 근본적인 취지에도 어긋나는 것이다. 처음부터 일반화된 포맷으로 작성하기엔 아직 실력이 많이 부족하다. 간단한 구현에서 module 화까지 내가 짜는 대부분의 코드를 연습하다 보면 늘겠지…
  • 메인 프로젝트의 data 간의 연관성이 잘 보이지 않는다. 지난 시간에 알게된 하루 주기로의 delay가 반복됨을 알고 있었으나, datetime 형식으로, 혹은 int나 float 형식으로 ols 에 집어 넣으면 주기성을 잡아내지 못하는 것 같다. 시간 단위로 X feature 로 들어가면 좋을 것 같은데, ols formula 에 시간을 집어넣으면 계속 category 화 된다. 이렇기 때문에 그 해당 정확한 시간이 있지 않으면 coefficient 가 먹지 않지….
  • 시간을 표현하기 위해 60진법도 찾아보고, 1분 단위로 int 숫자에 mapping 할까도 생각해보았으나, 결국 mapping 해서 ols 에 돌리면 2400 이후 값은 없는데도 x 축에 들어가게 된다….

181108-TodayWhatILearned

181108 TWIL


오늘 한 일은 무엇인가

  1. Project Data EDA, OLS 돌려보기

내일 할 일은 무엇인가

  1. Project Data EDA, OLS 돌려보기

무엇을 느꼈는가

  • 프로젝트 과정에서 Performance 가 안나오는 이유에 대해 알게된 계기였다. EDA 는 계속 하더라도 부족함이 많은것이고,
    데이터를 처리할 때 line by line 근거가 있어야 한다고 느꼈다.
  • 처음부터 전 과정을 진행하는데 있어 매우 시행착오가 많았고, 또 앞으로도 많을 것이지만 계속 반복해서 시행해보는 것이 중요할 것 같다.

181107-TodayWhatILearned

181107 TWIL


오늘 한 일은 무엇인가

  1. Crawling Project 정리 및 제출

내일 할 일은 무엇인가

  1. Prediction Project

181105-TodayWhatILearned

181105 TWIL


프로젝트 STEP

  1. 전처리 Nan 값 처리 해결
  2. Partial Regression Plot 그려보기

오늘 한 일은 무엇인가

  1. 프로젝트 모임
  2. Crawling miniProject 와 mainProject 진행

내일 할 일은 무엇인가

  1. 프로젝트, 오늘까지 진행사항 코드 정리
  2. 수학 회기 전체 정리
  3. 프로젝트 생각하기

무엇을 느꼈는가

  • 오늘은 프로젝트 모임을 통해서, 많은 것을 얻었다. OLS function 을 실제로 돌림에 있어서 많은 제약조건이
    필요함을 알게되었고, 그만큼 데이터전처리가 매우 중요하다는 것을 알게 되었다.
  • 다양한 feature 들마다 다양한 방법으로 전처리를 해주어야 한다. 처음엔 NaN값의 처리 방식에 대해 고민했으나,
    이제는 각 feature 의 특성들마다 전처리 해주는 방식이 달라져야 하고, 또 이번 고비가 넘어가게 되면
    좋은 prediction 결과를 얻기 위해 다양한 feature 의 조합이 필요함이 피부에 와닿았다.
  • 만족스런 결과물을 얻기 위해선, 아는게 많은 것 보다, 그 결과물을 만들고자 하는 구성원이 중요함을 느꼈다.
    알고있는 지식은 해결해야할 문제보다 항상 작기 마련이다. 또한 알고있는 지식이 완벽한지는 계속 스스로 의문을
    던지며 업데이트 해야만한다. 하지만 이보다 더 중요한 것은 문제에 부딪힐 때마다 의욕적이고, 해결해보고자 하는 팀원들
    덕분에 오늘의 보람과 뿌듯함을 얻을 수 있었던 것 같다.

181104-TodayWhatILearned

181104 TWIL


오늘 한 일은 무엇인가

  1. 회기 부분 공부
  2. Project Data 회기 돌려보기

내일 할 일은 무엇인가

  1. Project 모임
  2. 회기 부분 정리
  3. 크롤링 프로젝트 개선 사항 고민
  4. (시간이 되면) A* 알고리즘 코드 짜보기

무엇을 느꼈는가

  • 다리를 다치고 통증으로 인해 집중해서 코드를 짜기 힘들었다. 수학 이론을 공부하면서 내일 있을 프로젝트
    모임을 준비했고, 팀원들께서 만든 코드를 정리하며 데이터를 다시 추출하였다. 이 데이터들을 통해 회기의 몇몇
    가지를 돌려보았다. 이것을 토대로 내일 팀원들과 함께 이야기를 나눠보며 좀더 어떻게 할 수 있을지 고민해봐야
    겠다.

181103-TodayWhatILearned

181103 TWIL


오늘 한 일은 무엇인가

  1. Crawling miniProject 코드 작성
  2. Pandas 라이브러리 정리
  3. Project 주말동안 할일 정하기

내일 할 일은 무엇인가

  1. Project Data 회기 돌려보기
  2. 회기 부분 공부
  3. 크롤링 프로젝트 개선 사항 고민
  4. (시간이 되면) A* 알고리즘 코드 짜보기

무엇을 느꼈는가

  • whoscored 사이트의 Player 정보를 크롤링 하는 miniProject 의 코드를 작성하였다. Selenium을
    통해서 크롤링하는데, headless 적용을 하면 에러가 나는 부분을 어떻게 처리해야할지 고민해보아야 한다.
    Chrome webdriver 를 열어놓는 환경과 headless 환경의 차이가 있는 것 같은데, 이 부분은 document
    를 살펴보아야 할 것같다. window창을 열어놓는것 과 그렇지 않은 것의 차이점이 있는지 확인해야한다.
  • 함수로 짠 코드를 class 화 시킬 때는 다루는 범위가 커져야 한다는 강박관념이 있다. class 화 시켰을
    때의 편의성 부분을 고민하면서 위 생각으로 흐름이 이어지는 것 같은데, 그렇지 않기 위해 class의 장점을
    좀더 체감해볼 필요가 있다.
  • Linear Regression 강의를 들으면서, LineByLine 수식을 이해하는데는 문제가 없으나 이야기의 큰 그림
    을 놓치는 경향이 있는 것 같다. 내일은 이 부분을 중점적으로 공부해보고, 메인 프로젝트에 적용해보는 것 까지
    해봐야겠다.