190109-TodayWhatILearned

190109 TWIL


오늘 한 일은 무엇인가

  1. BLOG RENEWAL

내일 할 일은 무엇인가

  1. Graph모형 공부
  2. LinearAlgebra 1강, 2강

무엇을 느꼈는가

  • 새해를 맞아 블로그를 새 테마로 바꾸었다. 기존에 hueman theme 에 익숙해져 있어서, 새로운 테마의 기능을
    수정하고, 전처럼 편해지려면 또 적응의 시간이 필요할 것 같다. 블로그의 테마는 작년부터 글의 양이 늘어나면 늘어날수록
    그 욕구가 더 심해 졌다. 특정 카테고리에서 글이 누적되가면서, 어떤 글들이 담겨있는지 제목을 통해 직관적으로
    보고싶었다. hueman 은 글마다 썸네일들이 있고, 글의 순서가 조금 불편하게 배치되어 있다. 시리즈성 글들을 올린다거나,
    주제가 1, 2, 3 등으로 나뉘는 글들이 있을 때, 글 제목으로 연속성을 보기가 힘들었다.
  • 위의 이유로 선택한 이번 테마는 내가 중점적으로 생각한 부분을 조금이나마 개선할 수 있는 것 같다. 틈틈히
    새로운 테마의 세팅도 마쳐야겠다.

[REBOOT]2019_NEWYEAR : 190108-TodayWhatILearned

** REBOOT **

  • Text Classification Project 를 한다는 핑계로 그간 TodayWhatILearned의 작성을 하지 못했다.
    프로젝트를 하는 동안은 매일 어떤 것을 공부할 계획이고, 어떤 공부를 했는지 남길 만한 내용이 없었던 것도 사실이다.
    프로젝트 동안 미뤄뒀던 공부들, 보고싶었던 주제들을 이제 다시 새로운 마음가짐을 가지고 시작할 것이다.
    새해가 밝은 만큼 블로그를 만들기 시작하면서 다짐했던 초심을 상기하자.

To-Do-List

  1. Graph모형, 네트워크 추론 공부 (수식) - 새로운 패키지, 코드 정리하면서 공부
  2. LinearAlgebra 1강, 2강 다시 시작

오늘 한 일은 무엇인가

  1. Graph모형 공부
  2. LinearAlgebra 1강, 2강

내일 할 일은 무엇인가

  1. 네트워크 추론 공부(수식 위주로 공부)

181225-TodayWhatILearned

181225 TWIL


오늘 한 일은 무엇인가

  1. (Project) Text Preprocessing

내일 할 일은 무엇인가

  1. (Project) Project 모임
  2. Linear Algebra 강의 2강, 3강 듣기

무엇을 느꼈는가

  • 모든 전처리가 그렇겠지만, 텍스트 데이터의 전처리는 유독 할게 많다. 실제 사람이 사용하는 언어 데이터이다 보니,
    예외사항들이 많고 모델 성능에 이 전처리들이 큰 영향을 미친다고 하기에, 열심히 전처리를 하고 있다.
  • 오늘은 embedding 데이터를 활용해 줄임말들 (I’d, We’re 등) 늘려주는 작업을(I would, We are 등) 해줬다.
    기존에 짰던 영어이냐 아니냐를 분류하려고 만든 알고리즘의 성능이 위 작업을 통해 좀 더 좋아질 것이라 예상된다. 또한
    오늘 한 작업이 main modeling 을 하기 위해 진행할 Tokenizing 에도 좋은 영향을 줄 것이다. Stopwords 들을
    빼거나 더할 때도, What’s 보다는 What is 로 늘려주었을 때, 훨씬더 세밀해 질 것이다.
  • 내일은 spelling 체크, 띄어쓰기 체크해서 올바르게 고쳐주는 작업을 해야한다. 그리고, Baseline 모델을
    잡기 위해 본격적인 modeling 에 들어가야한다.

181220-TodayWhatILearned

181220 TWIL


오늘 한 일은 무엇인가

  1. (Project) Classification Project 모임
  2. 딥러닝 엔지니어 현업자 특강
  3. Celery 복습
  4. 간단한 알고리즘 문제 풀기
  5. Linear Algebra(Gilbert) 1강

내일 할 일은 무엇인가

  1. Linear Algebra(Gilbert) 2강
  2. (Project) Classification Project
  3. Classification 개념 다시 보기

무엇을 느꼈는가

  • 즐기자

181216-TodayWhatILearned

181216 TWIL


오늘 한 일은 무엇인가

  1. DataThon 발표
  2. Perceptron 공부
  3. (Project) Quara Dataset EDA
  • question_text 에서 vectorize 하기전에 특징값들을 뽑아내기
  • 나이브 베이지안 돌려보기
  1. (Study) 스터디때 나눌 WebApplication 의 구조, MVC model 나누기

내일 할 일은 무엇인가

  1. (Study) 스터디원 블로그 개설, Flask에 비유한 WebApplication, MVC model 공부하기
  2. (Stydy) PROJECTmini WebApplication 계획 세우기
  3. (Project) EDA 짬짬히 계속하기
  4. SVM 공부

무엇을 느꼈는가

  • Datathon에서 분석했던 내용을 발표하는 시간을 가졌다. 발표를 하면서 부족하다고 생각했던 점과 comment 를
    잊기 전에 정리해본다.
    1. 후기 및 생각과 느낌
    2. 프레젠테이션 능력이 부족하다.
      - 긴장, 생각의 흐름을 말로 표현하는 것이 부족했다. 나름대로 이야기 할 것을 리스트업해갔지만, 잘 눈에 들어오지 않았다.
      - 스크립트를 다 작성해가는 것이 좋은 것일까?
    3. 프레젠테이션 혹은 데이터를 모르는 사람도 읽을 수 있는 마크다운 정리가 부족했다.
      - 데이터톤 당시 시간에 쫓기는 것도 있었고, 데이터를 분석하고 코드를 작성하면서 나중에 하면 되겠지 라고 생각했다.
      - 결과는 제대로 마무리와 정리를 하지 못한 채로 제출했고, 이는 발표할 때 쓰는 자료로서는 0점에 가까웠다.
      - 프로젝트나, 코드를 작성할 때 comment 를 좀더 세세하게 작성하도록 노력해야겠다.
    4. 지적해주신 comment
    5. Regression 에서 intercept 의 의미
      - 실제로 모델링한 결과를 현실 데이터에서 사용하기 위해서는 intercept 를 꼭 추가해야한다고 말씀해주셨다.
      - comment 를 듣자 마자, 조금 찾아봤을 때, intercept 가 error 의 mean 값을 잡아준다고 한다.
      - 이 부분은 좀더 보충이 필요하다.
      - 더미변수를 사용하지만, Intercept 의 효과에 대해서.. 단지 해석의 의미로만 상수항을 생각하였는데, 좀더 본질적인 이유가 있는 것 같다.
      - 꼭 보충할 것!
    6. 데이터를 분석하는 과정에서 insight를 얻었을 때, 이를 꼭 알기 쉽게 기록하라.
      - 개인적으로 느꼈던 후기와 생각에서와 비슷한 취지의 말씀이었다. 자신과 다른사람이 알 수 있게 insight 를 꼭 기록하라고 말씀하셨다.
    7. R square 를 기준으로 분석을 진행할 때는 조심하여야 한다.

181215-TodayWhatILearned

181210 TWIL


To-Do-list

  1. DataThon 발표 준비
  2. Pandas 4장 공부
  3. 알고리즘 문제풀기
  4. (Study) 프로젝트 미니(웹어플리케이션) 준비
  5. (Project) Classification Project Data EDA

오늘 한 일은 무엇인가

  1. Datathon 발표준비
  2. 알고리즘 문제 풀기
  3. (Study) 프로젝트 미니(웹어플리케이션) 준비

내일 할 일은 무엇인가

  1. Pandas 4장 공부
  2. Support Vector Machine 공부
  3. 알고리즘 문제풀기
  4. NoSQL, MySQL syntax 정리

무엇을 느꼈는가

  • 데이터톤 발표를 준비하면서, 제출했던 코드와 과정을 다시 살펴보니 Markdown 이나
    주석이 부족함을 느꼈다. 다시 볼 때 좀더 편할 수 있도록, 코드와 과정을 다시 이어 나가는데 시간을 덜 소비하도록 나름 신경써서 작성하며 진행했는데, 다시 보려고 하니 머릿속에 있었던 것들이 다 작성되어 있지 않았다. 지금은 데이터톤에서 얼마 지나지 않았기 때문에, 기억에 남는 것이겠다. 하지만 추후에 다시 볼때는 기억이 나지 않아, 내가 작성한 코드와 문서임에도 불구하고 그 맥락을 이해하기 위해 처음부터 읽어 볼 것이다.
  • 앞으로는 좀더 주석과 마크다운 문서에 신경을 많이 써야겠다. 짤막하게라도, 데이터 분석과정 중에 들었던 생각들을 작성해 놓아야, 그 시간이 지난뒤에 Develop 을 하던, 복기를 하던 계속 생각의 흐름을 이어 나갈 수 있을 것이다.
  • 일일코딩, DailyCommit 등에 관한 글을 읽었다. 개인의 다짐과도 비슷하고, 개인 프로젝트로 개발자들이 많이 하는 것 같다. 글을 읽은 직후에는 나도 하고 싶다는 생각을 했지만, 과연 할 수 있을 것인가 하며 반문을 하였다. 다짐의 문제라고 하기엔, 너무 정신 없는 나날을 보내고 있기에.. 도전할 것인지 하루만 더 고민해봐야겠다.

181211-TodayWhatILearned

181210 TWIL


To-Do-list

  1. Insurance EDA 정리
  2. Pandas
  3. 12-5장까지 수학복습
  4. MST 복습

오늘 한 일은 무엇인가

  1. Insurance EDA 정리
  2. (STUDY) A* 알고리즘 시각화
  3. 선형회귀 개념 복습

내일 할 일은 무엇인가

  1. 데이터톤

무엇을 느꼈는가

  • 파이썬으로 작성한 A*알고리즘의 시각화코드를 작성하였다. 제일 빠른 길을 찾아 주었으나, 이것을 시각화하는
    것이 생각보다 어렵다. 그리고 좀더 동적으로 시각화를 해주고 싶은데, 좀더 삽질을 많이해봐야겠다.
    결과데이터를 보여주면 되겠지 했지만, 답을 얻는 과정을 세세하게 시각화하여 보여주는 것 역시 어려운 문제였다.
    비단 알고리즘을 보여주는 것만이 아니라, 지금 공부하는 모든 것이 아마 그럴 것이다.
  • A* 알고리즘을 적용해서 주어진 미로의 최적의 길을 찾는 것은 미로의 크기가 커질수록 검증이 어렵다. 우리가
    작성한 알고리즘으로 풀어준 path가 진짜 제일 빠른 길인지 확인하는 방법이 무엇인가 하는 생각이 든다. 크기가
    작은 미로에서 우리가 한길 한길 찾아가는 정답과 맞아서, 알고리즘이 제대로 작동하고 있다고 생각했다. 하지만,
    점차 크기가 커지면서 정답이 맞는가 확인하는 것은 어려웠다. 작은단위에서 맞는 것이라고 해서, 큰 단위에서 내놓은 답이 과연 정답일 것인지는 어떻게 검증해야하는가. 우리가 소단위에서 다 맞춘 알고리즘이라고 해서 전부 믿어야 하는 것인가라는 생각이든다.
  • 내일은 데이터톤이다. 여태까지 공부한 것을 적용해보고, 실제로 제한시간내에 데이터를 분석해야한다. 아직도 많이 모르고,
    아는 것도 확신하기 어려운데, 잘 할 수 있을지 걱정된다.

181209-TodayWhatILearned

181209 TWIL


오늘 한 일은 무엇인가

  1. Classification 복습 (Entropy, DecisionTree)
  2. MySQL Query Code Imporvement, CodeReview
  3. Insurance Data regression
  4. Algorithm 추가 과제 (2진수, 8진수, 16진수)

내일 할 일은 무엇인가

  1. MySQl, NOSQL 복습, 정리
  2. Insurance Regression 과정 정리, 알게된 것들 정리
  3. Pandas 4장, 7장, 9장 정리
  4. Algorithm 추가 과제 마무리
  5. 수학 12-5장까지 복습

--- ## 무엇을 느꼈는가 - Insuracne Data regression 을 진행하면서, 지난 프로젝트에서는 다가가지 못한 Step 들을 수행하였다. 잔차의 정규성을 검토하면서, 이를 발전 시킬 수 있는 방법에 대해 코드를 작성하였고, EDA 과정을 꼼꼼히 한 덕분인지, regression formula 를 돌리는데 있어 각 스텝마다, 작은 근거들이 생겨났다. - 아직은 수업 자료에서 모든 내용을 담을 만큼 Performance 와 스텝간의 근거들이 명확하지 않기 때문에 공부할 것이 한참남았지만, 오늘 새로운 데이터셋을 좀더 꼼꼼히 EDA 를 하면서, 새롭게 알게되고, 적용할 수 있는 것들이 생겨 뿌듯했다. ---

181208-TodayWhatILearned

181208 TWIL


오늘 한 일은 무엇인가

  1. Decision Tree 연습문제 18.4.2 풀기
  2. Imporve Flights_Delay Regression Project
  3. Insurance Cost dataset EDA
  4. MySQL Quiz 마무리

내일 할 일은 무엇인가

  1. Classification 복습
  2. MySQL 복습
  3. MySQL Query Code Imporvement
  4. Insurance Data EDA
  5. Pandas 정리
  6. Regression 수학 12-5장 복습

--- ## 무엇을 느꼈는가 - Query 문을 작성하면서, 다양한 방법으로 같은 결과를 얻을 수 있음을 알게 되었다. 같은 결과를 뽑아내는 Query 문의 비교에서, 오늘은 간결하고, 깔끔한 코드를 작성하려고 노력을 하였다. 하지만, 결국 가장 중요한 것은 Query 문이 얼마나 빠르게 동작 하느냐의 문제인 것 같다. 내일은 간결하면서도, 빠르게 동작하는 코드를 작성하는데 좀더 고민해봐야겠다. - 지난 Flights_delay regression project 를 개선하는데 있어, 코드적으로, 기술적으로 부분회기 plot 를 바탕으로 다시 모델링을 하는 방법에 대해 알게 되었다. 여기까지 알게 된 것을 바탕으로, 새로운 Medical cost(Insurance) data 를 regression 으로 모델링 해보려고 한다. 오늘 간단한 EDA 를 진행하였으나, 조금더 데이터를 자세하게 보는 방법론에 대해 공부를 하면서 진행해 보려고 한다. ---

181207_TodayWhatILearned

181207 TWIL


오늘 한 일은 무엇인가

  1. Pandas 3장, 4장(일부)
  2. (Project) 데이터셋 정하기

내일 할 일은 무엇인가

  1. MySQL 복습, QUIZ 풀기
  2. 새로운 데이터셋 EDA, Regression
  3. Pandas 4장, 7장
  4. 지난 프로젝트(Flight_Delay Regression) Update
  5. 알고리즘 추가과제 하나씩 풀기

--- ## 무엇을 느꼈는가 - 와.. 오늘은 그간의 파이썬과 알고리즘, 데이터 구조의 공부한 것을 평가받는 첫 시간이었다. 시간내에 주어진 문제를 효율적으로 푸는 것이 생각보다 어려웠다. pandas의 method 나 numpy method 를 자주 사용하면서, 기본적인 내장 method 는 오히려 더 어색했다. 함수를 짜서, 테스트 케이스를 통과하다가 중간에 발생한 에러는 debugging을 하지 못했다. 또한, 코드 역시 비효율적이고 못생겼다. pyint 의 PEP 8 점수 역시 매우 낮았다. - 다시한번 많이 부족함을 느꼈고, 더 공부해야되고 알아야 하는 것이 한참이나 많다. - 쌓이고 쌓이는 ToDoList 에서 우선순위를 매번 잘 매기고, 너무 한 issue 에만 묻혀있지 말아야하며, 동시에 다양한 주제를 공부해야하므로 정리를 잘해야하고, 그 정리를 다음번에 참조할 수 있게 잘 기록해야하며, scheduling 을 효율적으로 해야하고, 무엇보다 그 순간에 매우 집중해야한다. ---