181225-TodayWhatILearned

181225 TWIL


오늘 한 일은 무엇인가

  1. (Project) Text Preprocessing

내일 할 일은 무엇인가

  1. (Project) Project 모임
  2. Linear Algebra 강의 2강, 3강 듣기

무엇을 느꼈는가

  • 모든 전처리가 그렇겠지만, 텍스트 데이터의 전처리는 유독 할게 많다. 실제 사람이 사용하는 언어 데이터이다 보니,
    예외사항들이 많고 모델 성능에 이 전처리들이 큰 영향을 미친다고 하기에, 열심히 전처리를 하고 있다.
  • 오늘은 embedding 데이터를 활용해 줄임말들 (I’d, We’re 등) 늘려주는 작업을(I would, We are 등) 해줬다.
    기존에 짰던 영어이냐 아니냐를 분류하려고 만든 알고리즘의 성능이 위 작업을 통해 좀 더 좋아질 것이라 예상된다. 또한
    오늘 한 작업이 main modeling 을 하기 위해 진행할 Tokenizing 에도 좋은 영향을 줄 것이다. Stopwords 들을
    빼거나 더할 때도, What’s 보다는 What is 로 늘려주었을 때, 훨씬더 세밀해 질 것이다.
  • 내일은 spelling 체크, 띄어쓰기 체크해서 올바르게 고쳐주는 작업을 해야한다. 그리고, Baseline 모델을
    잡기 위해 본격적인 modeling 에 들어가야한다.

Author

Emjay Ahn

Posted on

2018-12-26

Updated on

2018-12-26

Licensed under

Comments