[세미나요약] 데이터 분석, 의심에서 전달까지

2021년 10월 8일, 한국에너지기술연구원 이제현 박사님이 진행하신 ‘데이터 분석, 의심에서 전달까지’ 제목으로 진행된 세미나를 참석했습니다. 본 글은 세미나 내용의 요약입니다.

[세미나 발표 PDF 자료]
세미나 발표 pdf 자료

1. 데이터 의심하기

1-1. 레퍼런스의 중요성

  • 분석결과의 신뢰도, 결과의 책임을 위해 데이터의 출처가 명확해야한다. 출처가 분명하지 않은 데이터는 사용하지 않는 것이 최선

1-2. 데이터의 건정성

  • 데이터 자체의 건정성
    • 결측치 : 데이터가 없음 → 데이터가 없는 것도 가끔은 중요한 메시지가 될 수 있다. (예: 이미지 데이터 내의 까만 이미지 → 빛이 없다고 해석 가능) 결측치에 대한 해석은 결국, 데이터의 도메인 관점에서 생각
    • 중복데이터 : 같은 데이터가 여러개 → Key feature 를 중심으로 논리적으로 판단해야한다. 중복데이터에 대해 일괄적인 처리 이전에 고민해보아야 할 문제 (예: 같은 자리에 건물이 겹쳐 있음 : 비정상적인 데이터, 같은 시간 같은 가게에 손님이 두명 : 정상적인 데이터)
    • 이상치 : (사전적의미) 정상적인 범위에서 벗어나는 데이터 → 통계 분석을 통해 이상치 후보군을 추리고, 도메인 접근을 통해 진짜 이상치인지 판별해야한다. (예: 대학 중퇴자가 왜 소득이 높지? → 빌게이츠, 스티브잡스, 마크 저커버그, 잭도시 등) 이상치로 볼수 있는 데이터가 있다 하더라도, 내가 하는 분석의 목적에 따라서 데이터가 이상치 일수도, 아닐수도 있다. 기계적인 처리는 하면 안됨

1-3. 너무 믿지 말아야할 데이터

  • 너무 믿지 말아야할 데이터 : (예: 영화 장르데이터 → 해리포터 1, 2, 3,4 … 의 장르가 모두 다름. 어떤 절대적 기준에 의해 장르 구분이 된 것이 아니라, 누군가의 주관적 관점으로 새긴 데이터)

1-4. 필요 데이터

  • 본격적인 프로젝트 시행 이전에, 필요한 데이터를 빠르게 계획하고, 살펴본뒤 레퍼런스 체크를 시행해야한다.

1-5. 데이터 파악

  • 데이터 파악 : 통계치는 같은데 그림을 그리면 다르게 해석된다. 반드시 데이터는 그려보아야 한다. (예: 데이터 사우르스, 통계가 얼마나 눈을 가리는지 보여주는 예시)

    데이터 사우르스

  • 데이터를 제대로 의심하는 방법 : Exploratory Data Analysis. 데이터를 받았을 때 이렇게 저렇게 찾아보는 과정. (예: 장님이 코끼리를 만져보는 과정) 한명의 장님(나) 여러 방법으로 그려보고 살펴보면서 데이터를 3d 다양한 관점에서 바라보아야 한다. 데이터에 대해 그림을 그릴 때마다 가설을 세우고, 다음 그림을 그릴 때 내 가설을 보완해나아가야함. 마치 셀프 강화학습 처럼

    • 결국 EDA + Hypothesis + Graph = self-강화학습

2. 분석 방법 의심하기

  • 사장님이 감자를 잘라달라
    • 감자 썰기의 관건: 무엇을 만들 것인가
    • 요리의 목적에 따라 다양한 감자 형태, 다양한 조리방식이 있을 수 있다
  • 데이터 분석: 무엇을 할 것인가?
    • 데이터 분석의 관건: 무엇을 위한 분석인가
    • 현황 분석(현황 내용전달), 대안 제시 (설득력: 대안의 장점과 단점), 예측모델개발 (신뢰성: 검증결과, 예상오차) 등 목적에 따라 데이터 뿐만 아니라 그에 따른 다양한 데이터 분석 방법이 필요하다
  • 망치와 모루 전략 (Hammer and Anvil Tactic)
    • 모루가 버티는 동안 망치가 때린다 (마케도니아 알렉산더 대왕)
      • 모루가 중요하다: 지지않아야하고, 이겨한다 → 수학적 엄밀함 (다양한 통계분석방법, T 검정, 층화 추출, 다양한 매트릭, 정규화, 카이제곱, 교차검증 등) 통계학은 의심의 학문이다 : 내가 전체 데이터를 모두 볼 수 없기 때문에 부분만 보고, 부분이 전체에 적용이 될지 → 이 불안을 해소하기 위한 것이 통계학, 수학
      • 망치 : 나만의 인사이트 → 아무도 못한 생각을 통해 전쟁에서 이기자
        • 인사이트 도출 방법: 데이터 자르기 (Segment)
        • Airbnb “국내, 300마일”
        • 인사이트 도출방법: 독창적 시각화 (Visualization)
          • 나이팅게일 → 다쳐서가 아니라 더러워서 사람이 죽는다.
          • Hans Rosling, Ted, 2007 → Animated bubble chart : 세상은 점점 나아지고 있다, 경향성을 새롭게 보여줌
          • Danny Dorling → Slow Down 가속 성장의 시대는 끝났다.
          • 송강호 → 배우는 오담을 가져온다. 알고보면 그 오답이 진짜 정답이다.
          • 데이터를 받으면, 공부한대로, 정해진 루틴대로 분석하고 visualization 을 진행함.. 남들도 그렇게 하고 있다. 세상에 없는 방법?
          • 남들보다 더 많은 시간과 정성 쏟기 + 스스로 생각하기

3. 고객에게 잘 전달하기

  • 결과를 보고하는 데이터 분석가의 주의사항
    • 내 업무 시간 순이 아니라 상대방 논리에 따라 보고하기
    • 결론 없이 사실만 나열하면 안됨
    • 경영 용어가 아닌 통계 용어를 남발하면 안됨
  • 분석을 원하는 사람들의 진짜 원하는 것 찾아내기
    • 자신들 조차 원하는게 뭔지 정확히 모른다
    • 다양한 질문들과 상황을 통해 그들이 원하는 것이 무엇인지 파악
  • 데이터 vs 도메인
    • 영문과 교수예시: 우리 영문과는 영어가 모국어처럼 입에 붙어야 비로소 국문과랑 같은 출발선에 서는거다.
    • 초벌 데이터 분석으로 알아내는 것 = 도메인에서는 모두 알고 있는 것
    • 데이터를 분석해서 실무자에게 공유해야 하는 내용 + 흥미를 보이는 지점, 애매하게 파악하고 있는 부분 캐치 + 심층 분석

4. 끊임없는 의심

  • 내 분석결과를 살표본다 : Insight
  • 내 아이디어를 빠르게 적용 : Agile, 코딩잘하기
  • 호기심 : 흥미요소

5. 경계하는 자세

  • 생명에 대한 예의
    • 국가별 코로나 19 사망자 데이터 분석
    • 안좋은 소식에 대한 분석결과는 tone & manner 를 지켜서..
  • 데이터 밖의 세계
    • 컴퓨터, 데이터 속에서만 사는가? vs 어차피, 결국 숫자일 뿐이야?
  • 식사를 마친 손님 : 얼마나 좋은 재료, 어떤 기법을 사용한 요리? X → 음식이 제때 나오고, 맛있게 배부른 곳 → 음식을 어떻게 만들었는지는 그 다음 문제
  • 데이터 분석 : 원래 목적을 잘 파악해서 다가가는게 중요 → 어떤 분석방법, 시각화는 나중, 남들이 잘 하지 않는 시도를 많이 해보기

세미나 발표 pdf 자료

[세미나요약] 데이터 분석, 의심에서 전달까지

https://emjayahn.github.io/2021/10/10/summary-seminar-EDA/

Author

Emjay Ahn

Posted on

2021-10-10

Updated on

2021-10-13

Licensed under

Comments