머신러닝 모델 개발의 교과서: 머신러닝 파워드 애플리케이션

박범준2 2022. 6. 21. 23:34
반응형

 

머신러닝 파워드 애플리케이션 간단 요약

이 책만의 차별점

  • 모델링 이론 혹은 라이브러리 튜토리얼에 초점을 맞춘 다른 책들과 달리, 머신러닝 애플리케이션 기획, 모델링, 배포, 모니터링, 개선까지 전체적인 사이클을 따라해볼 수 있을 정도로 구체적으로 설명

머신러닝 애플리케이션 기획 프로세스

주관적인 인사이트

  • 머신러닝 서비스를 만드는 과정도 린하게 보는 관점이 재미있었습니다.
    • 데이터 분석 과정도 동일한 맥락일 것
    • 모델 뿐만 아니라, 데이터셋도 린하게 개선해야하는 대상
  • 머신러닝이 모든 문제를 해결하는 만능도구가 아니라는 것을 확실하게 인지
    • 머신러닝, 마케팅, 기획 등등 모든 일은 결국 비즈니스 성과 개선을 위한 것이다

저자

  • 현재 스트라이프에서 머신러닝 엔지니어링 담당, 데이터 과학 및 엔지니어 분야 멘토링 진행
  • 스트라이프: 글로벌 결제 핀테크 기업(스트라이프의 시가총액은 네이버와 카카오 시총을 합친 것에 버금감)

 

Part1 올바른 머신러닝 접근 방법 모색

제품의 목표를 머신러닝 문제로 표현하기

  • 조직의 목표가 머신러닝으로 풀어야 하는 목표인지 판단해보기 → 굳이 머신러닝으로 안해도 될 수 있음
    • 문제를 해결하기 위해 적합한 모델이 무엇인가?
    • 모델을 만들기 위한 데이터가 있거나, 만들 수 있는가?

계획 수립하기

  • 머신러닝 프로젝트의 성공을 어떻게 측정할 수 있을까?
    • 비즈니스 성능(CTR 등 오직 제품의 성공을 반영해야한다)
      • 모델 성능
      • 최신성과 분포
      • 속도
    • 모든 머신러닝 프로젝트의 궁극적인 목표는 비즈니스 성능의 향상임
    • 모델 성능, 최신성, 속도는 비즈니스 성능을 올리기 위해 사용하는 지표

반응형

Part2 초기 프로토타입 제작

엔드투엔드 파이프라인 만들기

  • 가장 간단한 형태로 전체 과정을 담은 파이프라인 만들기

초기 데이터셋 준비하기

  • 초기 모델에 사용할 데이터셋 만들기
  • 처음부터 완벽한 데이터를 구하려고 시간을 쏟지말고, 작은 데이터셋 혹은 유사 데이터셋을 활용해도 좋음

핵심

  • 초기 파이프라인을 구축하는 이유: 전체 사이클을 빠르게 구축하고, 성능을 개선하기 위함
    • 일을 위한 일을 방지하고, 실제 성과를 개선하기 위해 집중

Part3 모델 반복

  • 가장 간단한 모델을 만들기
    • 빠르게 구현할 수 있어야함
    • 모델의 결과를 설명하거나 해석할 수 있어야함(로지스틱, 디시젼트리 등)
    • 추론 시간과 훈련시간을 고려하여 사용자가 요청하고 결과를 받는 시간이 빨라야함

Part4 배포와 모니터링

모델 배포시 고려사항

  • 오류를 가정하고, 오류 발생 시 대처방법을 구현해야함
  • 모든 데이터는 편향되어있다고 가정하고, 이 편향이 모델과 사용자에게 어떤 영향을 미칠지 추정
    • 데이터 수집 가능성 등에 의해 편향
  • 모델링 결과에 의한 피드백 루프가 발생하기 어려운 레이블을 선택할 것
    • 피드백루프가 발생하기 어려운 레이블을 선택하면 좋음
      • ex.클릭→체류시간
      • *피드백루프: ex. 추천 모델의 결과를 모델이 훈련데이터로 재학습하여 편향이 생기는 것

배포

  • 플라스크를 통한 간단한 배포 → 제가 해본적이 없어서 유용했습니다

 

모니터링

  • 무엇을 모니터링해야하는가?
    • 모델 재훈련 시기를 알려주는 모니터링
    • 모델 남용을 감지하는 모니터링

 

정말 돈이 아깝지 않은 책입니다 이북으로 보고 소장하기 위해 종이책도 샀습니다

데이터 과학 분야에서 일하고 계시다면, 안 읽으면 손해인 책입니다

일을 바라보는 관점을 배울 수 있고, 효율적이고 성과를 낼 수 있는 업무 방식을 배울 수 있습니다!

반응형