반응형
머신러닝 파워드 애플리케이션 간단 요약
이 책만의 차별점
- 모델링 이론 혹은 라이브러리 튜토리얼에 초점을 맞춘 다른 책들과 달리, 머신러닝 애플리케이션 기획, 모델링, 배포, 모니터링, 개선까지 전체적인 사이클을 따라해볼 수 있을 정도로 구체적으로 설명
주관적인 인사이트
- 머신러닝 서비스를 만드는 과정도 린하게 보는 관점이 재미있었습니다.
- 데이터 분석 과정도 동일한 맥락일 것
- 모델 뿐만 아니라, 데이터셋도 린하게 개선해야하는 대상
- 머신러닝이 모든 문제를 해결하는 만능도구가 아니라는 것을 확실하게 인지
- 머신러닝, 마케팅, 기획 등등 모든 일은 결국 비즈니스 성과 개선을 위한 것이다
저자
- 현재 스트라이프에서 머신러닝 엔지니어링 담당, 데이터 과학 및 엔지니어 분야 멘토링 진행
- 스트라이프: 글로벌 결제 핀테크 기업(스트라이프의 시가총액은 네이버와 카카오 시총을 합친 것에 버금감)
Part1 올바른 머신러닝 접근 방법 모색
제품의 목표를 머신러닝 문제로 표현하기
- 조직의 목표가 머신러닝으로 풀어야 하는 목표인지 판단해보기 → 굳이 머신러닝으로 안해도 될 수 있음
- 문제를 해결하기 위해 적합한 모델이 무엇인가?
- 모델을 만들기 위한 데이터가 있거나, 만들 수 있는가?
계획 수립하기
- 머신러닝 프로젝트의 성공을 어떻게 측정할 수 있을까?
- 비즈니스 성능(CTR 등 오직 제품의 성공을 반영해야한다)
- 모델 성능
- 최신성과 분포
- 속도
- 모든 머신러닝 프로젝트의 궁극적인 목표는 비즈니스 성능의 향상임
- 모델 성능, 최신성, 속도는 비즈니스 성능을 올리기 위해 사용하는 지표
- 비즈니스 성능(CTR 등 오직 제품의 성공을 반영해야한다)
반응형
Part2 초기 프로토타입 제작
엔드투엔드 파이프라인 만들기
- 가장 간단한 형태로 전체 과정을 담은 파이프라인 만들기
초기 데이터셋 준비하기
- 초기 모델에 사용할 데이터셋 만들기
- 처음부터 완벽한 데이터를 구하려고 시간을 쏟지말고, 작은 데이터셋 혹은 유사 데이터셋을 활용해도 좋음
핵심
- 초기 파이프라인을 구축하는 이유: 전체 사이클을 빠르게 구축하고, 성능을 개선하기 위함
- 일을 위한 일을 방지하고, 실제 성과를 개선하기 위해 집중
Part3 모델 반복
- 가장 간단한 모델을 만들기
- 빠르게 구현할 수 있어야함
- 모델의 결과를 설명하거나 해석할 수 있어야함(로지스틱, 디시젼트리 등)
- 추론 시간과 훈련시간을 고려하여 사용자가 요청하고 결과를 받는 시간이 빨라야함
Part4 배포와 모니터링
모델 배포시 고려사항
- 오류를 가정하고, 오류 발생 시 대처방법을 구현해야함
- 모든 데이터는 편향되어있다고 가정하고, 이 편향이 모델과 사용자에게 어떤 영향을 미칠지 추정
- 데이터 수집 가능성 등에 의해 편향
- 모델링 결과에 의한 피드백 루프가 발생하기 어려운 레이블을 선택할 것
- 피드백루프가 발생하기 어려운 레이블을 선택하면 좋음
- ex.클릭→체류시간
- *피드백루프: ex. 추천 모델의 결과를 모델이 훈련데이터로 재학습하여 편향이 생기는 것
- 피드백루프가 발생하기 어려운 레이블을 선택하면 좋음
배포
- 플라스크를 통한 간단한 배포 → 제가 해본적이 없어서 유용했습니다
모니터링
- 무엇을 모니터링해야하는가?
- 모델 재훈련 시기를 알려주는 모니터링
- 모델 남용을 감지하는 모니터링
정말 돈이 아깝지 않은 책입니다 이북으로 보고 소장하기 위해 종이책도 샀습니다
데이터 과학 분야에서 일하고 계시다면, 안 읽으면 손해인 책입니다
일을 바라보는 관점을 배울 수 있고, 효율적이고 성과를 낼 수 있는 업무 방식을 배울 수 있습니다!
반응형
'책' 카테고리의 다른 글
한 줄 정리의 힘 리뷰 (0) | 2023.03.31 |
---|---|
부동산 투자의 기초와 마인드: 운명을 바꾸는 부동산 투자 수업 (기초편) (1) | 2022.06.22 |
주식 투자자 관점에서 재무제표 행간을 읽어라: 데이터를 읽는 방법 (0) | 2020.07.05 |
손자병법: 06.허실 (0) | 2020.06.08 |
티핑포인트 : 말콤 글레드웰 (0) | 2020.03.03 |