모델을 훈련시킨다는 것 = 모델이 train set에 가장 잘 맞도록 Parameter space에서 최적의 모델 parameter를 설정하는 것 Linear Regression의 훈련 방식 Closed-form-equation을 사용하여 train set에 가장 잘 맞는(비용 함수 최소화하는) 모델 parameter 직접 계산 Gradient descent라는 반복적인 최적화 방식을 사용하여 비용 함수를 train set에 대해 최소화 Polynomial Regression으로 Non-linear dataset에 대해서 훈련 learning curve → train set에 overfitting되는지 감지 선형 회귀 Linear 모델: input feature의 가중치 합 + bias(intercept..
문제 정의 및 성능 측정 지표 선택 데이터 탐색 및 시각화 데이터 전처리 모델 선택 및 훈련 모델 Fine-tuning 솔루션 제시 또는 시스템 론칭/모니터링/유지 보수 1. 문제 정의 및 성능 측정 지표 선택 문제 정의 : 캘리포니아 인구 조사 데이터를 사용해 주택 가격 모델 만들기 구역의 중간 주택 가격에 대한 예측 ▶ 지도 학습(레이블된 훈련 샘플 존재), Multiple regression(예측에 여러 개의 특성 사용) 데이터 파이프라인 : 독립적인 데이터 처리 컴포넌트들이 연속되어 있는 것으로, 머신러닝 시스템에서 자주 사용된다. (1) 비즈니스의 목적 파악 (2) 현재 존재하는 솔루션 빠른 프로토타이핑 & 반복적 프로세스 권장 참고) 데이터가 매우 크면 MapReduce를 사용해 배치 학습을 ..
데이터 마이닝 : 대용량의 데이터를 분석하여 숨겨진 패턴을 발견하는 것 머신러닝이 뛰어난 분야 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제 전통적인 방식으로는 해결 방법이 없는 복잡한 문제 유동적인 환경 - 항상 최신 상태를 유지하는 머신러닝 시스템 복잡한 문제와 대량의 데이터에서 인사이트 얻기 머신러닝 시스템의 종류 훈련 지도 방식 (지도, 비지도, 준지도, 자기 지도, 강화 학습) 실시간으로 점진적인 학습을 하는지 아닌지 (온라인 학습, 배치 학습) 사례 기반 학습 및 모델 기반 학습 훈련 지도 방식 1) 지도 학습 (Supervised learning) 훈련 데이터에 레이블이 포함되어 있다. Classification / Regression (feature - 예측 변수/속성 을 사용해 ..