엘리스에서 제공한 강의와 자료를 보고 정리한 내용입니다.
✅ 머신러닝 업무 프로세스
머신러닝 업무 프로세스는 문제 파악 및 정의, 데이터 준비, 모델 구축과 분석, 결과 공유, 모니터링의 5가지 단계로 구성된다.
✔️ 문제 파악 및 정의
문제 파악 및 정의 단계는 비즈니스 문제를 파악하고 머신러닝 문제로 전환하는 단계이다.
머신러닝 도입 필요성 또는 가능성을 체크하며 도입에 따른 효과 검증을 설계한다.
✔️ 데이터 준비
데이터 준비 단계에서는 가능한 많은 데이터를 확보한다.
머신 러닝을 도입할 시스템을 설계하며 데이터를 분석, 이해하는 과정을 거친다.
이때 데이터 분석 및 이해 과정은 세 단계로 나뉘는데 Understanding(이해), Preprocessing(전처리), Exploring(탐색)의 순서이다.
그 다음 Feature Enginerring 단계를 거쳐 학습, 검증, 테스트 데이터 셋을 생성한다.
✔️ 모델 구축과 분석
모델 구축과 분석 단계에서는 사용할 모델, 알고리즘을 선택한다.
실무적인 제약사항을 고려하며 하이퍼파라미터를 설정한다.
이때 하이퍼파라미터란 모델링을 위해 설정해주는 값을 의미한다.
모델 학습, 모델 평가 과정도 모델 구축과 분석 단계에 속한다.
✔️ 결과 공유
결과 공유 단계에서는 코드를 배포하거나 보고서 작성, 결과 정리 및 발표를 행한다.
✔️ 모니터링
모니터링 단계에서는 모델의 성능을 지속적으로 트래킹(tracking)하며 효과검증 결과 또한 트래킹한다.
지속적인 유지보수 계획을 세우고 이를 실행한다.
✅ 머신러닝 핵심 용어
✔️ Data
데이터(Data)는 현실 세계의 어떤 현상을 관찰하여 기록한 것을 의미한다.
data의 특징은 다음과 같다.
- Facts : 데이터는 객관적인 자료이다.
- No meaning : 데이터는 의미가 없다.
- Representation of real world : 데이터는 현실을 표현, 표상한다.
✔️ Feature
Feature는 데이터를 컴퓨터가 이해할 수 있도록 수치 또는 디지털로 표현, 표상한 것을 의미한다.
Feature는 두 가지로 나뉜다.
- Numerical : 숫자. ex. price, height
- Categorical : 범주. ex. gender, class, job
✔️ Target
타겟(Target)은 예측하려는 목표이다.
✔️ Model
모델(Model)은 실제의 무엇을 더 작게 추상화된 형태로 표현한 것으로 모형 또는 본보기를 의미한다.
✔️ Machine Learning Model
머신러닝 모델(machine learning model)은 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것이다.
✔️ Algorithm
알고리즘(algorithm)은 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것을 의미한다.
✔️ Loss, Cost, Error
loss, cost, error는 예측 목표로부터 예측 결과의 오차를 의미한다.
✔️ Learning
학습(learning)은 예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정이다.
✔️ Data Preparation
데이터 준비(Data Preparation)는 data로부터 feature를 만들어내는 과정이다.
데이터 수집(Data Acquisition), 데이터 전처리(Data Preprocessing), Feature Engineering의 순의 과정으로 이루어진다.
✔️ Data Preprocessing
데이터 전처리(Data Preprocessing)는 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 데이터를 가공하는 작업을 의미하며 벡터화(Vectorization), 정규화(Normalization), 결측값 처리(Handling Missing Values) 등이 여기 속한다.
✔️ Feature Engineering
Feature Engineering은 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Preprocessed Data를 변환하는 작업을 의미한다.
Feature Transformation(변환), Feature Generation(생성), Feature Selection(선택), Feature Extraction(추출) 등이 존재한다.
'엘리스 AI 트랙 4기 > Data Analysis Study' 카테고리의 다른 글
[프로그래밍수학] 소수 (0) | 2022.02.10 |
---|---|
머신러닝 종류와 머신러닝 관점 모델 평가 (0) | 2022.02.08 |
데이터 과학과 머신러닝 (0) | 2022.02.08 |
[Python] csv와 파이썬 함수들 (0) | 2022.01.30 |
[Python] set과 집합연산 (0) | 2022.01.30 |
댓글