본문 바로가기
엘리스 AI 트랙 4기/Data Analysis Study

분석 기획과 분석 방법론

by _sweep 2022. 1. 26.

엘리스에서 제공한 자료를 보고 정리한 내용입니다.

 

 

 분석기획

분석 기획이란 실제 분석을 수행하기에 앞서 분석 과제를 정의하고 원하는 결과를 도출할 수 있도록 관리 방안을 미리 계획하는 작업이다.

 

분석 기획을 할 때 분석 대상과 방법이 각각 정해져 있는지의 여부에 따라 분석 대상과 방법이 달라진다.

  1. 분석 대상이 정해져있고 분석 방법도 정해져 있는 경우
    • 해당 대상을 정해진 방법으로 분석만 하면 된다.
    • 최적화(Optimization)
  2. 분석 대상을 정하지 않았지만 분석 방법은 정해져 있는 경우
    • 특정 방법으로 여러 가지를 분석해본다.
    • 인사이트(Insight)
  3. 분석 대상은 정했지만 분석 방법을 정하지 않은 경우
    • 다양한 방법을 시도해보고 적합한 방법을 찾는다.
    • 해결책(Solution)
  4. 분석 대상과 방법 모두 정하지 않은 경우
    • 여러 대상에 대해 여러 방법을 시도해 의미있는 값을 찾는다.
    • 발견(Discovery)

 

분석 기획은 목표 시점을 기준으로도 기획 방법을 나눌 수 있다.

단기적인 경우라면 구체적이고 시급한 과제에 대해 신속한 가설 검증이 목표가 되며 Ad Hoc 문제 해결 방법으로 접근한다.

Ad Hoc은 특정한 필요, 목적을 위한 문제 해결 방식을 말한다.

반대로 장기적인 경우라면 기회 탐색 및 위험을 예방하는 과제에 대해 정확하고 안정적으로 지속적인 분석이 목표가 되며 문제의 정의, 발견부터 접근한다.

 

분석 기획을 할 때는 사용 가능한 데이터가 어떤 규모와 형태로 존재하는지, 비즈니스에 어떠한 임팩트를 줄 수 있는지, 실행 가능한지 등 다양한 고려사항을 생각해야 한다.

 

 

 분석방법론

데이터 기반 의사결정(Data-Driven Decision-making)은 고정관념, 사고의 편향, 프레이밍 등의 이유로 DDD가 이루어지는데에 방해를 받는다.

이러한 DDD 문화가 정착하기 위해 분석 방법론의 수립이 필요하다.

 

✔️ 생성 과정

데이터 분석 방법론의 생성 과정은 다음과 같다.

 

암묵지는 학습, 경험을 통해 개인의 내면에 체화된 지식을 말하며 형식지는 문서화되어 전달, 공유가 용이한 지식을 말한다.

최초의 지식은 암묵지의 형태로 존재한다.

이들이 공유되고 공감대를 형성하면 형식지로 변하고 또 이들을 체계화시키면 방법론이 탄생한다.

 

✔️ 방법론 모형

방법론 모형은 폭포수 모델, 프로토타입 모델, 나선형 모델등이 있다.

  • 폭포수 모델 : 각 단계를 순차적으로 진행.
  • 프로토타입 모델 : 점진적으로 시스템 개선.
  • 나선형 모델 ; 반복을 통해 점증적으로 개발 진행.

 

✔️ KDD 분석 방법론

대표적인 분석 방법론으로는 KDD 분석 방법론이 존재한다.

KDD 분석 방법론은 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 패턴이나 지식을 찾는데 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다.

 

KDD 분석 방법론은 다음의 순서를 따른다.

 

  1. Selection : 분석 목표에 맞게 필요한 데이터셋을 구성한다.
  2. Preprocessing : 데이터 전처리 과정. 데이터셋을 검토해 이상치, 결측치를 처리한다.
  3. Transformation : 데이터 변환 과정. 변수를 생성하고 단위를 통일한다. 학습과 검증셋을 분리한다.
  4. DataMining : 분석 기법을 선택하고 데이터 마이닝을 실행한다.
  5. Evaluation : 분석 결과를 해석하고 평가한다. 현식 적용 방안을 구체화한다.

 

✔️ CRISP-DM 분석 방법론

또 다른 분석 방법론으로 CRISP-DM 분석 방법론이 존재한다.

CRISP-DM 분석 방법론은 4개의 레벨로 구성되는 계층적 프로세스 모형이다.

 

  1. Phases : 프로젝트의 최상위 단계.
  2. Generic Tasks : 하나의 목적을 가지는 완전한 프로세스 단위.
  3. Specialized Tasks : Generic Tasks의 구체적 수행 레벨.
  4. Process Instances : 개별 실행.

 

CRISP-DM 분석 방법론은 다음의 순서를 따르며 6단계로 구성되어 단계 간의 피드백을 통해 완성도를 높이는 방식이다.

 

  1. Business Understanding : 비즈니스 관점에서 프로젝트의 목적과 요구사항 이해. 문제 정의, 프로젝트 계획 수립.
  2. Data Understanding : 데이터 수집, 속성 파악, 품질 검사, 숨어있는 패턴 확인 등 데이터셋을 선택하고 전처리하는 과정.
  3. Data Preparation : 데이터 클렌징. 목적에 따른 데이터 변환.
  4. Modeling : 분석 기법 선택, 분석 진행.
  5. Evaluation : 모델링 결과 확인. 프로젝트 목적을 고려하여 수용 여부 결정.
  6. Deployment : 실제 업무에 적용하기 위한 계획 수립. 모델의 유지보수 계획 마련.

 

 

 

 

 

 

댓글