본문 바로가기
엘리스 AI 트랙 4기/Data Analysis Study

빅데이터

by _sweep 2022. 1. 26.

엘리스에서 제공한 자료를 보고 정리한 내용입니다.

 

 

 빅데이터

빅데이터는 더그 래니의 3V를 통해 설명할 수 있다.

 

 

빅데이터란 데이터의 규모(volume)가 많고, 데이터의 수집 및 처리 속도(Velocity)가 엄청나게 빠르며, 종류(Variety)또한 매우 다양한 데이터이다.

Hadoop, Spark 등의 데이터 처리, 저장, 분석 기술이 발전하고 AWS, Azure 들의 클라우드 컴퓨팅이 활용되면서 필요에 따라 빅데이터가 등장하게 되었다.

 

빅데이터는 가치 산정에 어려움을 겪는다.

데이터가 다양한 주체에 의해 다양한 목적 아해 다양한 형태로 활용되고 끊임 없이 기존에 없던 가치를 창출하는 사례들이 등장하기도 하고 분석 기술의 발전에 따라 데이터의 활용 가치가 크게 달라질 수 있기 때문이다.

 

빅데이터는 다양한 곳에서 활용된다.

대표적인 예는 다음과 같다.

  • 연관규칙 학습 : 변수들 간 상관관계 파악
  • 유형 분석 : 관측값들을 정해진 클래스에 따라 분류
  • 유전 알고리즘 : 자연선택, 돌연변이와 같은 진화 기법을 이용하여 최적화
  • 기계 학습 : 훈련 데이터로부터 일반화 가능한 모델을 학습
  • 회귀분석 : 독립변수를 이용하여 종속변수의 기댓값을 모형화
  • 감정분석 : 자연어 데이터로부터 긍정/부정 시그널 추출
  • 소셜네트워크 : 분석 대상들간의 관계를 모형화하여 분석

 

최근에는 관련 IT 기술들이 발전하며 정형데이터를 다루는 연관규칙 학습, 유형 분석보다 비정형 데이터를 다루는 딥러닝, 감정분석, 소셜네트워크 분석 등이 주를 이룬다.

 

빅데이터가 활용됨에 따라 등장하는 문제들도 존재한다.

개인정보를 포함한 데이터가 노출되면 사생활 침해라는 문제가 생기고 데이터 자체 혹은 분석에서 오류가 발생하면 데이터 오용이라는 문제가 생긴다.

따라서 이러한 문제들이 생길 수 있음을 인지하고 문제가 발생하지 않도록 대처방안을 생각해야 한다.

 

 

 

 

 

댓글