데이터 분석이란

TIL 카테고리의 글은 그날 배운 것을 정리하는 목적으로 포스팅합니다. 내용이 잘못되었다면 댓글로 피드백 부탁드립니다.

데이터 분석

어떤 입력 데이터가 주어졌을 때 입력 데이터 간의 관계를 파악하거나 파악된 관계를 사용하여 원하는 출력 데이터를 만들어 내는 과정

입력 데이터 input data

  • X
  • 분석의 기반이 되는 데이터
  • 독립변수(independent variable), 특징 (feature), 설명변수

출력 데이터 output data

  • 추정하거나 예측하고자 하는 목적 데이터
  • Y
  • 종속변수 (dependent variable)

예측 하기위한 방법론

  • 규칙기반 - 알고리즘
  • 학습기반, 데이터 기반 - 대량의 데이터를 컴퓨터에 보여줌으로써 스스로 규칙을 만들게 하는 방법 스스로 규칙을 찾도록 함. (머신러닝)

지도학습

학습용 데이터 집합 training data set

입력값과 목푯값을 쌍으로 가지는 샘플 데이터의 집합

레이블링 : 입력 데이터에 사람이 원하는 목표값을 붙여주는 것 -> 데이터 양이 많을 때는 상당히 어려운 일이 될 수 있음.

전처리와 인코딩

문서나 이미지와 같은 현실의 데이터를 컴퓨터가 처리할 수 있는 숫자데이털 바꾸는것

문서 데이터 인코딩 : 문서 데이터를 고정된 크기의 숫자 벡터로 바꿈

BOW Bag of Words

문서를 이루는 단어의 순서, 의미 등의 정보를 무시하고 특정한 단어가 문서에 몇번 나왔는지 세어 빈도를 벡터로 표시하는 방법

카테고리 값

숫자 외 컴퓨터가 다룰 수 있는 데이터

범주형 값

숫자와 달리 기호로 표시되며 비연속적. 두개의 데이터가 있을 때 이들의 크기나 가치 순서를 비교할 수 없음.

클래스 : 카테고리 값이 가질 수 있는 경우의 수

동전을 던진 결과와 같은 2가지 경우의 수 - 이진 클래스

주사위를 던져 나온 경우의 수 - 다중 클래스

숫자처럼 비교가능한 경우도 있음.

회귀분석

출력하고자 하는 값이 숫자인 경우 : 회귀분석 , 카테고리 값인 경우 : 분류

분류 : 4지 선다형 객관식 문제

회귀 분석 : 직접 답을 써야하는 단답형 문제

비지도 학습

입력 출력이 구분되지 않는 단순한 데이터들의 관계에서 특정한 규칙을 찾아내는 것

입력, 출력 데이터를 구분짓지 않고 단순히 데이터를 입력하면 이 데이터들간의 규칙을 찾아내거나 미리 지정한 규칙에 맞는 데이터인지를 구분함.

클러스터링

대표적인 비지도 학습 방법 중 하나.

데이터들을 유사한 데이터까지 같은 그룹으로 모으는 클러스터링 방법