TIL 카테고리의 글은 그날 배운 것을 정리하는 목적으로 포스팅합니다. 내용이 잘못되었다면 댓글로 피드백 부탁드립니다.
데이터 분석
어떤 입력 데이터가 주어졌을 때 입력 데이터 간의 관계를 파악하거나 파악된 관계를 사용하여 원하는 출력 데이터를 만들어 내는 과정
입력 데이터 input data
- X
- 분석의 기반이 되는 데이터
- 독립변수(independent variable), 특징 (feature), 설명변수
출력 데이터 output data
- 추정하거나 예측하고자 하는 목적 데이터
- Y
- 종속변수 (dependent variable)
예측 하기위한 방법론
- 규칙기반 - 알고리즘
- 학습기반, 데이터 기반 - 대량의 데이터를 컴퓨터에 보여줌으로써 스스로 규칙을 만들게 하는 방법 스스로 규칙을 찾도록 함. (머신러닝)
지도학습
학습용 데이터 집합 training data set
입력값과 목푯값을 쌍으로 가지는 샘플 데이터의 집합
레이블링 : 입력 데이터에 사람이 원하는 목표값을 붙여주는 것 -> 데이터 양이 많을 때는 상당히 어려운 일이 될 수 있음.
전처리와 인코딩
문서나 이미지와 같은 현실의 데이터를 컴퓨터가 처리할 수 있는 숫자데이털 바꾸는것
문서 데이터 인코딩 : 문서 데이터를 고정된 크기의 숫자 벡터로 바꿈
BOW Bag of Words
문서를 이루는 단어의 순서, 의미 등의 정보를 무시하고 특정한 단어가 문서에 몇번 나왔는지 세어 빈도를 벡터로 표시하는 방법
카테고리 값
숫자 외 컴퓨터가 다룰 수 있는 데이터
범주형 값
숫자와 달리 기호로 표시되며 비연속적. 두개의 데이터가 있을 때 이들의 크기나 가치 순서를 비교할 수 없음.
클래스 : 카테고리 값이 가질 수 있는 경우의 수
동전을 던진 결과와 같은 2가지 경우의 수 - 이진 클래스
주사위를 던져 나온 경우의 수 - 다중 클래스
숫자처럼 비교가능한 경우도 있음.
회귀분석
출력하고자 하는 값이 숫자인 경우 : 회귀분석 , 카테고리 값인 경우 : 분류
분류 : 4지 선다형 객관식 문제
회귀 분석 : 직접 답을 써야하는 단답형 문제
비지도 학습
입력 출력이 구분되지 않는 단순한 데이터들의 관계에서 특정한 규칙을 찾아내는 것
입력, 출력 데이터를 구분짓지 않고 단순히 데이터를 입력하면 이 데이터들간의 규칙을 찾아내거나 미리 지정한 규칙에 맞는 데이터인지를 구분함.
클러스터링
대표적인 비지도 학습 방법 중 하나.
데이터들을 유사한 데이터까지 같은 그룹으로 모으는 클러스터링 방법