▶ 머신러닝이란??
컴퓨터가 데이터를 통해 스스로 (알고리즘을) 학습하는 것
▷ 사람의 궁금점?
미래에 대한 불확실함을 예측하고 싶어 함
▶ 통계?
사회집단 또는 자연집단의 상황을 숫자로 표현한 것
ex) 불량품 비율, 살 생산량 추이, 인구 증가율
▷ 대표적 통계방법
모집단 ---추출---> 표본
▷ 변수의 개수 p, 관측치의 개수 n
데이터의 크기 = p x n
ex) x1, x2, x3, ... , xn-1, xn
▷ 다양한 연산 -> 통계량
ex) 평균, 최솟값, 최댓값, 중앙값, 분산, 표준편차
▷ 카테고리데이터 : 몇 개의 범주로 나누어진 자료를 의미 -> 측정 불가능
- 명목형 : 순서없이 단순 분류
- 순서형 : 순서관계가 존재
ex) 날씨, 맛, 출신지, 유도의 단수
▷ 수량데이터 : 이상형과 연속형으로 이루어진 자료를 의미 -> 측정 가능
- 이산형 : 이산적인 값을 갖는 데이터, 출산횟수 등을 의미
- 순서형 : 연속적인 값을 갖는 데이터, 신장, 체중 등을 의미
ex) 100m달리기 기록, 체중, 자신이 느끼는 최적의 온도
예시가 절대적인것은 아니고 바꿔서 취급할 수도 있다.
▷ 정렬과 순서 통계량
정렬하면 최솟값 최댓값을 바로 파악 가능
-- 수량데이터
▶ 부위수 : 특정 개수를 기준으로 데이터를 나누는 것
ex) 백분위수 : %, 기존 데이터를 100개로 나눔
▷ 사분위수 : 데이터를 정확히 4등분 한 것
관측치의 25% / 다음 25% / 다음 25% / 다음 25%
▷ 다섯숫자요약 : 텍스트화
-> 최솟값 0% / Q1(1사분위수) / Q2(중앙값, 2사분위수) / Q3(3사분위수) / 최댓값 100%
중앙값 : 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다.
중앙값(median)은 중심경향치(center tendency)의 하나로 전체 데이터 중 가운데에 있는 수치 값이다.
직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우,
회사 전체의 연봉 평균은 1억 4851만 원이다. 이처럼 극단적인 값이 있다면 중앙값이 평균값보다 유용하다.
▷ Boxplot(윗수염아랫수염 그래프) : 사분위수를 시각화
▶ 도수분포표
도수 : 각각의 값들을 가지고 있는 수
계급 : 값
▷ 상대도수 : 도수의 총합에 대한 각 계급의 도수의 비율
상대도수 = 각 계급에 속한 데이터 개수 / 전체 데이터 개수
시각화 -> 히스토그램 : 눈으로 확인하기에 편리하고 이해가 빠름
▶ 더치페이와 N빵
▷ 평균 : 모든 관측치가 똑같이 나눠 가질 수 있는 값
평균 = x1+x2+x3+... +xn-1+nx / n
▷ 편차 : 평균에서 얼마나 떨어져 있는지
▷ 분산 : 편차의 평균, 평균으로부터 각 데이터각 얼마나 떨어져 있는지에 대한 평균값
분산 = (xi-평균)의 제곱의 합 / n-1 -> 차이값의 제곱을 평균낸 것
분산의 단점은 단위! -> 루트로 해결
▷ 표준편차 : 분산의 제곱근으로, 편차의 평균(분산)을 표준화 시킨다해서 표준편차라고 한다.
평균에 대한 오차라고 할 수 있는데, 평균이 a이고 표준편차가 2라고 하면,
실제 값은 a+-2이라고 볼 수 있다.
표준편차가 작을수록 평균값 근처에 데이터들이 분포해 있는 것이기 때문에
분포상태가 고르다고 할 수 있다.
▷ 척도화 : (중심화, 본데이터 - 평균) / 표준편차
척도화를 하게 되면 단위가 사라진다. 평균에서 얼마나 떨어져 있는지 파악 가능
-- 카테고리형(범주형) 데이터
수준(Level) :범주형 데이터가 가질 수 있는 값
계수(Counting) : 숫자로 범주형 변수를 요약하는 과정
▶ 확률
▷ 이론적 확률 : 논리적으로 혹은 수리적으로 계산한 확률
ex) 로또, 동전 던지기
▷ 경험적 확률 : 실제로 실험을 통해 계산한 확률
▷ 기댓값
▶ 데이터의 관계파악
▷ 피어슨의 추리 : 키의 연결고리를 따라가는 방법
산점도로 시각화 -> 평균을 기준으로 1, 2, 3, 4분면을 나눈다
▷ 공분산 : 두개의 변수를 함께 사용해서 계산한 분산
▷ 상관계수 : 두 개의 변수를 함께 사용해서 계산한 분산(공분산)을 표준화시킨 것
상관계수가 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 가진다.
-1, 1 에 가까운 높은 상관관계는 쉽게 찾기 어렵다
-0.5, 0.5 정도의 값 -> 강력한 상관관계, 통계적으로 가치가 있다
-0.2, 0.2 정도의 값 -> 약한 상관관계, 상관관계가 없다고 할 수는 없지만 모호하다
상관관계에 대해 장담할 수 없다. 사회과학에서는 매우 큰 값으로 간주
0 -> 대부분의 경우, 상관관계가 있을거라고 간주되지 않는다
하지만 무조건적으로 그런것이 아니라 2차 방정식 그래프와 비슷한 모양이 될 경우,
상관관계는 있으나 상관계수는 0에 가깝게 나온다.
'Machine Learning' 카테고리의 다른 글
[LinearRegression] 선형 회귀 기초 (0) | 2021.09.14 |
---|---|
[LinearRegression] 서울시 구별 CCTV현황 분석과 특성공학 (0) | 2021.09.14 |
[Kaggle] 전자 상거래 물품 배송 예측(분류) (0) | 2021.09.10 |
[MachineLearning] 머신러닝 개요 (0) | 2021.09.01 |