Machine Learning

    [LinearRegression] 선형 회귀 기초

    안녕하세요 코북입니다. 선형 회귀 기초입니다. ▶ Linear Model (Regression) 회귀 : 돌아서 자기 자리로 오려고 하는 것 지도 학습 -> 분류 -> KNN / Tree모델 -> 회귀 -> 선형 회귀 ▶ 회귀 (Regression) - 분류보다 회귀를 많이 사용 - 오랜 기간동안 현대 통계학에서 발생되어 다양하게 이용되는 학문분야 ex) 주식, 집값, 출산율 ▶ 선형 모델 (Linear Model) - 입력 특성에 대한 선형 함수를 만들어 예측을 수행 - 다양한 선형 모델이 존재한다 - 분류와 회귀에 모두 사용 가능 -> 선이라는 도구는 어디서든 이용 가능하다 ▶ 용어 정리 y = ax + b a : 기울기(y증가량/x증가량) -> 가중치 in ML b : 편향(=위치) -> 절편 in..

    [LinearRegression] 서울시 구별 CCTV현황 분석과 특성공학

    안녕하세요 코북입니다. 오늘은 머신러닝 기초 수업 때 사용했던 LinearRegression을 복습했습니다. ▶ 실습 목표 서울시 구별 CCTV 현황 분석 pandas, matplotlib 사용하기 서울시 각 구별 CCTV 현황 살펴보기 인구 대비 CCTV 비율이 높거나 낮은 지역 알아보기 각 구별 CCTV 예측치 확인하고 그로부터 CCTV가 과하거나 부족한 지역 시각화 문제 풀이 흐름은 다음과 같습니다. # 흐름 # 0. import # 1. 파일 읽기 (csv, xml) # 2. 정보 가공 - 틀린 컬럼명 바꿔주기, 필요한 컬럼들만 선택하기 # 3. 결측치 확인 후 삭제 - isnull(), boolean indexing # 4. 오름차순, 내림차순 정렬 - sort_values() # 5. 데이터 ..

    [Kaggle] 전자 상거래 물품 배송 예측(분류)

    안녕하세요 코북입니다. 약 2주 동안 학원에서 Kaggle대회가 열렸었는데요. 전자 상거래 물품 배송 여부를 예측하는 문제였습니다. 대회 초반에는 열심히 참여했지만, 뭔가 마무리를 제대로 하지 못한 기분이라 아쉬움이 남는 대회였습니다. 그래도 이번에 배운 머신러닝 모델들을 사용해보면서 배운 점들이 있어 뿌듯한 시간이었습니다. 데이터 처리 소스코드입니다. # 문제정의 # 데이터수집 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns train = pd.read_csv('KaggleCompetition/Train.csv') test = pd.read_csv('KaggleCompetition/te..

    [MachineLearning] 머신러닝 개요

    ▶ 머신러닝 ▷ 범위 : 인공지능 > 머신러닝 > 딥러닝 ▷ Rule-based expert system (규칙 기반 전문가 시스템) 'if' 와 'else' 로 하드코딩된 명령을 사용하는 시스템 --> 모든 경우의 수를 계산할 수 없음, 많은 상황에 대한 규칙들을 모두 만들어 낼 수 없다 --> 머신러닝으로 해결! ▷ 머신러닝 데이터 기반으로 학습을 시켜서 예측하게 만드는 기법 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 통계학, 데이터마이닝, 컴퓨터 과학이 어우러진 분야 ▷ 딥러닝 컴퓨터를 사람처럼 학습하게하는 분야 ▶ 머신러닝 Data --> Model(알고리즘) 학습을 통해 기계가 스스로 규칙을 만들어낸다 데이터를 이용하여 특성과 패턴을 학습(규칙을 만듬)..

    [MachineLearning] 머신러닝과 기초통계학

    ▶ 머신러닝이란?? 컴퓨터가 데이터를 통해 스스로 (알고리즘을) 학습하는 것 ▷ 사람의 궁금점? 미래에 대한 불확실함을 예측하고 싶어 함 ▶ 통계? 사회집단 또는 자연집단의 상황을 숫자로 표현한 것 ex) 불량품 비율, 살 생산량 추이, 인구 증가율 ▷ 대표적 통계방법 모집단 ---추출---> 표본 ▷ 변수의 개수 p, 관측치의 개수 n 데이터의 크기 = p x n ex) x1, x2, x3, ... , xn-1, xn ▷ 다양한 연산 -> 통계량 ex) 평균, 최솟값, 최댓값, 중앙값, 분산, 표준편차 ▷ 카테고리데이터 : 몇 개의 범주로 나누어진 자료를 의미 -> 측정 불가능 - 명목형 : 순서없이 단순 분류 - 순서형 : 순서관계가 존재 ex) 날씨, 맛, 출신지, 유도의 단수 ▷ 수량데이터 : 이..