2024/11/23 5

05. (비지도학습)_K-Means

5. K-Means¶군집화, 유사한 특징을 가지는 데이터들을 그룹화데이터를 K개의 클러스터(그룹)로 군집화하는 알고리즘, 각 데이터로부터 이들의 속한 클러스터의 중심점(Centroid)까지의 평균 거리를 계산 In [1]:import numpy as npimport matplotlib.pyplot as pltimport pandas as pd In [2]:dataset = pd.read_csv('../data/KMeansData.csv')dataset.head() Out[2]: hourscore07.337313.715523.435533.068943.3379  비지도 학습이기 때문에 y 값 없이 X만 가져옴¶ In [3]:X = dataset.iloc[:, :].values# X = dataset.valu..

Python/SikitLearn 2024.11.23

04. (지도학습)_Logistic Regression(로지스틱 회귀)

4. Logistic Regression(로지스틱 회귀)¶  공부 시간에 따른 자격증 시험 합격 가능성¶주어진 데이터를 정해진 범주 (category) 에 따라 분류, 예측 결과가 숫자가 아닐 때¶선형 회귀 방식을 분류에 적용한 알고리즘, 데이터가 어떤 범주에 속할 확률을 0 ~ 1 사이의 값으로 예측 더 높은 범주에 속하는 쪽으로 분류범주 : True/False, Yes/No, 합격/불합격 In [1]:import numpy as npimport matplotlib.pyplot as pltimport pandas as pd In [2]:dataset = pd.read_csv('../data/LogisticRegressionData.csv')dataset.head() Out[2]: hourpass00.5..

Python/SikitLearn 2024.11.23

03. (지도학습)_Polynomial Regression(다항 회귀)

3. Polynomial Regression(다항 회귀)¶  공부 시간에 따른 시험 점수 (우등생)¶ In [1]:import numpy as npimport matplotlib.pyplot as pltimport pandas as pd In [2]:dataset = pd.read_csv('../data/PolynomialRegressionData.csv')dataset.head() Out[2]: hourscore00.2210.5420.8630.9441.26 In [3]:X = dataset.iloc[:, :-1].values # 공부시간 컬럼 데이터y = dataset.iloc[:, -1].values # 점수 컬럼 데이터X, y Out[3]:(array([[0.2], [0.5], ..

Python/SikitLearn 2024.11.23

02. (지도학습)_Multiple Linear Regression(다중 선형 회귀)

2. Multiple Linear Regression(다중 선형 회귀)¶  원-핫 인코딩¶ In [1]:import pandas as pd In [2]:dataset = pd.read_csv('../data/MultipleLinearRegressionData.csv')X = dataset.iloc[:, :-1].valuesy = dataset.iloc[:, -1].valuesdataset.head() Out[2]: hourabsentplacescore00.53Home1011.24Library821.82Cafe1432.40Cafe2642.62Home22 In [19]:X, y Out[19]:(array([[1.0, 0.0, 0.5, 3], [0.0, 1.0, 1.2, 4], [0...

Python/SikitLearn 2024.11.23

01. (지도학습)_Linear Regression(선형 회귀)

1. Linear Regression(선형 회귀)¶공부 시간에 따른 시험 점수¶ In [1]:import matplotlib.pyplot as pltimport pandas as pd In [2]:dataset = pd.read_csv('../data/LinearRegressionData.csv') # 데이터 로드 In [3]:dataset.head() # 상위 5개 데이터 확인 Out[3]: hourscore00.51011.2821.81432.42642.622 In [4]:X = dataset.iloc[:, :-1].values # 처음부터 마지막 컬럼 직전까지의 데이터 (독립 변수 - 원인)y = dataset.iloc[:, -1].values # 마지막 컬럼 데이터 (종속 변수 - 결과) In [5..

Python/SikitLearn 2024.11.23