[AI] 2.1 데이터셋 다루기
# 사이킷런으로 간단하게 나누기 from sklearn.model_selection import train_test_split train_set, test_set = train_test_split(housing,test_szie=0.2, random_state=42) # 계층적 샘플링 # 너무많은 계층으로 나뉘면 안되며 각 계층별로 충분히 커야 한다. housing["income_cat"] = pd.cut(housing["median_income"], bin=[0.,1.5,3.0,4.5,6., np.inf], labels=[1,2,3,4,5]) # PANDAS import pandas as pd def load_data(): return pd.read_csv(csv_path) #데이터 구조 흝어보기 A ..
2023. 2. 6.
[Python,머신러닝] 데이터 탐색과 시각화
지리적 데이터 시각화 a.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1) 산점도 kind 그래프 종류 'line', 'bar', 'barh', 'kde' xticks, yticks x, y축으로 사용할 값 alpha 투명도 xlim, ylim X, Y축의 한계 logy Y축에 대해 Log scaling grid 축의 그리드를 표현할지 여부 use_index 객체의 색인을 눈금 이름으로 사용할지 여부 rot 눈금 이름 돌리기 (rotating) 0 ~ 360 functions subplots : 각 column에 독립된 subplot 그리기 sharex, sharey : subplots=True 이면 같은 X,Y축을 공유하고 눈금과 한계를 연결 ..
2023. 1. 20.