[AI] 2.1 데이터셋 다루기
# 사이킷런으로 간단하게 나누기 from sklearn.model_selection import train_test_split train_set, test_set = train_test_split(housing,test_szie=0.2, random_state=42) # 계층적 샘플링 # 너무많은 계층으로 나뉘면 안되며 각 계층별로 충분히 커야 한다. housing["income_cat"] = pd.cut(housing["median_income"], bin=[0.,1.5,3.0,4.5,6., np.inf], labels=[1,2,3,4,5]) # PANDAS import pandas as pd def load_data(): return pd.read_csv(csv_path) #데이터 구조 흝어보기 A ..
2023. 2. 6.