'Statistics/ML | Python' 카테고리의 글 목록

pandas_profiling 안될 땐 ?

문제 EDA를 급하게 해야되는데 pandas_profiling 이 작동을 안했다. 이런 일은 왜 급할 때 터지는 가... 패키지 이닛들 다뜯어보고 스텍오버플로우를 뒤젹여도 안나왔음. 에러 문구 는 아래와 같은 것들이 출몰. --------------------- --------------------- --------------------- --------------------- --------------------- --------------------- 1. TypeError: concat() got an unexpected keyword argument 'join_axes' 2. OSError: '......\\lib\\site-packages\\pandas_profiling\\pandas_profi..

Statistics/ML | Python 2023.10.27

Gradient Boosting Regressor

앙상블(ensemble) 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법 분류와 회귀 문제의 다양한 데이터셋에서 효과적인 앙상블 모델 예시 랜덤 포레스트(random forest) 그래디언트 부스팅(gradient boosting) 부스팅(Boosting) Boosting은 약한 학습기(Weak Learner)를 여러 개 결합하여 강한 학습기(Strong Learner)를 만드는 방법이다. 약한 학습기란, 예측 성능이 랜덤 추측 수준이거나 그 이하인 모델을 말하며, 결정 트리가 대표적인 예이다. 그래디언트 부스팅(Gradient Boosting) 고객의 구매 이력 데이터를 통하여 다음 구매를 예측한다고 가정해보자. 이를 예측하기 위해 어떤 방법을 사용할 수 있을까? 그래디언트 부스팅은 Boo..

Statistics/ML | Python 2023.03.13

딥러닝 기초 AI Modeling (1)

ML? 머신러닝의 Linear 계열 모델은 선형방정식의 형태로 Data를 근사화, 근사화된 값을 실제 값과 비교해 Loss 계산. 이 후, Loss 값을 줄여나가는 형태로 학습을 진행. 기울기가 최소가 되는 지점을 찾아나가면 Loss 가 최저점인 부분과 일치(미분계수 = 0) 범주형인 경우는 아래처럼 sigmoid 함수 사용하여 Data 변환. 딥러닝? Node 들은 개별 ML modeling Unit(ex. 머신러닝의 linear model들) 이며 (특징 값 추출), 각 노드에서 더 다양한 특징 값을 추출, 더 깊은 Layer를 쌓아 모델링하는 알고리즘이다. Vanishing Gradient 문제 Sigmoid function은 미분할 경우, 0 부분에서는 0.25, 이외의 범위에서는 0인 값을 갖아..

Statistics/ML | Python 2023.02.26

wine 데이터 분석

Intro 와인데이터 셋을 분석해보기. EDA 데이터 불러오기 분석 목표는 와인의 구성 요소(input)가 주어졌을 때 '레드'와 '화이트'를 예측(output)하는 것. 데이터 split 머신러닝 모델을 만들 때는 '학습 데이터'로 모델을 학습한 후, 모델 성능을 평가할 때는 '평가 데이터'로 성능을 평가하기 때문에 전체 데이터를 나눠야한다. 보통 7:3이나 8:2로 나눈다. 데이터에 대한 선연구가 있다면, 그 연구에서는 어떻게 스플릿했는지 참고하는 것도 바람직하다. 데이터 규모가 매ㅐㅐ우 큰 경우는 99:1 비율로 나누기도 한다. 파이썬 sklearn.model_selection 모듈에서 train_test_split 기능을 불러와 사용 from sklearn.model_selection import..

Statistics/ML | Python 2023.02.20

머신러닝이 뭐여 9탄 (feat. k-means 군집분석, 연관규칙분석, 신경망)

Intro K-means 군집분석 군집분석 k-means 군집분석 k-means 군집분석 실습 연관규칙분석 연관규칙분석이란? 연관규칙분석의 측정지표 실습 신경망 신경망 모형이란? 신경망 작동방식 신경망 실습 K-means 군집분석 군집분석 군집분석(Clustering Analysis)은 전체 데이터들을 특성에 따라 비슷한 집단으로 묶어주는 분석 모델 정답이 없음, 비지도학습의 일종 전체 데이터를 훑고 비슷한 아이들끼리 묶어줌 군집분석 결과로 묶인 집단을 클러스터(Cluster) 데이터들의 거리(유사성)을 기반으로 데이터를 묶는다는 점에서 K-최근접 이웃법(K-NN)과 비슷하게 보일 수 있지만, K-최근접 이웃법(K-NN)은 정답을 기준으로 하는 지도 학습이고, 군집분석은 정답이 없는 비지도 학습임 군집분..