1. t 분포
t 분포는 모집단의 평균을 추정할 때 사용되는 분포로, 표본 크기가 작을 때 주로 사용됩니다.
- 표본 크기가 작을 때, t 분포는 표준정규분포를 누른 듯한 형태를 보이지만, 표본이 커질수록 점점 표준정규분포와 비슷해집니다.
- t 분포의 중간값은 0이며, t-value는 두 그룹 간 평균 차이를 표준 오차로 나눈 값입니다.
- t-value가 -2에서 2 사이를 벗어나면, 그 값이 크다고 판단하며, 이는 희박한 사건이 발생할 확률이 높다는 뜻입니다.
2. 카이제곱 분포
카이제곱 분포는 표준정규분포를 따르는 변수들의 제곱합으로 이루어진 분포입니다.
- 표준정규분포의 분산을 표현하는 분포가 카이제곱 분포입니다.
- 카이제곱 값이 1에 가까울 때가 이상적인 상황이며, 그보다 크거나 작으면 잘 일어나지 않는 상황이라는 뜻입니다.
3. F 분포
F 분포는 두 개의 카이제곱 분포의 비율로 정의됩니다.
- 집단 간 분산/집단 내 분산의 비율로 계산되며, 이 값이 클수록 집단 간 차이가 더 크다고 볼 수 있습니다.
- F-value는 일반적으로 1을 기준으로 판단하며, 값이 2, 4처럼 커질수록 집단 간 차이가 있다고 해석합니다.
4. 유의수준과 유의확률
- 유의수준 (Significance Level): 귀무가설이 맞지만 이를 기각하게 될 확률로, 주로 1%(0.01) 또는 **5%(0.05)**를 사용합니다.
- 유의확률 (p-value): 주어진 통계가 귀무가설을 지지하는 정도를 나타냅니다. p-value가 유의수준보다 작으면 귀무가설을 기각하고, 통계적으로 유의미하다고 판단합니다.
5. t-검정 (T-test)
t-검정은 두 집단 간의 평균 차이가 유의미한지 검정하는 방법입니다.
- t-value는 두 집단 간의 평균 차이가 클수록 커집니다. t-검정은 주로 두 그룹만 비교할 때 사용되며, 그 이상일 때는 분산분석(ANOVA)을 사용합니다.
6. 분산분석 (ANOVA)
**분산분석(ANOVA)**는 세 개 이상의 집단 간 평균 차이를 비교하는 방법입니다.
- 집단 간 평균 차이가 클수록 분산이 커지고, 그 차이를 검정하기 위해 F-value를 사용합니다.
- 분산분석은 집단 내 분산이 작을 때 적합하며, F-value가 커질수록 그룹 간 차이가 있다고 해석됩니다.
7. 교차분석 (Chi-square test)
교차분석은 범주형 변수 간의 관계를 분석하는 방법으로, 카이제곱 검정을 사용합니다.
- 주로 범주형 데이터에서 두 변수 간의 상관 관계를 파악할 때 유용합니다.
8. 상관분석 (Correlation analysis)
상관분석은 두 변수 간의 선형 관계를 측정하는 분석 방법입니다.
- 상관계수는 -1에서 1 사이의 값을 가지며, -1은 음의 상관관계, 1은 양의 상관관계를 나타냅니다. 0에 가까우면 상관관계가 없다고 봅니다.
9. 회귀분석 (Regression analysis)
회귀분석은 데이터의 경향성을 추정하는 방법입니다.
- **종속변수(y)**와 독립변수(x) 간의 관계를 선형 모델로 표현하며, 독립변수가 하나면 단순선형회귀분석, 둘 이상이면 다중선형회귀분석이라 합니다.
- 종속변수가 범주형일 경우 로지스틱 회귀분석을 사용합니다.
- 모델의 설명력을 나타내는 지표로 R² 값이 사용되며, 이 값이 1에 가까울수록 모델의 예측력이 높다는 뜻입니다.
10. 경사하강법과 손실 함수 (Gradient Descent & Loss Function)
경사하강법은 **손실 함수(Loss function)**를 최소화하기 위해 사용하는 최적화 알고리즘입니다.
- 손실 함수는 예측값과 실제값 사이의 차이를 나타내며, 이를 최소화하는 방향으로 가중치를 업데이트하는 것이 경사하강법입니다.
이렇게 데이터 분석에서 사용하는 중요한 통계 개념들을 알아보았습니다. 각 기법들은 데이터의 특성과 분석 목표에 맞게 사용될 수 있으며, 이를 바탕으로 더 나은 의사결정과 통찰을 얻을 수 있습니다.
'머신러닝' 카테고리의 다른 글
RNN의 이해 (0) | 2024.10.21 |
---|---|
CNN의 이해 (0) | 2024.10.18 |
ANN의 이해 (1) | 2024.10.17 |
k-means clustering (0) | 2024.10.15 |
선형회귀, 다항회귀, 로지스틱 회귀 (0) | 2024.10.14 |