I. 유의확률(p-value)
"p-value가 0.05보다 작으니 유의하다?"
일단은 p-value를 "어떤 사건이 우연히 일어날 확률"로 이해하면 앞으로의 개념들을 이해할 때 도움이 된다.
이렇게 이해했을 때 p-value가 0.05보다 작다는 것은 어떤 사건이 우연히 일어날 확률이 0.05보다 작다는 말이다. 즉, 우연히 일어났을 가능성이 거의 없고, 이 말은 이 사건이 발생한 데에 있어서 뭔가 이유(인과관계)가 있다고 볼 수 있는 것이다. 따라서 p-value가 0.05보다 작으면 유의하다 즉, 뭔가 이유가 있다라고 말하는 것이다.
II. 통계적 가설
1) 귀무가설(Null Hypothesis, H0)
: 아무 영향도 없고 아무 일도 없다고 가정하는 가설
- 즉, 귀무가설은 어떤 사건이 우연히 일어났다고 가정하는 가설이 되겠다.
=> 다시 말해 귀무가설이 참이라면, 어떤 사건이 일어난 것은 우연!
- 따라서 유의확률(p-value)이 0.05보다 큰 경우에는 귀무가설을 채택하게 된다.
2) 대립가설(Alternative Hypothesis, H1, 연구가설)
: 귀무가설을 대체할 수 있는 가설
- 즉, 대립가설은 그 사건이 발생한 데에 있어서 뭔가 이유가 있다고 보는 가설이다.
=> 다시 말해 대립가설이 참이라면, 어떤 사건이 일어난 데에는 이유가 있다는 것
- 따라서 유의수준(p-value)이 0.05보다 작은 경우에는 대립가설을 채택하게 된다.
3) 가설 검정의 오류
- 1종 오류 : 연구 결과 귀무가설이 거짓이여서 기각했는데(즉, 연구가설을 채택했는데) 실제로는 귀무가설이 참인 경우(즉, 연구가설이 거짓인 경우) => 이런 경우는 잘못된 인과관계에 빠지게 되는 경우!
- 2종 오류 : 연구 결과 귀무가설이 참이어서 채택했는데(즉, 연구가설을 기각했는데) 실제로는 귀무가설이 거짓인 경우(즉, 연구가설이 참인 경우) => 이런 경우는 제대로된 인과관계를 놓치게 되는 경우!
- 통계적 연구에 있어서는 1종 오류에 빠지는 것이 더 큰 문제이다!
- 여기서 말하는 1종 오류의 기준이 5%이고, 이 5%가 유의확률(p-value)을 0.05와 비교하는 기준이 된 것이다. 다시 말해, p-value의 확률값은 1종 오류의 수준을 5%로 제약한다는 의미로 사용된다는 것! 또 다시 말해, 어떤 사건이 우연히 발생했음에도 우연히 발생한 것이 아니라고 결론을 내릴 오류를 5%이내로 제약한다는 것.
III. 변수와 상관관계
1. 변수
1) 변수란?
: 하나의 개념을 대표하는 상징으로서 그것의 특성이 갖는 값이나 강도 또는 크기의 차이를 나타낼 수 있는 것
쉽게 말해! 변수는 "변하는 숫자" 이다. <-> 상수
- 예를 통해 보자면,
- 변수 : 교육수준 이라면,
- 속성 : 중졸, 고졸, 대졸, 대졸이상 즉, 교육수준을 대변하는 특징들이 속성이 되고,
- 값(values) : 1, 2, 3, 4 => 속성을 대변하는 값들
- 관계 : 해당 변수와 다른 변수간의 관계를 상정할 수 있게 되는 것
2) 변수의 종류
1. 이산/범주형 변수
- 명목변수/척도
- 각 범주(속성)간 순위가 없다.
- 범주에 할당된 값은 범주 이름을 대신할 뿐 의미가 없다.
- 예) 성별, 인종, 혈액형
- 순위(서열)변수/척도
- 각 범주(속성)간 순위가 있다.
- 범주에 할당된 값은 범주의 이름 뿐만 아니라 서열을 나타낸다.
- 순위 사이에 등간성은 없다.
- 예) 성적, 학력, 경제수준, 리커르트 척도
- 질적 변수인 경우가 많다.
2. 연속형 변수
-
등간(구간)변수/척도
- 측정된 범주 사이에 등간성이 있다.
- 할당된 값은 임의의 단위로서 비율이나 절대 '0'의 의미가 없다.
- 따라서 덧셈은 가능하나 곱셈은 안된다.
- 예) 온도
-
비율변수/척도
- 측정된 범주 사이에 등간성이 있다.
- 할당된 값은 임의의 단위로서 비율과 절대'0'의 의미가 있다.
- 덧셈과 곱셈 모두 가능하다.
- 예) 키, 몸무게, 나이, 시간
-
양적 변수인 경우가 많다.
2. 상관관계
한 변수가 다른 변수와 공변하는 관계
but! 진짜 중요한 것은 상관관계가 의미하는 바("방향, 힘")이다.
1) 상관계수
- 상관계수는 -1부터 0을 거쳐 1까지만 존재한다.
- 상관계수가 -1일 때 완벽한 음의 상관관계
- 상관계수가 1일 때 완벽한 양의 상관관계
- 상관계수가 0일 때 아무런 관계도 없다.
2) 상관계수의 방향과 힘
"상관계수의 +,-는 방향을 의미한다."
- 즉, 어떤 방향으로 변수들이 관계를 맺는지!
"상관계수의 크기는 힘을 의미한다."
- 상관계수가 절대값 1에 가까울수록 힘이 세다. 힘이 세다는 것은 데이터들이 가깝게 모여있다는 것을 의미한다. 따라서 데이터들이 퍼져있으면 상관계수가 0에 가까워진다. 즉, 관계가 얼마나 강하게 있는지를 판단할 수 있다는 것!
3) 상관관계는 인과관계가 아니다!
인과관계는 원인과 결과를 가지는 변수의 관계성을 의미하며, 상관관계를 인과관계적으로 판단해서는 안된다!
출처 : 유튜브 Sapientia a Dei
'Statistics' 카테고리의 다른 글
3. t-test (0) | 2019.09.22 |
---|---|
1. Mind Setting & Basic Concepts (0) | 2019.09.18 |