λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
● λ…Όλ¬Έ/πŸ“Š 톡계

1] 기초 λ³΄κ±΄μ˜ν•™ν†΅κ³„

by rlatkdgus502 2024. 4. 27.

1. λ³€μˆ˜(variables)

1) 원인

- λ…λ¦½λ³€μˆ˜(independent variable)

= μ„€λͺ…λ³€μˆ˜(explanatory variable)

= μ˜ˆμΈ‘λ³€μˆ˜(predictor variable)

= μœ„ν—˜μΈμž(risk factor)

= κ³΅λ³€λŸ‰(covariate)

= μš”μΈ(factor)

 

2) κ²°κ³Ό

- μ’…μ†λ³€μˆ˜(dependent variable)

= λ°˜μ‘λ³€μˆ˜(response variable)

= κ²°κ³Όλ³€μˆ˜(outcome variable)

= ν‘œμ λ³€μˆ˜(target variable)

 

 

2. 자료(data)

1) μ—°μ†ν˜• 자료(numerical data) = 양적 자료(quantitative data)

- 간격 척도(interval scale): μˆ˜λŸ‰ν™” κ°€λŠ₯함. μΈμœ„μ μœΌλ‘œ μ •μ˜ν•œ κ²ƒμ΄λ―€λ‘œ μ ˆλŒ€μ˜μ μ€ μ—†μŒ (우울증 점수, 섭씨 μ˜¨λ„)

- λΉ„ 척도(ratio scale): μˆ˜λŸ‰ν™” κ°€λŠ₯함. 본래적인 μ ˆλŒ€μ˜μ μ΄ 쑴재 (ν‚€, 체쀑, μ½œλ ˆμŠ€ν…Œλ‘€ 수치)

 

2) λ²”μ£Όν˜• 자료(categorical data) = 질적 자료(qualitative data)

- μˆœμœ„ 척도(ordinal scale): μžλ£Œλ“€ 간에 μ„œμ—΄μ΄ 쑴재. 단, 간격이 달라 μˆ˜λŸ‰ν™”(평균) λΆˆκ°€. (병기, 쀑증도)

- λͺ…λͺ© 척도(nominal scale): μ„œμ—΄μ—†μ΄ μ΄λ¦„λ§Œ 의미 (성별, ν˜ˆμ•‘ν˜•, 치료ꡰ과 λŒ€μ‘°κ΅°)

 

 

3. κ°€μ„€(hypothesis, H)

1) κ°€μ„€μ˜ μ’…λ₯˜

- 귀무가섀(null hypothesis, H0): 차이가 μ—†λ‹€λŠ” κ°€μ„€

- λŒ€λ¦½κ°€μ„€(alternative hypothesis, H1): 차이가 μžˆλ‹€λŠ” κ°€μ„€

 

2) κ²€μ¦μ˜ 방법

  무죄 μΆ”μ •μ˜ 원칙이 κ·ΈλŸ¬ν•˜λ“―, μ–΄λ–€ λͺ…μ œκ°€ κ±°μ§“μž„μ„ 증λͺ…ν•˜κΈ°λŠ” μ‰½μ§€λ§Œ μ°Έμž„μ„ 증λͺ…ν•˜κΈ°λŠ” 맀우 μ–΄λ ΅λ‹€. κ·Έλž˜μ„œ μ—°κ΅¬μ—μ„œλŠ” μ›ν•˜λŠ” κ°€μ„€μ˜ 참을 증λͺ…ν•˜λŠ” 것이 μ•„λ‹ˆλΌ λ°˜λŒ€λ˜λŠ” κ°€μ„€μ˜ 거짓을 증λͺ…ν•œλ‹€. λ…Όλ¦¬μ μœΌλ‘œ 증λͺ…ν•˜λŠ” μˆ˜ν•™κ³Ό 달리, ν†΅κ³„ν•™μ—μ„œλŠ” 증λͺ…μ˜ 기쀀을 95%둜 μž‘μ•„μ™”λ‹€. 100번 μ‹€ν—˜ν–ˆμ„λ•Œ 95λ²ˆμ΄μƒ κ΄€μ°°λ˜λŠ” ν˜„μƒλ§Œ μΈμ •ν•΄μ£ΌλŠ” 것이닀.

  귀무가섀이 μ°Έμ΄λΌλŠ” μ „μ œ ν•˜μ— κ³„μ‚°ν•œ p값이 0.05 λ―Έλ§ŒλΌλŠ” κ²°κ³ΌλŠ” 무엇을 μ˜λ―Έν• κΉŒ. '차이가 μ—†λ‹€'λŠ” 것이 진싀이라면 이같은 κ²°κ³Όκ°€ λ‚˜μ˜¬ κ°€λŠ₯성이 극히 λ“œλ¬Όλ‹€λŠ” 것을 μ˜λ―Έν•œλ‹€. 즉, '차이가 μ—†λ‹€'λŠ” 가섀을 κΈ°κ°ν•˜λ©° '차이가 μžˆλ‹€'λΌλŠ” μš°μœ„μ„±μ„ κ²€μ •ν•΄λ‚Ό 수 μžˆλ‹€.

  만일, p값이 0.05 이상이라고 ν•΄μ„œ λ°”λ‘œ '차이가 μ—†λ‹€'λ₯Ό 참으둜 받아듀여도 λ˜λ‚˜? μ•ˆλœλ‹€. μš°λ¦¬λŠ” 참이 μ•„λ‹ˆλΌ 거짓을 톡해 증λͺ…ν•΄μ•Ό ν•œλ‹€. '차이가 μžˆλ‹€'λΌλŠ” κ°€μ •ν•˜μ— κ³„μ‚°ν•œ μƒˆλ‘œμš΄ p값이 0.05 λ―Έλ§Œμž„μ„ λ³΄μ—¬μ•Όλ§Œ, '차이가 μžˆλ‹€'λΌλŠ” 가섀을 κΈ°κ°ν•˜λ©° 동등성을 κ²€μ •ν•΄λ‚Ό 수 μžˆλ‹€.

 

3) κ²€μ •μ˜ 였λ₯˜

- 제1μ’… 였λ₯˜(alpha): μ‹€μ œλ‘œλŠ” 차이가 μ—†λŠ”λ° μ‹€ν—˜μ—μ„œ 차이가 μžˆλ‹€κ³  λ‚˜μ˜΄. κ³΅μ§„λ‹¨λ§ˆλƒ₯ μ‚¬νšŒμ˜ 악이라 맀우 μ€‘μš”.

- 제2μ’… 였λ₯˜(beta): μ‹€μ œλ‘œλŠ” 차이가 μžˆλŠ”λ° μ‹€ν—˜μ—μ„œ 차이가 μ—†λ‹€κ³  λ‚˜μ˜΄. 1-bλŠ” ν†΅κ³„κΈ°λ²•μ˜ κ²€μ •λ ₯을 의미

 

 

4. 닀쀑비ꡐ

 μ„œλ‘œ λ‹€λ₯Έ μƒ‰μ˜ 동전 100개λ₯Ό λ˜μ§„λ‹€κ³  μƒκ°ν•΄λ³΄μž. 각각의 μ•žλ©΄ ν™•λ₯ μ€ 0.5μ΄μ§€λ§Œ, λ™μ‹œμ— λͺ¨λ“  동전이 μ•žλ©΄μΌ ν™•λ₯ μ€ 0.5의 100μ œκ³±μ΄λ‹€. 적어도 ν•œκ°œμ˜ 동전이 뒷면일 ν™•λ₯ μ€ 1-(1-0.5)^100 으둜 거의 1에 μˆ˜λ ΄ν•œλ‹€. 즉, 적어도 ν•œκ°œμ˜ 동전이 뒷면일 κ°€λŠ₯성이 맀우 λ†’λ‹€λŠ” 것이닀.

 

 μ„œλ‘œ λ‹€λ₯Έ μ•½ 100개의 효과λ₯Ό νŒλ‹¨ν•œλ‹€κ³  μƒκ°ν•΄λ³΄μž. 각각을 μ œλŒ€λ‘œ νŒλ‹¨ν•  κ°€λŠ₯성이 0.05라고 ν•˜μž. λ™μ‹œμ— λͺ¨λ“  νŒλ‹¨μ„ μ œλŒ€λ‘œ ν•  ν™•λ₯ μ€ 0.05의 100μ œκ³±μ΄λ‹€. 적어도 ν•œλ²ˆμ˜ νŒλ‹¨μ΄ 잘λͺ»λμ„ ν™•λ₯ μ€ 1-(1-0.05)^100으둜 거의 1에 μˆ˜λ ΄ν•œλ‹€. 즉, 적어도 ν•œλ²ˆμ˜ νŒλ‹¨μ€ 잘λͺ»ν–ˆμ„ κ°€λŠ₯성이 맀우 λ†’λ‹€λŠ” 것이닀. 이λ₯Ό 닀쀑 λΉ„κ΅μ˜ 문제(multiple comparison problem)라고 ν•œλ‹€. μ—¬λŸ¬ ꡰ에 λŒ€ν•œ 가섀을 검증할 λ•Œμ—” 전체 μœ μ˜μˆ˜μ€€μ΄ 5%λ₯Ό λ„˜μ§€μ•Šκ²Œ 각각의 μœ μ˜μˆ˜μ€€μ„ 더 μž‘κ³  νƒ€μ΄νŠΈν•˜κ²Œ μž‘μ•„μ•Όλ§Œ ν•œλ‹€. 이에 λŒ€ν•œ μ„€λͺ…은 좔후에.

 

  μ–΄λ–»κ²Œ 잘 ν•΄κ²°ν–ˆλ‹€κ³  일단 λ„˜μ–΄κ°€κ³ , 3개의 약물에 λŒ€ν•΄ 가섀을 κ²€μ •ν•œλ‹€κ³  μƒκ°ν•΄λ³΄μž. 귀무가섀은 'μ„Έ μ•½λ¬Όμ˜ μ°¨μ΄λŠ” μ—†λ‹€'κ°€ λœλ‹€. ν•΄λ‹Ή λͺ…μ œμ˜ λ°˜λŒ€μΈ λŒ€λ¦½κ°€μ„€μ€ '적어도 ν•œ 약물은 차이가 μžˆλ‹€'κ°€ λœλ‹€. A와 B 약물간에 차이가 μžˆλŠ”μ§€, B와 C 약물간에 차이가 μžˆλŠ”μ§€λŠ” 아직 λͺ¨λ₯Έλ‹€. 즉, μ–΄λ–€ κ΅° 사이에 차이가 μžˆλŠ”μ§€λ₯Ό μΆ”κ°€λ‘œ λ°ν˜€μ•Ό ν•œλ‹€. 이 과정을 사후뢄석(post hoc)이라고 ν•œλ‹€.

 

 

5. μžμœ λ„(degree of freedom, df)

- μ£Όλ³€ν•©μ΄ μ •ν•΄μ ΈμžˆλŠ” ν‘œμ—μ„œλŠ” μΌλΆ€μ˜ κ°’λ§Œ μ•Œλ©΄ λ‚˜λ¨Έμ§€ 값은 μžλ™μœΌλ‘œ μ •ν•΄μ§„λ‹€. 마치 λ…Έλ…Έκ·Έλž¨μ΄λ‚˜ μŠ€λ„μΏ μ²˜λŸΌ

- nν–‰ mμ—΄μ˜ κ΅μ°¨ν‘œμ—μ„œμ˜ μžμœ λ„λŠ” (n-1) x (m-1)이닀.

 

 

6. 뢄포(distribution)

1) μ •κ·œλΆ„ν¬(normal distribution)

- μ—Žμ–΄λ†“μ€ μ’… λͺ¨μ–‘. μ’Œμš°λŒ€μΉ­

- μ€‘μ‹¬κ·Ήν•œμ •λ¦¬: μ–΄λ– ν•œ ν˜•νƒœμ˜ μžλ£ŒμΌμ§€λΌλ„ ν‘œλ³Έμˆ˜κ°€ μ¦κ°€ν•˜λ©΄ μ •κ·œλΆ„ν¬ 곑선에 μˆ˜λ ΄ν•œλ‹€

- 평균(mean, μ), ν‘œμ€€νŽΈμ°¨(standard deviation, σ) 단 2개의 λͺ¨μˆ˜(parameter)만으둜 ν‘œν˜„ 및 비ꡐ κ°€λŠ₯.

- 평균을 0으둜, ν‘œμ€€νŽΈμ°¨λ₯Ό 1둜 μΉ˜ν™˜ν•˜λ©΄ ν‘œμ€€μ •κ·œλΆ„ν¬(Z뢄포)라고 함. λ‹¨μœ„λ₯Ό μ“°μ§€ μ•Šμ•„λ„ λΌμ„œ μ’‹μŒ.

 

2) T뢄포(T distribution)

- μ—Žμ–΄λ†“μ€ T λͺ¨μ–‘. μ’Œμš°λŒ€μΉ­

- ν‘œλ³Έμˆ˜κ°€ 증가함에 따라, μžμœ λ„κ°€ 증가함에 따라 μ •κ·œλΆ„ν¬μ˜ ν˜•νƒœμ— κ·Όμ ‘ν•˜κ²Œ 됨

 

3) F뢄포(F distribution)

- 두 집단 κ°„μ˜ 뢄산을 λΉ„κ΅ν•˜λŠ” 데 μ‚¬μš©

 

4) μΉ΄μ΄μ œκ³±λΆ„ν¬(chi-squared distribution)

- 두 집단 κ°„μ˜ λΉ„μœ¨μ„ λΉ„κ΅ν•˜λŠ” 데 μ‚¬μš©

 

 

7. 탐색적 μžλ£ŒλΆ„μ„(exploratory data analysis)

1) λŒ€ν‘œκ°’(representative value)

- 평균, 쀑앙값(median)=2μ‚¬λΆ„μœ„μˆ˜ λ“±

- λ‘˜ κ°„μ˜ 차이가 많이 λ‚˜λŠ”μ§€ 확인해보기

 

2) 산포도(degree of scattering)

- ν‘œμ€€νŽΈμ°¨, λΆ„μ‚°(variance), λ²”μœ„(range) λ“±

- μ™œλ„(skewness), 첨도(kurtosis) 값이 -2 ~ +2 사이에 μœ„μΉ˜ν•˜λŠ”μ§€

 

3) λ‹€μ„―μˆ˜μΉ˜μš”μ•½(five number summary) = μƒμžκ·Έλ¦Ό(box plot)

- μ΅œλŒ“κ°’, 3μ‚¬λΆ„μœ„μˆ˜, 쀑앙값, 1μ‚¬λΆ„μœ„μˆ˜, μ΅œμ†Œκ°’

 

8. μ •κ·œμ„± κ²€μ •

- μ •κ·œμ„± κ²€μ •μ—μ„œλŠ” 'μ •κ·œμ„±μ„ 띀닀'κ°€ 귀무가섀이 되고, KS법, SW법 λ‘˜μ€‘ ν•˜λ‚˜λΌλ„ p > 0.05이면 참이라고 ν•œλ‹€.

- λ‹€λ§Œ λΉ…λ°μ΄ν„°μ—μ„œλŠ” KS법, SW법이 λ¬΄μ˜λ―Έν•˜λ‹€κ³  ν•˜λ‹ˆ 큰 의미λ₯Ό λ‘μ§€λŠ” 말자.

 

1) λͺ¨μˆ˜μ  방법(parametric method)

- μ •κ·œμ„±μ„ λ λŠ” ν‘œλ³Έμ— μ‚¬μš©κ°€λŠ₯ν•œ 방법듀. 

- μ—°μ†ν˜• 자료 쀑 κ΅°λ‹Ή 30λͺ… 이상. ν˜Ήμ€ κ΅°λ‹Ή 10~30λͺ…μ΄μ§€λ§Œ μ •κ·œμ„± 검증을 ν†΅κ³Όν•œ κ²½μš°μ—λ§Œ κ°€λŠ₯

- κ²€μ •λ ₯ λ†’κ³ , 차이에 μ˜λ―ΈλΆ€μ—¬ κ°€λŠ₯

 

2) λΉ„λͺ¨μˆ˜μ  방법(non-parametric method)

- μ •κ·œμ„±μ΄ μ—†λŠ” ν‘œλ³Έμ— μ‚¬μš©κ°€λŠ₯ν•œ 방법듀

- μ—°μ†ν˜• 자료 쀑 κ΅°λ‹Ή 10λͺ… 미만. ν˜Ήμ€ κ΅°λ‹Ή 10~30λͺ…μ΄μ§€λ§Œ μ •κ·œμ„± 검증을 ν†΅κ³Όν•˜μ§€ λͺ»ν•œ κ²½μš°κ±°λ‚˜, λ²”μ£Όν˜• μžλ£Œμ— κ°€λŠ₯

- ν‘œλ³Έμˆ˜ 적어도 μ‚¬μš©κ°€λŠ₯.

λŒ“κΈ€