스포츠 쪽을 디테일하게 공부하다보면 논문을 읽어야할 일이 많습니다. 하지만 이런 논문들이 어떻게 설계되어있는지 이해하기가 어려워서 난감해지는 일도 많이 발생하죠. 그래서 올해는 통계학과, 스포츠과학과 대학원생 2명과 함께 논문스터디를 시작했습니다! 3명이 머리를 맞대고 논문 분석을 하는 것인 만큼 당연히 좋은 정보를 다룰 수 밖에 없겠죠?ㅎㅎ 그럼 오늘은 첫주차에 다뤘던 논문 내용 먼저 분석해보도록 하겠습니다. 첫 주차에 진행했던 논문제목은 아래와 같답니다:) (저희는 notion 프로그램에 논문 내용 정리를 진행하고 있고, 블로그에는 notion에 정리한 내용들 기반으로 정리해보려고 계획 중입니다.)
The role of prediagnostic data in injury epidemiology in preprofessional dancers
==> 첫 주차 논문 제목
그렇다면 이 논문은 무용수들을 다치게 하는 위험요인을 어떻게 분석하였고, 어떤 결론을 내렸는지 살펴볼까요? 일단 연구 설계를 살펴봅시다! (아래에서는 보다 친근한 설명을 위해 반말로 기재해놓은 점 양해 부탁드립니다:))
INTRO
저자는 어떤 목적성을 가지고 이 논문을 작성했을까?
+) after-diagnosis data와 prediagnostic data의 개념을 먼저 구분하기!
기존의 논문들이 after-diagnosis 데이터들을 주로 활용한다는 점을 문제로 보고, prediagnostic data를 활용하여 연구를 하고 싶어했어. after-diagnosis 데이터가 뭐냐고? 부상 당하기 전의 상태에 집중하는 것이 아닌, 부상 당한 후에 집중한 데이터들이야. 다시 말해서, 부상의 결과 뿐만 아니라, 부상의 비율, 위험, 빈도로 표현되는 잇따른 부담 등 부상 후의 결과적인 값들에 집중하는 데이터들을 after-diagnosis 데이터라고 해!
따라서 기존처럼 after-diagnosis 데이터에 집중한 논문들은 부상에 대한 수적인 정보들을 제공하기는 하지만, 이들은 다이나믹한 부상 패턴을 반영하기는 어렵고, 부상 예방을 위해 활용되는 경우가 적게 되지. 그래서 이 논문에서는 조금 더 부상 예방에 활용할 수 있는 정보를 찾고자, 부상을 당하는 상황의 prediagnostic data를 분석하고자 했다고 보면 돼!
Methods
그렇다면 저자는 알아보고 싶은 것을 연구하고자, 어떻게 연구모형을 설계했고, 어떤 데이터들을 수집하였을까?
저자는 연구를 위한 정보들을 무용수들에게 직접 얻어내는 방식으로 진행했어! 논문에서는 "자가보고식 설문지(individual occurrence report form)"을 사용하여, 무용수들에게 조사를 진행했지.

논문에 첨부된 appendix S1 ( individual occurrence report form)
자가보고서에는 어떤 항목들이 들어가있을까?
위의 표에 제시된 것처럼 다양한 항목들을 조사했어! 내가 아래에 한국어로도 항목들을 쭉 적어놓기는 했는데... 한국어가 오히려 어려워서 그냥 내가 캡쳐해놓은 appendix S1을 쭉 읽어보는 것을 추천해..ㅎㅎ 무용수들의 이름, 나이, 무용을 한 기간, 무용 실력, 어디가 아픈지, 수업/리허설/공연 중에 언제 다친건지(?) 등등 다양한 항목들을 조사하면서 무용수들에 대한 정보를 얻어본 것 같아!
무용수의 demography, 해부학적 위치에 관한 신체적 불편, 풀러(34,35)의 Framework에 기반한 성격 유형, 발병 종류에 관한 유발 메커니즘 설명은 제이콥슨 등의 명명법(36) (ie, sudden and gradual onset; 갑작스럽고 점진적인 발병); the motor action (ie, exercise being performed);37 and the respective context (ie, activity type)
⇒ 부상당한 시기(연도), 기술 수준, 성별에 따른 무용 시간
더 나아가 이 논문의 연구 설계는 크게 "Prospective, non-randomized, observational study" 3가지의 키워드로 분류할 수 있어.
⇒ Prospective “전향적 연구”
전향적 연구는 미리 연구계획을 세워두어 현 시점에서부터 연구를 수행하는 형태야.
즉, 처음부터 연구를 하고자 하는 의도를 가지고 데이터를 수집하는 것이지.
⇒ observational study “관찰 연구”
관찰 대상의 행동 특성을 직접 객관적, 계획적으로 관찰해서 분석하는 연구 방법이야. 관찰은 도구를 사용하지 않는 측정이며, 도구를 사용하더라도 그것을 측정하는 사람에게는 영향을 미치지만 관찰 대상에게는 영향을 미치지 않아. (특수교육학 용어사전, 2009., 국립특수교육원)
이제 얼추 이 논문이 어떤 자료조사들을 했는지는 감이 잡혔겠지?ㅎㅎ 그렇다면 통계적으로는 어떻게 연구를 설계했을까?
Statistical analysis
이 논문은 부상에 영향을 미치는 요인을 알아보기 위한 논문이었지? 그럼 가장 중요한게 독립변수가 종속변수에 어떤 영향을 미치는지 제대로 파악하는 것이겠지!
모든 독립변수들을 다 가지고 오면 이야기가 너무 길어질 것 같으니까, 설명하기 위해 몇 가지만 가지고 와볼게..>>
일단 어떤 통계개념을 사용했는지 제대로 이해하기 위해서는 "범주형 변수", "연속형 변수"라는 개념을 알아야 해.
- 범주형 변수 : 일정 범주로 나눌 수 있는 변수이며, “월, 년, 성별, 실력” 등이 그 예시라고 할 수 있어. 이 논문에서는 발레 실력(skill level)과 성별(sex)라는 범주형 변수를 사용했지. 범주형 변수일 때는 Chi-square을 사용할 수 있어.
- 연속형 변수 : 숫자로 표현할 수 있는 변수 중 범위가 무한으로 표시될 수 있는 변수이며, “길이, 시간, 무게” 등이 그 예시야! 이 논문에서는 발병률과 유병률이라는 연속형 변수를 사용했어. 연속형 변수일 때는 Kruskal-wallis analysis를 사용할 수 있어.
결론적으로 정리하면 발레 실력, 성별(범주형 변수)에 따라서 부상률이 달라지는지 알아보고자 Chi square analysis를 사용했고, 발병률과 유병률(연속형 변수)에 따른 부상률을 보고자 Kruskal-Wallis analysis를 사용했다고 보면 돼.
조금 더 어려운 교과적인 워딩으로 한 번 써볼게! 구어체 설명 먼저 읽고 교과서 워딩 읽으면 좀 더 잘 이해가 되니까ㅎㅎ
카이제곱 검정(Chi-square analysis)
- 카이제곱 분포는 이론적으로 기대되는 빈도와 실제 관측된 빈도 간의 차이를 검정하거나, 또한 범주형 변수들 간의 관계를 조사하는 검정하는 데 쓰이는 통계적 도구이다. 이렇게 카이제곱 분포를 사용하는 검증 방법을 카이제곱 검정(”Chi Square Test)이라고 한다. (Introduction to Statistics)
- 해당 논문에서는 다양한 그룹(skll level에 따른 그룹)이나 범주(관측 연도 또는 월) 간의 비율이 통계적으로 유의미한 차이가 있는지를 확인하는데 카이제곱 검정이 쓰임.
Kruskal-Wallis analysis
- 크루스칼-왈리스 H-검정은 독립적이거나 관련이 없는 두 개 이상의 표본을 비교하는 비모수적 분석 방법이다.(Nonparametric Statistics)
- 두 개 이상의 그룹의 차이를 분석한다는 점에서 분산 분석(ANOVA)과 유사하지만, 비교 대상이 각 그룹의 평균이 아닌 중앙값
- 비모수적 방법이므로, 분산 분석(ANOVA)와 달리 데이터의 정규성을 가정할 수 없을 때 쓸 수 있는 방법

Table 3. Injury-related dance class inciting event according to Poisson distribution across motor actions by gender
With the exception of EntL males, chi-square analysis found no significant differences in injured dancers’ proportion and injury frequency distribution across the three years within SkL and within the same gender. Conversely, interlevel distribution within the same gender exhibited significant differences (p<0.01). Depending on SkL, IIRrg oscillated between 0.23/1000 hours and 2.92/1000 hours and IPRrg between 0.11/1000 hours and 0.44/1000 hours for males, whereas for females IIRrg ranged between 0.54/1000 hours and 2.21/1000 hours and IPRrg between 0.00/1000 hours and 0.80/1000 hours.
Although Kruskal-Wallis analysis found no significant differences between IIR and IPR across gender and SkL, it was possible to observe that the higher the MIC, the lower the IIR1, and the higher the IPR toward AdvL.
위의 논문 내용에서 알 수 있듯이, (관찰한 3년 동안) 발레실력과 성별은 "부상당한 무용수의 비율이나 부상 빈도"에 유의미한 영향을 끼치는 원인은 아니었어. (+ 위에서 말한 것처럼 이 둘은 범주형 변수이기 때문에 카이제곱검정을 사용했다는 것도 포인트!)
하지만 같은 성별 내에서는 Entry, Intermediate, Advanced의 실력별로 "부상당한 무용수의 비율이나 부상 빈도"에 유의미한 영향을 끼쳤어.
--> 성별이나 발레실력이 IIR이나 IPR 사이에 유의미한 차이를 만들어내지는 않았지만, Advanced level이 될수록 MIC, IIR1, IPR이 높아졌다고 정리할 수 있어. 다시 말해서 발레 실력이 올라갈수록 부상 발생 횟수(multiple injury count number), 발병률(incidence range), 유병률(prevalence range)이 올라간거지. (IIR, IPR은 모두 연속형 변수이기 때문에 Kruskal-Wallis analysis를 사용한 것을 알아가는 것도 포인트겠지!?)
참고)
IIRrg(발병률): 특정 기간 동안 부상 당한 무용수 수/전체 무용수(%) ⇒ 새롭게 부상을 당한 무용수의 비율!
IPRrg(유병률) : 특정 기간에서 특정 부상을 당한 무용수 수/전체 무용수(%) ⇒ 특정 기간(현재) 부상을 당한 무용수의 비율!

이것도 범주형 변수인 "월"에 따른 IRR을 분석하고자 카이제곱검정방법을 사용한거지.
Table 2 describes injured dancers’ frequency patterns per month of practice across SkL, based on how often they have visited the SHO. December was found to be the month with less injured dancers. January was identified as the month with higher injury probability for EntL with an IRR of 8.021 [95% CI 1.593-40.380] P = 0.012. For IntL, October was identified as the critical month, with an IRR of 3.382 [95% CI 1.096-10.436] P = 0.034. In AdvL students, several months exhibited significant added probability for injury. September stood out as the most significant, with an IRR of 3.131 [95% CI 1.570-6.244] P = 0.001, followed by October, February, April, and May (P = 0.021, P = 0.022, P = 0.039 and P = 0.039, respectively).
추가적으로 설명을 위해 위에 표를 하나 더 삽입해봤어. 여기 표에서 보면 12월이 Ref라고 되어 있는데, 왜일까? 가장 부상 발생이 적어서 12월을 기준점으로 삼았다고 논문에 기재해놨더라구ㅎㅎ 그리고 볼드체되어 있는 1월과 4월이 기준인 12월보다 각각 8.021배, 4.873배만큼 많이 발생해서 유의미하게 부상이 많이 발생하는 달이라고 볼 수 있는거지. (Entry level의 발레 실력을 가진 사람들을 기준으로 본 상황)
그리고 표에 보면 IRR이라는 개념도 나와있지? IRR이라는 개념은 부상이 가장 적은 12월 기준으로 상대적인 지표를 측정하기 위해서 사용한거야.
상대위험도 IRR (Incidence Risk Ratio)
- 노출된 그룹에서 특정 결과가 나타날 확률을 비노출 그룹에서 결과가 나타날 확률로 나눈 비율이다.(Proportions, Odds, and Risk, • Christopher L. Sistrom, 2004)
- 일정 시점에서 발생하는 사건의 비율을 비교하는 데 이용되는 상대적 차이의 측정치
- 두 그룹의 위험율을 비교하는 직관적인 방법
- 해당 논문에서는 기준 그룹이 되는 참고 월인 12월에 비해 부상 발생 위험비가 OOO 높다고 해석

그리고 이 논문에서 나온 다른 통계 개념들도 쭉 설명해줄게!
Table2와 Table3 의 제목을 보면 "포아송 분포(Poisson distribution)"에 따라 작성된 논문이라는 것을 알 수 있어. 그럼 포아송 분포란 무엇이고, 이 논문에서는 왜 사용이 되었을까? 이 논문에서는 일정한 시간 동안 조사된 댄서들의 부상 빈도를 수집했잖아. 이 정보 자체가 포아송 분포를 따른다고 할 수 있어:) 포아송 분포는 단위시간이나 단위면적 또는 단위공간에서 발생한 사건의 수가 따르는 확률분포이기 때문이지. (통계학원론)
(포인트는 포아송 분포가 이산확률분포라는 점!)
포아송 분포 (Poisson distribution)
- 사건의 수에 대한 확률분포라는 점에서 이산 확률 분포이며, 각 사건이 발생할 확률을 나타내는 것
- 포아송 회귀분석은 종속 변수가 포아송 분포를 따르며, 여러 독립 변수들이 해당 종속 변수에 미치는 영향을 평가하는 통계적 기법
- 해당 논문에서는 수집한 독립 변수들을 바탕으로 특정 시간 동안 발생한 부상의 패턴과 원인에 대한 예측을 수행하는데 사용되었음
그리고 마지막 통계개념으로 스피어만 상관계수에 대해서 알아보자! 이 논문에서는 범주형 변수인 부상 유발 사건 (injury inciting event)와 부상 발병 매커니즘(onset mechanism)의 관계를 분석해보고자 스피어만 상관계수를 사용했어. (이 둘 간의 상관관계를 왜 분석했을까 궁금할 수도 있는데,
1. 급성으로 한 번에 뽝 다치게 만드는 동작인지,
2. 아니면 천천히 충격이 누적되어 다치게 만드는 동작인지 분석하고자 했다고 보면 돼!)
스피어만 상관계수
- 두 변수 간의 선형 관계를 측정하는 통계적 지표로, 데이터가 정규 분포를 따른다는 가정이 필요한 피어슨 상관계수와 달리,
- 두 변수 간의 비선형적인 관계를 측정하고자 하거나, 정규 분포를 따르지 않는 데이터를 사용할 때 쓰이는 상관 분석 기법
- 변수의 순위의 상관관계를 분석하는 기법(Introduction to Statistics)
--> 부상 유발 사건에는 table 3에 나와있는 것처럼 Jumps, Falls, Displacements, steps, postures, gestures, balance, turns.. 이런 것들이 포함되고, onset mechanism은 SOM과 GOM으로 나눠지는데, 이 둘의 상관관계를 본거지!
참고 : GOM(Gradual onset mechanism)은 부상의 증상이 급성이 아닌 시간이 지남에 따라 점진적으로 나타나는 과정을 의미해. SOM은 (sequence of sudden)의 약자로, 이 논문에서는 GOM과 상반되는 개념으로 제시되어 있어. 논문에서 제시된 SOM의 대표적인 예시는 falls(넘어짐)이 포함돼!
The correlation between injury inciting event and onset mechanism
was determined through Spearman test.
그럼 injury inciting event와 onset mechanism 사이의 상관관계는 어떻게 나왔을까?
From the 532 injuries occurred in classes, n = 173 (32.5%) were on the sequence of a sudden (SOM), and n = 359 (67.5%) a gradual onset mechanism (GOM). Jumps were found to be the motor action with the highest probability for developing injury symptoms in both genders, being also strongly correlated with GOM, rs = 0.755 (P < 0.001) for males and rs = 0.703 (P < 0.001) for females, respectively. Gestures also proved to have a similar pattern in both genders, with an GOM correlation of rs = 0.849 (P < 0.001) for males and rs = 0.621 (P < 0.001) for females. Falls were only significantly associated with SOM in male dance students, rs = 0.834 (P < 0.001). Balance and turns were only significantly associated with symptoms onset in females, being the first strongly correlated with GOM, rs = 0.872 (P < 0.001).
위의 발췌문을 읽으면 알 수 있다시피, Jump (-> injury inciting event) 동작은 GOM (->onset mechanism)과 약 0.7 정도의 상관관계를 보였다고 해. 그리고 Gestures는 GOM과 0.849정도의 상관관계를 보였어. (남성의 경우) 그리고 Falls는 SOM과 0.834의 상관관계를 보였어.
Jump와 gestures는 충격이 천천히 누적되어 다치는 것이고, falls는 갑자기 다치는 부상기전을 만들어낸다고 할 수 있겠지?
Results
사실 결과는 개념 설명하면서 계속 설명해서, 부가적으로 더 이야기할 내용은 없는 것 같아..!ㅎㅎ
하지만 가장 핵심적인 내용을 요약해보자면
- 무용수 부상이 대부분 수업중에 발생하며,
- 점프는 점진적 발병 메커니즘의 부상 증상과 관련된 주요 운동 동작으로 확인되었다
정도라고 할 수 있겠어.
다시 말해, 무용수들이 춤 연습 중 반복적인 동작이나 과도한 사용으로 인해 시간이 지남에 따라 점차 악화되는 증상을 경험할 수 있음을 시사하는 것이지..! (=무용수들은 피로가 누적되어 다치는 경우가 많다.)
사실 오늘 논문에서는 실험결과보다는 통계적으로 배울 부분이 많았던 것 같아. (실험결과는 좀 뻔한 내용인 것 같은,,,^^)
이 논문을 읽고 나서, 카이제곱 검정(Chi-square analysis), Kruskal-Wallis analysis, 상대위험도 IRR (Incidence Risk Ratio), 스피어만 상관계수, 포아송 분포 (Poisson distribution) 등의 개념에 대해서 말할 수 있으면 오늘 분석은 성공...! 그럼 다음주에는 햄스트링과 관련된 논문요약으로 찾아올게:)