어제 만난 가장 보통의 순간을 믿어요
-
03-3 변산성의 지표 1 : 분산과 자유도데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 25. 11:18
드디어 분산과 표준편차가 등장했구나~!~! 사실 이전까지의 글들은 분산과 표준편차에 대해 설명하기 위한 빌드업이었지. 빌드업치곤 너무 긴거 아니냐고? 그만큼 분산과 표준편차가 중요하니까! 빌드업도 길게 했던거지! 분산과 표준편차에 대해 알아보기 전에 변산성에 대한 정의를 다시 떠올려볼까? 변산성은 '점수들이 흩어진 정도', '점수들이 평균에서 떨어진 정도', '점수들이 서로 다른 정도'와 같은 의미를 갖고 있었어. 기억나지? 예를 들어 A집단의 점수들이 '60, 70, 80'이고 B집단의 점수들이 '50, 70, 90'이라고 가정해 볼게. 두 집단의 평균은 70으로 같겠지만 B집단이 A집단보다 변산성이 더 크지! B집단의 점수들이 평균으로부터 더 많이 떨어져있기 때문이야. 그럼 변산성에 대한 개념을 알았..
-
03-2 중심경향의 지표 : 중앙값과 최빈값데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 23. 11:09
다음 살펴볼 집중경향의 지표는 중앙값와 최빈값이야. 먼저 중앙값부터 살펴볼까? 중앙값(median) 혹은 중앙치는 말 그대로 점수치들 중에서 제일 중앙에 있는 놈을 뜻 해. 다섯 명의 시험 점수를 정렬했을 때 중앙에 위치한 사람의 점수가 중앙치가 돼. 쉽지? 예를 들면 정렬된 점수치들이 '1, 3, 5, 7, 9'와 같다면 중앙에 있는 5점이 이 점수치들의 중앙값이 되는거야. 중앙값이 위치한 곳은 전체 점수치의 개수에서 1을 더한 다음 2로 나누어주면 쉽게 구할 수 있어. 5개의 점수가 있다면 5에서 1을 더한 6을 구한 후 2로 나눠주면 돼. 3이 나오지? 세 번째 위치한 점수치가 중앙값이는 뜻이야. 전체 점수치의 개수를 N이라고 했을 때 좀 더 간단하게 수식으로 나타내면, (N이 홀수일 때) 중앙값이..
-
03-1 중심경향의 지표 : 평균데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 18. 21:43
우리는 앞서 변산성에 대해 배우면서 집중경향에 대해서도 살펴봤지. 이제는 집중경향에 대해 자세하게 알아볼거야. 집중경향(central tendency)은 말 그대로 '얼마나 중앙에 집중되어 있는지.'를 뜻 해. 바꿔말하면 분포의 중심을 대표하는 값이야. 그리고 중심경향의 지표로는 평균이나 중앙값 혹은 최빈값이 될 수 있어. 상황에 따라 달라질 수 있기 때문이야. 부모들은 자신의 아이가 첫 걸음마를 언제 떼는지 알고 싶어해. 그토록 기다리던 내 아이의 첫 걸음마를 보고싶기도 하고, 또 내 아이가 다른 아이들보다 걸음마를 빠르게 떼는지, 늦게 떼는지 알고 싶기 때문이지. 그럼 아이들은 언제 걸음마를 뗄까? 답은 대충 12개월이라고 할 수 있어. 왜 '대충'이라고 했게? 사실 이 물음에 대한 대답은 쉽지가 않..
-
02-1 도표와 변산성 : 분포들은 어떻게 다른가?데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 17. 16:47
앞서 빈도분포를 배우면서 빈도가 어떻게 분포되어있는지 알 수 있었어. 빈도, 누적빈도, 상대빈도, 누적상대빈도를 통해서말야. 하지만 누구나 다 그렇듯 수치를 열심히 쳐다보는 사람은 없어 더 쉽게 정보를 받아들이고 싶어하지. 숫자로 된 정보를 사람들에게 더 쉽게 제공하려면 어떻게 해야될까? 그림으로 그리면 되지! 어떤 정보를 전달하는 것이 꼭 글자(텍스트)의 형태일 필요는 없어. 이전 시대에서는 정보 전달의 매체가 다양하지 않았기 때문에 글자에 대한 의존도가 높았지만 지금에 와서는 그렇지 않게 되었지. 벌써 나만해도 무언가에 대해 배우고자 할 때 유튜브 등 시청각 자료를 활용하는 비중이 높으니까 말야. (그런데 왜 나는 글자로 정보를 전달하고 있는가?) 다만 유튜브에서 얻을 수 있는 정보는 영상을 시청해야..
-
02-1 분포의 특징 : 빈도분포와 상대빈도분포데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 15. 16:54
과학자들은 어떤 현상을 연구할 때 관찰을 하지. 변인과 측정치들간의 관계를 알아야 하니까. 관찰을 하면 여러가지 수치들을 모을 수 있을꺼야. 그럼 이 수치들을 어떻게 정리할 수 있을까? '빈도분포(frequency destribution)' 혹은 '도수분포'가 답이 될 수 있지! 빈도분포란 말 그대로 측정한 값을 특정 수치나 범위로 구분하고 얼마나 출현하는지를 나타내는거야. 동전 던지기를 예로 들어볼까? 동전을 던졌을 때 앞면이 나올수도 있고 뒷면이 나올수도 있어. 그것들을 관찰하고 측정한 다음 앞면이 얼마나 나왔고, 뒷면이 얼마나 나왔는지 보자는거지. 이를통해 빈도분포를 알 수 있으니까. 어떤 학급에서 역사시험을 치뤘다고 가정해볼게. 10점 만점의 시험이었지. 10명의 학생들이 역사시험을 봤는데 결과는..
-
01-3 시그마와 평균 : 합의 기호 ∑와 평균 그리고 연산데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 11. 00:12
앞서 통계가 무엇인지, 통계를 왜 배워야 하는지 배웠어. 그럼 이제 통계적 기법들을 위한 방법을 배워볼까? 아참, 이제부터는 구글 스프레드시트를 활용하면서 본격적으로 시작해 볼게! 먼저 합의 기호를 배울거야. 히랍어 대문자 '∑'라고 쓰고 '시그마(sigma)'라고 읽어. 고등학교 때 배운적 있지? 만약 이 글을 읽는 친구가 시그마를 모른다고해도 괜찮아. 내가 알려줄거니까! 일단 합의 기호가 왜 필요한지부터 알아야겠지? 우리가 접하게 될 자료들은 하나의 수치가 아니라 여러 수치들이 뭉쳐있는 자료 덩어리들을 접하게 될거야. 특정 집단이 주어진다면 특정 집단의 모든 수치들을 다뤄야 하는거지. 중요한 것은 '모든'이라는 단어야. 앞서 배웠던 모집단과 표본집단을 떠올려봐. 모집단은 대부분 너~무~나 많기 때문에..
-
01-2 기술 통계와 추론 통계 : 가설 검증데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 10. 17:17
그럼 이제 본격적으로 통계학에 대해 배워볼까? 통계학이란 자료라고 불리는 양적 정보를 기술하고 해석하기 위한 방법을 연구하는 학문이야. 통계학의 정의만 보아도 4차 산업 시대에 가장 걸맞는 학문이라고 할 수 있겠지? 우리는 엄청나게 많은 양적 정보, 즉 빅 데이터(big data)의 시대에 살고 있기 때문이지. 10년 전, 아니 5년 전과 비교해도 우리가 접할 수 있는 정보들을 정말 많아 졌는데.. 빅 데이터에 대한 이야기는 나중에 다시 다뤄보도록 할게. 다시 통계학에 대해 살펴보면, 통계에는 크게 두 가지 범주가 있어. 하나는 기술 통계(descriptive statistics)이고 다른 하나는 추론 통계(inferential statistics)이지. 기술 통계는 이름에서와 같이 기술, 즉 설명하기 ..
-
01-1 기술 통계학 : 왜 통계를 공부해야 하는가?데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 11. 9. 22:32
대체 우리는 왜 통계를 공부해야 할까? 나는 종종 심리학과 통계학을 마치 전공필수 과목처럼 인류라면 반드시 배워야 할 과목으로 지정해서 모든 인류가 배워야 한다고 주장하곤 해. 심리학은 인간을, 통계학은 사회를 이해하기 위해 필수적인 학문이기 때문이지! 또, 워낙 범위가 넓은 학문이다보니 심리학을 공부하다보면 자연스럽게 생물, 의학, 체육, 학습, 발달 등 여러가지 학문에 대해 배울 수 있기도 하고.. 물론 통계학을 공부하면서도 경우의 수, 확률 등을 배우기 위한 수학적 지식을 갖춰야 하지! 하지만 이렇게만 주장한다면 그 어려운 통계학을 대체 왜 배워야 하는지 감이 잘 오지 않을거야. 그리고 나의 생각도 나이가 들면서 조금 바뀌었고 말야. 어렸을 땐 통계학을 공부하다보면서 세상을 이해하는데 도움이 된다는..