어제 만난 가장 보통의 순간을 믿어요
-
03-4 중심경향의 지표 : 최빈값데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 16. 00:20
다음으로는 최빈값에 대해 살펴볼게. 최빈값(mode)은 점수치들 중에서 가장 빈번하게 나타나는 놈을 뜻 해. 만약 점수치들이 '1, 2, 2, 3, 3, 3, 4, 4, 4, 4'와 같다면? 1이 한 개, 2가 두 개, 3이 세 개, 4가 네 개로 4가 가장 많이 등장하는 것을 알 수 있어. 그럼 4가 이 점수치들의 최빈값이 되는거야. 진짜 쉽지? 어? 그런데 만약 최빈값이 둘 이라면? 만약 점수치들이 '5, 6, 6, 7, 7, 7, 8, 8, 8'과 같다면 7과 8이 각각 세 번씩 등장하기 때문에 동률이 돼. 그럼 이 때 어떤 놈을 최빈값으로 해야 될까? 중앙값을 구했던 때 처럼 둘의 평균을 최빈값으로 할까? 안돼! 멈춰! 동률인 최빈값이 관측되었다면, 따로 무슨 짓을 하지 않아도 돼. 둘 다 최빈값..
-
03-3 중심경향의 지표 : 중앙값과 조건문 2데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 22:06
이제 조건문에 대해 배웠으니 중앙값을 구해볼까? 1, 3, 5, 7, 9와 같이 홀수개의 숫자들의 중앙값과 2, 4, 6, 8과 같이 짝수개의 숫자들의 중앙값을 구해 볼거야. 앞서 배웠듯이 홀수개와 짝수개 일때 중앙값을 구하는 방법이 달라. 숫자들이 홀수개라면 말 그대로 중앙에 있는 값이 중앙값이 되는거고, 짝수개라면 중앙에 있는 두 값의 평균이 중앙값이 되는거지. 그렇다면! 숫자들이 모두 몇 개인지 알아야겠네? 그 다음엔 홀수개인지 짝수개인지 판별하면 될 거고. 1, 3, 5, 7, 9나 2, 4, 6, 8은 숫자가 몇 개 안되기 때문에 눈으로 세기 쉬워. 하지만 숫자가 많으면 눈으로 세는 것이 어려워질 수 밖에 없겠지? 이 땐 우리가 배웠던 'len()'이라는 내장 함수를 이용하면 돼. 'len()'..
-
03-2 중심경향의 지표 : 중앙값과 조건문 1데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 21:25
다음 살펴볼 집중경향의 지표는 중앙값와 최빈값이야. 먼저 중앙값부터 살펴볼까? 중앙값(median) 혹은 중앙치는 말 그대로 점수치들 중에서 제일 중앙에 있는 놈을 뜻 해. 다섯 명의 시험 점수를 정렬했을 때 중앙에 위치한 사람의 점수가 중앙치가 돼. 쉽지? 예를 들면 정렬된 점수치들이 '1, 3, 5, 7, 9'와 같다면 중앙에 있는 5점이 이 점수치들의 중앙값이 되는거야. 중앙값이 위치한 곳은 전체 점수치의 개수에서 1을 더한 다음 2로 나누어주면 쉽게 구할 수 있어. 5개의 점수가 있다면 5에서 1을 더한 6을 구한 후 2로 나눠주면 돼. 3이 나오지? 세 번째 위치한 점수치가 중앙값이는 뜻이야. 전체 점수치의 개수를 N이라고 했을 때 좀 더 간단하게 수식으로 나타내면, (N이 홀수일 때) 중앙값이..
-
03-1 중심경향의 지표 : 평균데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 19:51
우리는 앞서 변산성에 대해 배우면서 집중경향에 대해서도 살펴봤지. 이제는 집중경향에 대해 자세하게 알아볼거야. 집중경향(central tendency)은 말 그대로 '얼마나 중앙에 집중되어 있는지.'를 뜻 해. 바꿔말하면 분포의 중심을 대표하는 값이야. 그리고 중심경향의 지표로는 평균이나 중앙값 혹은 최빈값이 될 수 있어. 상황에 따라 달라질 수 있기 때문이야. 부모들은 자신의 아이가 첫 걸음마를 언제 떼는지 알고 싶어해. 그토록 기다리던 내 아이의 첫 걸음마를 보고싶기도 하고, 또 내 아이가 다른 아이들보다 걸음마를 빠르게 떼는지, 늦게 떼는지 알고 싶기 때문이지. 그럼 아이들은 언제 걸음마를 뗄까? 답은 대충 12개월이라고 할 수 있어. 왜 '대충'이라고 했게? 사실 이 물음에 대한 대답은 쉽지가 않..
-
02-2 도표와 변산성 : 분포들은 어떻게 다른가?데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 19:48
앞서 빈도분포를 배우면서 빈도가 어떻게 분포되어있는지 알 수 있었어. 빈도, 누적빈도, 상대빈도, 누적상대빈도를 통해서말야. 하지만 누구나 다 그렇듯 수치를 열심히 쳐다보는 사람은 없어 더 쉽게 정보를 받아들이고 싶어하지. 숫자로 된 정보를 사람들에게 더 쉽게 제공하려면 어떻게 해야될까? 그림으로 그리면 되지! 어떤 정보를 전달하는 것이 꼭 글자(텍스트)의 형태일 필요는 없어. 이전 시대에서는 정보 전달의 매체가 다양하지 않았기 때문에 글자에 대한 의존도가 높았지만 지금에 와서는 그렇지 않게 되었지. 벌써 나만해도 무언가에 대해 배우고자 할 때 유튜브 등 시청각 자료를 활용하는 비중이 높으니까 말야. (그런데 왜 나는 글자로 정보를 전달하고 있는가?) 다만 유튜브에서 얻을 수 있는 정보는 영상을 시청해야..
-
02-1 분포의 특징 : 빈도분포와 상대빈도분포데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 19:46
과학자들은 어떤 현상을 연구할 때 관찰을 하지. 변인과 측정치들간의 관계를 알아야 하니까. 관찰을 하면 여러가지 수치들을 모을 수 있을꺼야. 그럼 이 수치들을 어떻게 정리할 수 있을까? '빈도분포(frequency destribution)' 혹은 '도수분포'가 답이 될 수 있지! 빈도분포란 말 그대로 측정한 값을 특정 수치나 범위로 구분하고 얼마나 출현하는지를 나타내는거야. 동전 던지기를 예로 들어볼까? 동전을 던졌을 때 앞면이 나올수도 있고 뒷면이 나올수도 있어. 그것들을 관찰하고 측정한 다음 앞면이 얼마나 나왔고, 뒷면이 얼마나 나왔는지 보자는거지. 이를통해 빈도분포를 알 수 있으니까. 어떤 학급에서 역사시험을 치뤘다고 가정해볼게. 10점 만점의 시험이었지. 10명의 학생들이 역사시험을 봤는데 결과는..
-
01-4 평균 : 평균 그리고 연산데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 1. 12. 16:37
평균, 정확히는 모든 점수들의 합을 점수들의 수로 나눈 '산술 평균(arithmetic mean)'을 구해볼거야. 우리가 흔히 쓰는 평균이라는 용어는 산술 평균을 뜻하는데, 평균에는 산술 평균 말고도 기하 평균(geometric mean)이나 조화 평균(harmonic mean)등이 있어. 기하 평균이나 조화 평균에 대해서는 필요하면 그때가서 다시 설명해줄게! 암튼 평균을 mean이라고 한다는 것만 알고 있으면 돼. 잉?! 평균은 average가 아니었나?! 맞아. average나 mean이나 한국어로 번역하면 둘 다 평균이니까. 하지만 average는 보통 산술 평균을 의미하고, mean은 수학적 평균으로 산술 평균이나 기하 평균 혹은 조화 평균등을 의미하는 것이지. 용어를 한 번에 너무 많이 배우면 ..
-
01-3 시그마 : 합의 기호 ∑데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 1. 12. 15:22
앞서 통계가 무엇인지, 통계를 왜 배워야 하는지 배웠어. 그럼 이제 통계적 기법들을 위한 방법을 배워볼까? 아참, 이제부터는 구글 스프레드시트를 활용하면서 본격적으로 시작해 볼게! 먼저 합의 기호를 배울거야. 히랍어 대문자 '∑'라고 쓰고 '시그마(sigma)'라고 읽어. 고등학교 때 배운적 있지? 만약 이 글을 읽는 친구가 시그마를 모른다고해도 괜찮아. 내가 알려줄거니까! 일단 합의 기호가 왜 필요한지부터 알아야겠지? 우리가 접하게 될 자료들은 하나의 수치가 아니라 여러 수치들이 뭉쳐있는 자료 덩어리들을 접하게 될거야. 특정 집단이 주어진다면 특정 집단의 모든 수치들을 다뤄야 하는거지. 중요한 것은 '모든'이라는 단어야. 앞서 배웠던 모집단과 표본집단을 떠올려봐. 모집단은 대부분 너~무~나 많기 때문에..