데이터 분석
-
08-5 통계적 가정과 가설 그리고 유의 수준데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 25. 13:30
가정 우리는 앞서 파이소스티그민이 효과가 없을거라고 가정을 했었어. 그렇다면 통계학에서 가정이란 뭘까? 가정이 화목해야 나라가 잘 살겠지만.. 통계학에서 가정(assumption)이란, 통계적 절차의 논리가 참일 것을 요구하지만, 참이라고 증명되거나 결정될 수 없는 모집단 내 상황에 관한 진술이라고 할 수 있어. 검증이 아니라는거지. 우리가 배운 '무수히 반복하다보면 정규 분포를 따른다.'라는 것도 가정이야. 무수히 반복한다는 것은 검증할 수 없잖아? 그래서 우리는 1. 표본은 무선적이고 독립적으로 추출된다. 2. 평균의 표집 분포는 정규 분포를 따른다. 이러한 가정들을 기정 사실화 한 이후에 통계적 분석을 할거야. 그래야만 통계적 분석을 하는 의미가 있거든. 만약에 인간에 대해서 연구한다고 생각해 봐...
-
파이썬 강좌 02 - 변수(variable)데이터 분석/데이터 분석을 위한 파이썬 기초 2022. 4. 22. 17:29
변수(variable)란 말 그대로 '변하는 수'입니다. '수'를 숫자라고 생각하지 말고 값이라고 생각한다면 '변하는 값'이 됩니다. 우리의 나이, 몸무게, 키 등과 같이 수치적으로 변하는 것도 변수이고, 지금 내가 다니는 학교 이름, 현재 사는 동네와 같이 숫자는 아니지만 나중에 변할 수 있는 것들도 변수입니다. 파이썬에서는 변수를 상자라고 생각하면 이해하기 쉽습니다. 상자에 값을 넣는다고 생각하세요. 대신 상자에는 이름을 붙여 줄 겁니다. 나중에 상자 이름만 봐도 상자 안에 무엇이 들어있는지 알 수 있도록 말이에요. 만약 num이라는 이름의 변수(상자)에 3이라는 값을 넣고자 한다면 num = 3 라고 정의합니다. 주의할 것은 등호(=)가 '왼쪽에 있는 것과 오른쪽에 있는 것이 같다.'라는 의미로 쓰..
-
파이썬 강좌 01 - 출력 : print()데이터 분석/데이터 분석을 위한 파이썬 기초 2022. 4. 22. 17:09
파이썬에서 무언가 출력하고자 한다면 print() 내장 함수(built in function)을 사용해야 합니다. print(출력할 것) 소괄호 안에 출력하고자 하는 것을 넣으면 됩니다. 우선 처음 만났으니 인사부터 해 볼까요? 소괄호 안에 'Hello, world!'라고 입력한 다음 코드를 실행하면 'Hello, world!'가 출력됩니다. 아래의 코드에서 코드 실행 버튼(▶)을 누르면 코드를 실행해 볼 수 있습니다. 만약 출력하고자 하는 내용을 바꾸려면 소괄호 안의 내용을 바꿔주면 됩니다. 여러분들께서도 위의 코드 에디터에서 소괄호 안의 내용을 바꿔서 코드를 실행시켜 보세요. 단, 따옴표(')로 묶어주는 것을 잊지 마세요! 따옴표로 묶어주지 않으면 오류가 날 건데, 이는 'Hello, world!'라..
-
08-4 가설 검증 입문 : 모집단과 단일 집단 비교 (파이썬)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 22. 14:05
전 시간에 모집단과 단일 사례(한 명)을 비교해 봤으니 이번에는 모집단과 20명의 단일 집단을 비교해 봐야겠지? 대신 초경험적(내가 만든 용어, 인간의 능력으로 경험할수 없는 데이터를 컴퓨터의 힘을 빌려 경험하는 것) 표집 분포와 이론적 표집 분포를 둘 다 보도록 할게! - 초경험적 표집 분포 먼저 우리가 만든 모집단(M=7, S=2)에서 20명을 무선 추출 한 다음에 평균을 구하고, 또, 20명을 추출한 다음에 평균을 구하고, 또 20명을 추출.. 하는 짓을 몇 번이나 반복해야 '초경험적'이라고 할 수 있을까? 우리가 마지막으로 만든 모집단의 사례수가 10만 개 였으니까.. 표본의 크기가 20인 표본을 1만 번 정도 추출 해 볼까? 1만 번은 인간이 쉽게 계산하기 힘든 수치니까 초경험적이라고 할 수 있..
-
08-3 가설 검증 입문 : 모집단과 단일 사례 비교 (파이썬)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 21. 16:03
먼저 모집단에서 딱 한 명을 뽑을거야. 이 피험자에게 15개의 단어를 외우게 한 다음 파이소스티그민을 투여하고 1시간 20분 뒤에 몇 개의 단어를 기억했는지 알아보고 모집단과 비교를 해 보자구! 우리에겐 모집단이 있잖아! - 단일 사례의 표준화 먼저 한 명의 피험자가 11개의 단어를 기억했다고 가정해 볼게. 11개를 기억한 것이 95%의 확률을 넘어선 것일까?! 를 알아보려면 표준화를 해야겠지. 표준 점수로 환산했을 때 1.96보다 크거나 -1.96보다 작으면 극단의 5%에 속하는 것이기 때문에 우연이 아니라고 치부할 것이라고 했었잖아? 그리고 단일 점수를 표준화 하려면 평균을 빼 준 다음 표준 편차로 나눠주기만 하면 돼! 11에서 모집단의 평균을 뺀 다음 모집단의 표준 편차로 나눠주면 되는 것이지. 아..
-
08-2 가설 검증 입문 : 모집단 생성과 리스트 컴프리헨션 (파이썬)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 21. 15:09
이제 가설 검증에 대해 배웠으니 파이썬으로 간단한 가설 검증을 해 볼까? 우선 가설 검증을 하기 위해서는 모집단의 정보를 알아야 돼. 전 시간에 일반인들에게 15개의 단어를 주고 외우게 시킨 다음 1시간 20분 뒤에 검사를 했을 때! 모집단의 평균(M)이 7이고 표준 편차(S)가 2였지? 그러나 우리에겐 평균이 7이고 표준 편차가 2인 모집단이.. 없잖아? 없으니까.. 모집단을.. 만들자! - normalvariate() random 모듈을 사용해서 표본 집단을 추출해 보긴 했는데, 집단을 만들어 본 적은 없지? 집단을 만들 때에도 random 모듈을 사용해 볼거야. random 모듈을 사용하면 난수를 생성할 수 있었지? 특히 random 모듈에서 평균과 표준 편차를 정해놓고 난수를 생성하는 normal..
-
08-1 가설 검증 입문 : 용어와 이론데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 20. 16:26
코로나에 걸린 관계로 글이 좀 늦어졌네.. 흑흑.. 이제부터의 내용은 본격적으로 재밌어 질텡게 잘 따라오숑~ ^0^ - 가설 검증 리미트리스, 루시란 영화가 있어. 스포일러가 될 수 있어서 영화 내용을 자세하게 말하지는 못하겠지만 두 영화 모두 어떤 약물이 사람을 똑똑하게 만든다는 내용이야. 정말 가능할까? 과학자들은 '파이소스티그민(physostigmine)' 이라는 약을 개발했어. 과학자들은 이 약을 먹으면 똑똑해 진다고 주장했지. 어떻게 이 주장을 증명할 수 있을까? 만약 일반인들에게 15개의 단어를 주고 외우게 시킨 다음 1시간 20분 뒤에 기억해 보라고 했을 때, 보통은 7개의 항목만을 기억한다고 해. 표준 편차는 2개이고 말야. 이 기준을 모집단이라고 했을 때 M=7, S=2가 되겠지? 이제 ..
-
07-5 표집 분포와 정상성 : 중심 극한 정리데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 15. 14:23
추론 통계에서는 하나의 표본에서 계산된 통계적 수치가 표집 분포의 모수치를 추정하기 위해 사용될 수 있으니까, 실제로는 경험적(empirical) 표집 분포를 구할 필요가 전~혀~ 없어. 대신 표집 분포를 설명하기 위한 수단으로 경험적 표집 분포에 대해 알고 있으라는 것이지! 어차피 표집 분포는 이론적(theoretical) 표집 분포로 계산될 수 있으니 굳이 경험적 표집 분포를 사용할 필요가 없는 것이지. 앞으로 '표집 분포'라고 하면 당연히 '이론적 표집 분포'겠구나! 라고 생각하면 돼! 하지만 이는 어디까지나 인간의 한계에서 경험이 제한 당할 때의 일이고, 컴퓨터의 힘을 빌리면 경험적 표집 분포라고 해도 이론적 표집 분포와 맞먹을 정도가 될 수 있다는 것을 알고있지? 파이썬으로 표본을 엄청나게 늘릴..