logo

Chí-kvadrát test v R

The chí-kvadrát test nezávislosti hodnotí, či existuje asociácia medzi kategóriami týchto dvoch premenných. V zásade existujú dva typy náhodných premenných a poskytujú dva typy údajov: číselné a kategorické. In R Programovací jazyk Chi-kvadrát štatistika sa používa na skúmanie, či sa distribúcie kategorických premenných navzájom líšia. Chí-kvadrát test je tiež užitočný pri porovnávaní súčtov alebo počtov kategorických odpovedí medzi dvoma (alebo viacerými) nezávislými skupinami.

V programovacom jazyku R je funkcia použitá na vykonanie testu chí-kvadrát chisq.test()> .



Syntax:

chisq.test(údaje)

staviteľ reťazcov java

Parametre:



údajov : data je tabuľka obsahujúca hodnoty počtu premenných v tabuľke.

Údaje z prieskumu prevezmeme v MASS> knižnice, ktorá predstavuje údaje z prieskumu uskutočneného na študentoch.

R






# load the MASS package> library>(MASS)> print>(>str>(survey))>

>

>

Výkon:

'data.frame': 237 obs. of 12 variables:  $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ...  $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...  $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...  $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ...  $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ...  $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ...  $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ...  $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ...  $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ...  $ Height: num 173 178 NA 160 165 ...  $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ...  $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>

Vyššie uvedený výsledok ukazuje, že súbor údajov má veľa faktorových premenných, ktoré možno považovať za kategorické premenné. Pre náš model budeme brať do úvahy premenné Exer a Dym .Stĺpec Smoke zaznamenáva fajčiarske návyky študentov, zatiaľ čo stĺpec Exer zaznamenáva úroveň ich cvičenia. Naším cieľom je otestovať hypotézu, či je fajčiarsky návyk študentov nezávislý od úrovne ich cvičenia na hladine významnosti 0,05.

R


rímske čísla 1 až 100



# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)>

>

>

Výkon:

 Freq None Some  Heavy 7 1 3  Never 87 18 84  Occas 12 3 4  Regul 9 1 7>

A nakoniec aplikujeme chisq.test()> funkcie do kontingenčnej tabuľky stu_data.

R




previesť int na reťazec c++
# applying chisq.test() function> print>(>chisq.test>(stu_data))>

>

>

Výkon:

 Pearson's Chi-squared test  data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>

Keďže p-hodnota 0,4828 je väčšia ako 0,05, dospeli sme k záveru, že fajčenie je nezávislé od úrovne cvičenia študenta, a preto existuje slabá alebo žiadna korelácia medzi týmito dvoma premennými. Kompletný R kód je uvedený nižšie.

V súhrne teda možno povedať, že je veľmi jednoduché vykonať Chí-kvadrát test pomocou R. Túto úlohu možno vykonať pomocou chisq.test()> funkcia v R.

Vizualizujte dáta Chi-Square testu

R




# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))>

>

>

Výkon:

gh

Chí-kvadrát test v R

java mvc

V tomto kóde používameMASS>knižnica vykonať Chi-Square Test na súbore údajov „prieskumu“ so zameraním na vzťah medzi fajčiarskymi návykmi a úrovňou cvičenia.

Vytvára kontingenčnú tabuľku, vykonáva štatistický test a vizualizuje údaje pomocou stĺpcového grafu. Legenda je pridaná samostatne do ľavého horného rohu a rozlišuje medzi rôznymi fajčiarskymi návykmi s odlišnými farbami.

Cieľom kódexu je preskúmať a oznámiť súvislosti medzi fajčením a cvičením v rámci súboru údajov.