Quindi, un test chi-quadro è un'alternativa eccezionale per aiutarci a una migliore comprensione e per valutare il legame tra le due variabili categoriche. Entrambe le variabili devono provenire da una popolazione simile ed essere categoriche; Queste variabili vengono quindi classificate come sì/no, maschio/femmina, rosso/verde e così via.
Quando si valutano i conteggi e i conteggi delle risposte classificate tra più gruppi indipendenti, il test chi-quadro è utile."
Test chi-quadro in r
Quando il test è completato, il risultato è un valore "P", che usi per determinare se l'ipotesi di indipendenza è corretta o no. Il numero "p" rappresenta semplicemente la probabilità che le tue variabili siano indipendenti.
Se il valore "p" è superiore a 0.05, la probabilità di indipendenza è piuttosto forte e adeguata per determinare che i fattori non sono correlati. D'altra parte, qualcosa di meno di 0.05, d'altra parte, indica una possibilità trascurabile di indipendenza e c'è un alto legame tra i fattori.
Potresti chiederti perché 0.05 e non qualsiasi altra quantità. Questa cifra è stata ideata da ricercatori statistici ed è ampiamente adottata solo perché 0.05 è comunemente utilizzato come un punto definitivo.
Riassumere ciò che è stato detto sopra:
H0: Le variabili non sono associate tra loro e non vi è alcuna correlazione tra loro.
H1: le variabili sono associate tra loro.
La programmazione R ci fornisce un file “Chisq.test()" funzione per condurre test chi-quadrato e valutare se esiste una relazione tra le entrambe le variabili dei dati forniti.
Il test Chi-quadrato funziona in R utilizzando la seguente sintassi:
# Chisq.Test (V1, V2)
Questo articolo ti insegnerà come eseguire e comprendere il test chi-quadro in R con gli esempi forniti di seguito.
Esempio 1
Stiamo iniziando l'implementazione del test Chi-quadrato con l'esempio più semplice e di base.
Nel primo passaggio, abbiamo usato la funzione "rm ()" per rimuovere tutti gli oggetti non necessari nel caso in cui esistano già. Ora inizia il codice principale. Abbiamo creato due variabili di oggetti; “X_ACTUAL” e “X_PREDICT."Assegna" x_attuale "un elenco di valori effettivi usando la funzione" c () "in r. Durante l'assegnazione di "x_predict" un elenco di valori previsti. Ora chiamando il "chisq.test () "e passa i valori effettivi e previsti come parametro. Usando l'oggetto "Chi" memorizzato, i valori del test chi-quadro. L'istruzione "Print ()" stamperà semplicemente il risultato del test chi-quadro.
Prima di interpretare il risultato del test chi-quadro, ti presentiamo alcune terminologie che verranno utilizzate nel risultato del test chi-quadro.
"DF" sono i valori che sono liberi di cambiare dalle variabili fornite.
"X-quadrato" è la variabile arbitraria nel test chi-quadro che illustra la media delle variabili osservate vs. conteggi di frequenza anticipati.
"Value p" esprime la prospettiva del campione.
Se il valore p è inferiore al valore di significatività, che è 0.05 In genere, possiamo interpretare il test chi-quadro. In tal caso, eliminiamo l'ipotesi nulla e dichiariamo che esiste una relazione tra le due variabili. In altre parole, una variabile può chiarire l'altra.
Il valore p nel nostro scenario è maggiore del valore di significatività dichiarato (0.05). Alla fine, accettiamo ipotesi nulla e presumiamo che le variabili siano autonome l'una dell'altra.
Esempio n. 2
In questo esempio, utilizzeremo un set di dati integrato fornito da R Base ed eseguiremo un test chi-quadro su di esso. Il set di dati che utilizzeremo è "Chickweight."Ci fornisce dati sul peso dei pulcini in base alla loro dieta e al periodo dopo la nascita.
Stiamo conducendo questo test per vedere se c'è qualche relazione tra la dieta dei pulcini e il peso del pulcino. La funzione integrata di R “Chisq.test () "ti fornisce elegantemente tutto ciò che devi sapere sull'indipendenza delle variabili in un set di dati per determinare se sono associate o meno.
Inizieremo importando il set di dati in R.
Il risultato dei test chi-quadro nell'immagine seguente mostra che il valore "valore p" di questo test è maggiore del significativo "valore p" che è 0.05, che indica che il peso dei pulcini è indipendente dalla loro dieta. Anche se all'inizio questo può sembrare strano poiché il peso di ogni pulcino dovrebbe essere determinato da ciò che il pulcino consuma. Tuttavia, questo potrebbe non essere il caso di questa illustrazione.
Ora confronteremo il peso con un'altra variabile, che è "tempo."Questa variabile calcola da quanto tempo è da quando è nato il pulcino.
In questo segmento di codice, abbiamo appena sostituito la colonna "dieta" con la colonna "time" mentre ora stiamo confrontando il tempo di cova ai pulcini con il loro peso per il test chi-quadro.
Nel test del chi-quadro risultante, si può vedere il valore di "p", che è molto piccolo. Significa che esiste una forte associazione tra il tempo da quando sono nati i pulcini e il peso dei pulcini. Ciò significa che iniziano a ingrassare man mano che invecchiano.
Conclusione
Il nostro articolo di oggi ruota attorno all'argomento del test chi-quadro in r. Nella sezione Introduzione, abbiamo spiegato il test Chi-quadrato, perché è condotto e come viene eseguito. Abbiamo discusso degli interi semplici concetti inclusi in questo argomento. Successivamente, abbiamo eseguito 2 esempi di codifica pratica in RStudio in Ubuntu 20.04. Il nostro primo esempio ti aiuterà a eseguire un test chi-quadro sulle variabili definite dall'utente, mentre il 2nd L'esempio viene eseguito utilizzando il telaio dati integrato dalla base R. Prevediamo che questo pezzo di scrittura ti faciliterà nel condurre il test chi-quadro nella programmazione R.