Contenuto
Le attività commerciali, governative e accademiche richiedono quasi sempre la raccolta e l'analisi dei dati. Uno dei modi per rappresentare i dati numerici è attraverso grafici, istogrammi e grafici. Queste tecniche di visualizzazione consentono alle persone di ottenere una migliore comprensione dei problemi e escogitare soluzioni. Lacune, cluster e valori anomali sono caratteristiche dei set di dati che influenzano l'analisi matematica e sono facilmente visibili su rappresentazioni visive.
Fori nei dati
Gli spazi vuoti si riferiscono ad aree mancanti in un set di dati. Ad esempio, se un esperimento scientifico raccoglie dati di temperatura nell'intervallo da 50 gradi Fahrenheit a 100 gradi Fahrenheit, ma nulla tra 70 e 80 gradi, ciò rappresenterebbe un gap nel set di dati. Un grafico a linee di questo set di dati avrebbe segni "x" per temperature comprese tra 50 e 70 e di nuovo tra 80 e 100, ma non ci sarebbe nulla tra 70 e 80. I ricercatori possono scavare più a fondo ed esplorare perché alcuni punti di dati non vengono visualizzati in un campione raccolto.
Gruppi isolati
I cluster sono gruppi isolati di punti dati. I grafici a linee, che rappresentano uno dei modi per rappresentare i set di dati, sono linee con segni "x" posizionati sopra numeri specifici per rappresentare la loro frequenza di occorrenza nel set di dati. Un cluster è rappresentato come una raccolta di questi segni "x" in un piccolo intervallo o sottoinsieme di dati. Ad esempio, se i punteggi degli esami per una classe di 10 studenti sono 74, 75, 80, 72, 74, 75, 76, 86, 88 e 73, il segno più "x" su un diagramma a linee sarebbe nel 72- a-76 intervallo di punteggio. Ciò rappresenterebbe un cluster di dati. Nota che la frequenza per 74 e 75 è due, ma per tutti gli altri punteggi, è una.
All'estremo
I valori anomali sono valori estremi: punti dati che si trovano significativamente al di fuori di altri valori in un set di dati. Un valore anomalo deve essere significativamente inferiore o maggiore della maggior parte dei numeri in un set di dati. La definizione di "estremo" dipende dalle circostanze e dal consenso degli analisti coinvolti nella ricerca. I valori anomali potrebbero essere punti di dati errati, noti anche come rumore, oppure potrebbero contenere informazioni preziose sul fenomeno in esame e sulla stessa metodologia di raccolta dei dati. Ad esempio, se i punteggi delle classi sono perlopiù nell'intervallo 70-80, ma un paio di punteggi sono bassi negli anni '50, questi potrebbero rappresentare valori anomali.
Mettere tutto insieme
Lacune, valori anomali e cluster nei set di dati possono influire sui risultati dell'analisi matematica. Lacune e cluster potrebbero rappresentare errori nella metodologia di raccolta dei dati. Ad esempio, se un sondaggio telefonico esegue il polling solo di determinati prefissi, come complessi abitativi a basso reddito o aree residenziali suburbane di fascia alta, e non un'ampia sezione della popolazione, è probabile che ci saranno lacune e cluster nei dati . I valori anomali possono distorcere il valore medio o medio di un set di dati. Ad esempio, il valore medio o medio di un set di dati costituito da quattro numeri - 50, 55, 65 e 90 - è 65. Senza il valore anomalo 90, tuttavia, la media è di circa 57.