Contenuto
- Esempi di regressione multipla
- Vantaggi della regressione multipla
- Svantaggi della regressione multipla
La regressione multipla viene utilizzata per esaminare la relazione tra diverse variabili indipendenti e una variabile dipendente. Mentre i modelli di regressione multipla consentono di analizzare le influenze relative di queste variabili indipendenti o predittive sulla variabile dipendente o criterio, questi insiemi di dati spesso complessi possono portare a false conclusioni se non vengono analizzati correttamente.
Esempi di regressione multipla
Un agente immobiliare potrebbe utilizzare la regressione multipla per analizzare il valore delle case. Ad esempio, potrebbe usare come variabili indipendenti la dimensione delle case, la loro età, il numero di camere da letto, il prezzo medio delle case nel quartiere e la vicinanza alle scuole. Tracciando questi in un modello di regressione multipla, potrebbe quindi utilizzare questi fattori per vedere la loro relazione con i prezzi delle case come variabile di criterio.
Un altro esempio di utilizzo di un modello di regressione multipla potrebbe essere qualcuno nelle risorse umane che determina lo stipendio delle posizioni di gestione - la variabile di criterio. Le variabili predittive potrebbero essere l'anzianità di ciascun dirigente, il numero medio di ore lavorate, il numero di persone gestite e il budget dipartimentale dei dirigenti.
Vantaggi della regressione multipla
Esistono due vantaggi principali nell'analisi dei dati utilizzando un modello di regressione multipla. La prima è la capacità di determinare l'influenza relativa di una o più variabili predittive sul valore del criterio. L'agente immobiliare potrebbe scoprire che le dimensioni delle case e il numero di camere da letto hanno una forte correlazione con il prezzo di una casa, mentre la vicinanza alle scuole non ha alcuna correlazione, o addirittura una correlazione negativa se si tratta principalmente di una pensione Comunità.
Il secondo vantaggio è la capacità di identificare valori anomali o anomalie. Ad esempio, durante la revisione dei dati relativi agli stipendi della direzione, il responsabile delle risorse umane ha scoperto che il numero di ore lavorate, la dimensione del dipartimento e il suo budget avevano tutti una forte correlazione con gli stipendi, mentre l'anzianità no. In alternativa, è possibile che tutti i valori dei predittori elencati siano correlati a ciascuno degli stipendi esaminati, ad eccezione di un dirigente che è stato pagato in eccesso rispetto agli altri.
Svantaggi della regressione multipla
Qualsiasi svantaggio derivante dall'uso di un modello di regressione multipla di solito dipende dai dati utilizzati. Due esempi di questo sono l'utilizzo di dati incompleti e la falsa conclusione che una correlazione sia una causalità.
Nel rivedere il prezzo delle case, ad esempio, supponiamo che l'agente immobiliare abbia esaminato solo 10 case, sette delle quali sono state acquistate da giovani genitori. In questo caso, il rapporto tra la vicinanza delle scuole può indurla a credere che ciò abbia avuto un effetto sul prezzo di vendita di tutte le case vendute nella comunità. Ciò illustra le insidie dei dati incompleti. Se avesse usato un campione più ampio, avrebbe potuto scoprire che, su 100 case vendute, solo il dieci percento dei valori delle case era legato alla vicinanza delle scuole. Se avesse utilizzato le età degli acquirenti come valore predittivo, avrebbe potuto scoprire che gli acquirenti più giovani erano disposti a pagare di più per le case nella comunità rispetto agli acquirenti più anziani.
Nell'esempio degli stipendi della direzione, supponiamo che ci fosse uno straniero che avesse un budget più piccolo, meno anzianità e con meno personale da gestire ma stava guadagnando più di chiunque altro. Il responsabile delle risorse umane potrebbe esaminare i dati e concludere che questo individuo viene pagato in eccesso. Tuttavia, questa conclusione sarebbe errata se non tenesse conto del fatto che questo gestore era responsabile del sito Web dell'azienda e che aveva un ambito di competenze molto ambito nella sicurezza della rete.