Monday, 23 October 2017

Interazioni Di Montaggio In Forex Stata


Backtesting e avanti Test: L'importanza di commercianti di correlazione che sono desiderosi di provare un'idea negoziazioni in un mercato vivo spesso fanno l'errore di affidarsi interamente su backtesting per determinare se il sistema sarà redditizio. Mentre backtesting in grado di fornire i commercianti con informazioni preziose, è spesso fuorviante ed è solo una parte del processo di valutazione. Out-of-campione di test e test delle prestazioni in avanti forniscono ulteriore conferma per quanto riguarda un 'efficacia dei sistemi, e può mostrare un sistema di veri colori, prima di denaro reale è sulla linea. Buona correlazione tra backtesting, out-of-campione e risultati dei test di performance a termine è di vitale importanza per determinare la fattibilità di un sistema di negoziazione. (. Offriamo alcuni suggerimenti su questo processo che può aiutare a perfezionare le strategie di trading attuali Per ulteriori informazioni, leggere backtesting:. Interpretazione passato) Backtesting Basics backtesting si riferisce all'applicazione di un sistema di scambio di dati storici per verificare come un sistema avrebbe compiuto durante il periodo di tempo specificato. Molte delle piattaforme di trading di oggi supportano backtesting. Gli operatori possono testare le idee con pochi tasti e fine di conoscere l'efficacia di un'idea senza rischiare fondi in un conto di trading. Backtesting può valutare idee semplici, ad esempio come un crossover media mobile avrebbe compiuto sui dati storici, o sistemi più complessi con ingressi e trigger di varietà. Finché un'idea può essere quantificato può essere backtested. Alcuni commercianti e gli investitori possono chiedere la perizia di un programmatore qualificato per sviluppare l'idea in una forma verificabile. In genere si tratta di un programmatore di codifica l'idea in linguaggio proprietario ospitato dalla piattaforma di trading. Il programmatore può incorporare variabili di ingresso definite dall'utente che consentono al professionista di modificare il sistema. Un esempio di questo sarebbe nel semplice sistema di crossover media mobile indicato sopra: l'operatore sia in grado di ingresso (o modificare) le lunghezze delle due medie mobili utilizzati nel sistema. Il professionista può backtest per determinare quale lunghezze di medie mobili avrebbe compiuto il migliore per i dati storici. (Ottenere un quadro più chiaro nel commercio elettronico Tutorial.) Studi di ottimizzazione Molte piattaforme di trading consentono anche di studi di ottimizzazione. Questo comporta entrare in un intervallo per l'ingresso specificato e lasciare che il computer a fare i calcoli per capire che cosa ingresso avrebbe compiuto il migliore. Una ottimizzazione multi-variabile può fare la matematica per due o più variabili combinate per determinare quali livelli insieme avrebbero raggiunto il miglior risultato. Ad esempio, gli operatori possono indicare al programma quali ingressi vorrebbero aggiungere nella loro strategia questi sarebbero poi essere ottimizzati per il loro peso ideale forniti i dati storici testati. Backtesting può essere eccitante in un sistema che non redditizio può spesso essere magicamente trasformato in una macchina per fare soldi con alcune ottimizzazioni. Purtroppo, tweaking un sistema per raggiungere il massimo livello di redditività passato spesso conduce a un sistema che scarso rendimento nel commercio reale. Questo eccesso di ottimizzazione crea sistemi che sembrano buone solo sulla carta. raccordo Curve è l'uso di analisi di ottimizzazione per creare il maggior numero di trade vincenti a maggior profitto sui dati storici utilizzati nel periodo di prova. Anche se sembra impressionante risultati dei test retrospettivi, curva conduce montaggio a sistemi non affidabili in quanto i risultati sono essenzialmente progettati su misura solo per quel particolare periodo di dati e di tempo. Backtesting e ottimizzazione fornire molti benefici ad un commerciante, ma questa è solo una parte del processo quando si valuta un potenziale sistema di trading. Un trader passo successivo è quello di applicare il sistema di dati storici che non sono stati utilizzati nella fase di backtesting iniziale. (La media mobile è facile da calcolare e, una volta tracciata su un grafico, è un potente strumento di tendenza-spotting visivo. Per ulteriori informazioni, leggere semplici medie mobili Fai Trends distinguersi.) In-Sample vs. dati Out-of-Sample Durante il test un'idea su dati storici, è utile per prenotare un periodo di tempo di dati storici a scopo di test. I dati storici iniziali in cui l'idea viene testato e ottimizzato si riferisce a come i dati in-campione. Il set di dati che è stato riservato è conosciuto come dati out-of-campione. Questa configurazione è una parte importante del processo di valutazione perché fornisce un modo per testare l'idea su dati che non è stato un componente nel modello di ottimizzazione. Come risultato, l'idea non sarà stata influenzata in alcun modo dai dati e commercianti out-of-sample sarà in grado di determinare quanto bene il sistema potrebbe eseguire sui nuovi dati ovvero in commercio vita reale. Prima di avviare qualsiasi test retrospettivi o ottimizzazione, gli operatori possono mettere da parte una percentuale dei dati storici da riservare per il test out-of-sample. Un metodo consiste nel dividere i dati storici in terzi e separare un terzo per l'uso in test fuori-campione. Solo i dati in campioni dovrebbero essere utilizzati per il test iniziale e qualsiasi ottimizzazione. La figura 1 mostra una linea di tempo in cui un terzo dei dati storici è riservata per i test fuori campione, e due terzi sono utilizzati per il test in-campione. Sebbene la figura 1 illustra i dati fuori-di-campione per l'inizio del test, procedure tipiche avrebbero la parte out-of-campione immediatamente precedente la prestazione avanti. Figura 1: Una linea del tempo che rappresenta la lunghezza relativa in-campione e dati fuori-di-campione utilizzati nel processo backtesting. Una volta che un sistema commerciale è stata sviluppata utilizzando dati in-campione, è pronto per essere applicato ai dati out-of-sample. Gli operatori possono valutare e confrontare i risultati di performance tra le e out-of-campione di dati a campione. Correlazione riferisce alle somiglianze tra le prestazioni e le tendenze generali dei due insiemi di dati. metriche di correlazione possono essere utilizzati nella valutazione rapporti di prestazione strategia creati durante il periodo di prova (una caratteristica che la maggior parte delle piattaforme di trading forniscono). La forte correlazione tra i due, migliore è la probabilità che un sistema eseguirà bene in test di performance avanti e trading dal vivo. La figura 2 illustra due diversi sistemi che sono stati testati e ottimizzati su in-campione di dati, poi applicato out-of-campione di dati. Il grafico a sinistra mostra un sistema che era chiaramente curva in grado di lavorare bene sui dati a campione e completamente fallito sui dati out-of-sample. Il grafico a destra mostra un sistema che ha eseguito bene sia su informazioni e dati out-of-campione. Figura 2: Due curve azionari. I dati di commercio prima di ogni freccia gialla rappresenta test in-campione. I mestieri che si generano tra le frecce gialle e rosse indicano test out-of-sample. I mestieri dopo le frecce rosse sono dalle fasi di test delle prestazioni in avanti. Se vi è scarsa correlazione tra il e fuori-di-campione di verifica in-campione, come il grafico di sinistra in figura 2, è probabile che il sistema è stato overoptimized e non funzionare bene in trading dal vivo. Se vi è una forte correlazione nelle prestazioni, come si vede nel grafico di destra in figura 2, la successiva fase di valutazione comporta un ulteriore tipo di test fuori campione noto come test delle prestazioni in avanti. (Per ulteriori lettura sulla previsione, fare riferimento alle previsioni finanziarie: Il Metodo Bayesiano.) Avanti test Performance Testing Basics prestazioni in avanti, noto anche come scambio di carta. fornisce i commercianti con un altro set di dati di out-of-sample su cui valutare un sistema. test delle prestazioni di andata è una simulazione di trading reale e coinvolge seguendo la logica di sistemi in un mercato dal vivo. E 'chiamata anche di scambio di carta in quanto tutte le operazioni vengono eseguite solo sulla carta, cioè, le entrate commerciali e le uscite sono documentate insieme a qualsiasi utile o perdita per il sistema, ma vengono eseguiti reali compravendite. Un aspetto importante del test prestazioni avanti è seguire la logica sistemi esattamente contrario, diventa difficile, se non impossibile, valutare con precisione questa fase del processo. Gli operatori dovrebbero essere onesti circa le voci del commercio e le uscite ed evitare comportamenti come cherry picking commerci o meno compreso un commercio su razionalizzazione carta che non avrei mai preso che il commercio. Se il commercio sarebbe verificato seguendo la logica sistemi, dovrebbe essere documentata e valutata. Molti broker offrono un conto di trading simulato in cui i commerci possono essere posizionati e il conto economico relativo calcolo. Utilizzando un conto di trading simulato in grado di creare un ambiente semi-realistico in cui praticare il commercio e valutare ulteriormente il sistema. La figura 2 mostra anche i risultati di test delle prestazioni in avanti su due sistemi. Anche in questo caso, il sistema rappresentato nella tabella sinistra non riesce a fare ben oltre i test iniziali sui dati in-campione. Il sistema mostrato nel grafico a destra, tuttavia, continua a funzionare bene in tutte le fasi, compresa la prova di prestazione avanti. Un sistema che mostra risultati positivi con buona correlazione tra in-campione, out-of-campione e di test delle prestazioni in avanti è pronto per essere implementato in un mercato dal vivo. The Bottom Line backtesting è uno strumento prezioso a disposizione nella maggior parte delle piattaforme di trading. Dividendo i dati storici in più set di prevedere in-campione e out-of-sample test in grado di fornire agli operatori un mezzo pratico ed efficiente per valutare un'idea di trading e di sistema. Poiché la maggior parte dei commercianti impiegano tecniche di ottimizzazione in backtesting, è importante quindi valutare il sistema su dati puliti per determinare la redditività. Continuando il test out-of-campione con verifica delle prestazioni in avanti fornisce un ulteriore livello di sicurezza prima di mettere un sistema nel mercato rischiare denaro reale. I risultati positivi e buona correlazione tra in-campione e out-of-sample backtesting e test delle prestazioni in avanti aumenta la probabilità che un sistema si esibirà anche in trading reale. (. Per una panoramica completa sulle analisi tecnica vedere Analisi Tecnica:. Introduzione) AVVISO: Il gruppo di consulenza Idre statistica sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare la manutenzione e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca digitale e l'istruzione Aiuto Consulting Group Stat dando un regressione regalo con Stata Capitolo 3 - Regressione con categoriali predittori Capitolo Outline 3.0 Regressione con categoriali predittori 3.1 Regressione con un 3,2 regressione variabile 01 con una variabile 3.3 regressione 12 con un 123 variabile di 3.4 Regressione con più predittori categoriali 3,5 predittore categoriali con interazioni 3.6 variabili continue e categoriali 3.7 interazioni di continuo da 01 variabili categoriali 3.8 variabili continue e categoriali, l'interazione con 123 variabili 3.9 Sintesi della valutazione 3.10 Auto 3.11 Per ulteriori informazioni si prega di notare: questo pagina fa uso del Xi3 programma, che non è più mantenuto ed è stato dai nostri archivi. I riferimenti a Xi3 saranno lasciati in questa pagina perché illustrano specifici principi di codifica delle variabili categoriali. Nei due capitoli precedenti, ci siamo concentrati su analisi di regressione con variabili continue. Tuttavia, è possibile includere predittori categoriali in un'analisi di regressione, ma richiede lavoro extra nell'eseguire l'analisi e lavoro supplementare in una corretta interpretazione dei risultati. Questo capitolo illustrerà come è possibile utilizzare Stata per l'inclusione di predittori categoriali in analisi e descrivere come interpretare i risultati di tali analisi. Stata ha alcuni grandi strumenti che realmente facilitare il processo di tra cui variabili categoriali in analisi di regressione, e ci metterà in risalto l'uso di questi strumenti per risparmiare tempo. Questo capitolo utilizzerà i dati elemapi2 che avete visto nei capitoli precedenti. Ci concentreremo su quattro variabili api00. somecol. yrrnd e mealcat. che prende i pasti e si rompe in su in 3 categorie. Diamo un rapido sguardo a queste variabili. Il api00 variabile è una misura della prestazione delle scuole. Di seguito vediamo le informazioni cifrario per api00 La somecol variabile è una variabile continua che misura la percentuale dei genitori nella scuola che hanno frequentato l'università, e le informazioni cifrario è mostrato sotto. Il yrrnd variabile è una variabile categorica che è codificato 0 se la scuola non è tutto l'anno, e 1 se l'anno, vedere di seguito. I pasti variabile è la percentuale di studenti che stanno ricevendo stato promosso pasti gratuiti e possono essere utilizzati come un indicatore di povertà. Questo è stato suddiviso in 3 categorie (per fare gruppi di uguali dimensioni) che creano il mealcat variabile. Le informazioni codebook per mealcat è mostrato sotto. 3.1 Regressione con 01 variabili Il più semplice esempio di un predittore categoriale in un'analisi di regressione è una variabile 01, chiamata anche una variabile dummy. Consente di utilizzare il yrrnd variabile come un esempio di una variabile dummy. Siamo in grado di includere una variabile dummy come predittore in un'analisi di regressione come illustrato di seguito. Questo può sembrare strano all'inizio, ma questo è un'analisi legittima. Ma cosa significa questo consente di tornare alle origini e scrivere l'equazione di regressione che questo modello comporta. dove cons è l'intercetta (o costante) e usiamo Byrrnd a rappresentare il coefficiente per yrrnd variabile. Compilando i valori dalla equazione di regressione, otteniamo Se una scuola non è una scuola per tutto l'anno (cioè yrrnd è 0) l'equazione di regressione semplificherebbe di Se una scuola è una scuola per tutto l'anno, l'equazione di regressione semplificherebbe di Noi può rappresentare graficamente i valori osservati ei valori previsti utilizzando il comando dispersione come illustrato di seguito. Anche se yrrnd ha solo 2 valori, possiamo ancora tracciare una linea di regressione che mostra il rapporto tra yrrnd e api00. Sulla base dei risultati di cui sopra, si vede che il valore previsto per i non-tutto l'anno le scuole è 684,539 e il valore previsto per l'anno scuole è 524,032, e la pendenza della linea è negativo, che ha senso dal momento che il coefficiente per yrrnd era negativo (-160,5064). Consente di confrontare questi valori previsti per i punteggi medi api00 per le scuole per tutto l'anno e non per tutto l'anno. Come si vede, l'equazione di regressione prevede che il valore di api00 sarà il valore medio, a seconda se una scuola è un anno scolastico o non-tutto l'anno scolastico. Consente di applicare questi valori previsti di nuovo alla equazione di regressione. Per le scuole non per tutto l'anno, la loro media è la stessa come l'intercetta (684,539). Il coefficiente per yrrnd è la quantità che abbiamo bisogno di aggiungere per ottenere la media per le scuole per tutto l'anno, cioè abbiamo bisogno di aggiungere -160,5064 per ottenere 524,0326, la media per le scuole non per tutto l'anno. In altre parole, è Byrrnd i api00 punteggio medio per le scuole per tutto l'anno meno le api00 punteggio medio per le scuole non per tutto l'anno, vale a dire dire (tutto l'anno) - media (non tutto l'anno). Può essere sorprendente notare che questa analisi di regressione con una sola variabile fittizia è la stessa di fare una t-test di confronto tra le api00 medi per le scuole per tutto l'anno con le scuole non per tutto l'anno (vedi sotto). Si può vedere che il valore di t sotto è uguale al valore di t per yrrnd nella regressione sopra. Questo perché Byrrnd a confronto le anno-round e year-round non (dal momento che il coefficiente è media (tutto l'anno) - mean (non tutto l'anno)). Poiché un t-test è lo stesso di fare un anova. siamo in grado di ottenere gli stessi risultati utilizzando il comando ANOVA pure. Se al quadrato il valore t dal t-test, si ottiene lo stesso valore come il valore F dalla anova. 3.2 regressione con una variabile 12 Una variabile predittore categoriale non deve essere codificato 01 per essere utilizzato in un modello di regressione. E 'più facile da capire e interpretare i risultati di un modello con variabili dummy, ma i risultati di una variabile codificata 12 rendimento sostanzialmente gli stessi risultati. Consente di fare una copia della variabile yrrnd chiamato yrrnd2 che è codificato 12, 1non tutto l'anno e due anni tutto. Consente di eseguire una regressione api00 predire da yrrnd2. Si noti che il coefficiente di yrrnd è la stessa yrrnd2. Così, si può vedere che se si codifica yrrnd come 01 o 12, il coefficiente di regressione funziona a essere la stessa. Tuttavia l'intercetta (contro) è un po 'meno intuitivo. Quando abbiamo usato yrrnd. l'intercetta era la media per l'anno-round non. Quando si utilizza yrrnd2. l'intercetta è la media per l'anno-round non meno Byrrnd2. cioè 684,539 - (-160,506) 845,045 Nota che è possibile utilizzare 01 o 12 codifica ed i risultati per il coefficiente di uscire lo stesso, ma l'interpretazione del costante l'equazione di regressione è diverso. Spesso è più facile da interpretare le stime per 01 codifica. In sintesi, questi risultati indicano che i punteggi api00 sono significativamente differenti per le scuole a seconda del tipo di scuola, l'anno scolastico vs non-tutto l'anno scolastico. scuole non tutto l'anno hanno punteggi API significativamente più elevati rispetto scuole per tutto l'anno. Sulla base dei risultati della regressione, scuole rotonde non Yearbook hanno punteggi che sono 160,5 punti in più rispetto scuole per tutto l'anno. 3.3 Regressione con 123 3.3.1 Creazione manuale variabili dummy variabili dicono, che vorremmo esaminare il rapporto tra la quantità di povertà e di api punteggi. Noi non abbiamo una misura di povertà, ma possiamo usare mealcat come proxy per una misura di povertà. Di seguito ripetiamo informazioni cifrario per mealcat che mostra i valori per le tre categorie. Si potrebbe essere tentati di provare compreso mealcat in una regressione come questo. Ma questo sta guardando l'effetto lineare di mealcat con api00. ma mealcat non è una variabile intervallo. Invece, si vuole codificare la variabile in modo che tutte le informazioni riguardanti i tre livelli è rappresentato. È possibile manichino codice mealcat come questo. Ora abbiamo creato mealcat1 che è 1 se mealcat è 1, e 0 altrimenti. Allo stesso modo, mealcat2 è 1 se mealcat è 2, e 0 altrimenti e allo stesso modo mealcat3 è stato creato. Possiamo vedere questo qui sotto. Ora possiamo usare due di queste variabili dummy (mealcat2 e mealcat3) nella analisi di regressione. Siamo in grado di testare le differenze complessive tra i tre gruppi utilizzando il comando di prova come illustrato di seguito. Questo dimostra che le differenze complessive tra i tre gruppi sono significativi. L'interpretazione dei coefficienti è molto simile a quello per le variabili binarie. Gruppo 1 è il gruppo omesso, così cons è la media per il gruppo 1. Il coefficiente per mealcat2 è la media per il gruppo 2 meno la media del gruppo omesso (gruppo 1). E il coefficiente per mealcat3 è la media del gruppo 3 meno la media del gruppo 1. Lo si può verificare confrontando i coefficienti con i mezzi dei gruppi. Sulla base di questi risultati, possiamo dire che i tre gruppi si differenziano per i loro punteggi api00, e che in particolare group2 è significativamente diverso da group1 (perché mealcat2 era significativo) e il gruppo 3 è significativamente diverso da gruppo 1 (perché mealcat3 era significativo). 3.3.2 L'utilizzo del comando xi Possiamo usare il comando XI per fare il lavoro per noi creare le variabili indicatore ed eseguire la regressione tutto in un unico comando, come illustrato di seguito. Quando usiamo xi e includere il i. mealcat termine del modello, Stata crea le variabili Imealcat2 e Imealcat3 che sono variabili dummy, proprio come mealcat2 e mealcat3 che abbiamo creato prima. Non c'è davvero nessuna differenza tra mealcat2 e Imealcat2. Come si può vedere, i risultati sono gli stessi nell'analisi precedente. Se vogliamo testare l'effetto complessivo di mealcat usiamo il comando test come illustrato di seguito, che ci dà anche gli stessi risultati come abbiamo trovato utilizzando le variabili dummy mealcat2 e mealcat3. Si noti che se si sta facendo questo nella versione Stata 6 le variabili sarebbero chiamati Imealc2 e Imealc3 invece di Imealcat2 e Imealcat3. Uno dei miglioramenti in Stata 7 è che i nomi delle variabili possono essere più lunghi di 8 caratteri, quindi i nomi delle variabili create dal comando xi sono più facili da capire rispetto alla versione 6. Da questo punto in avanti, useremo i nomi delle variabili che si verrebbe a creare in versione 7. E se volessimo un gruppo diverso di essere il gruppo di riferimento. Se creiamo variabili dummy via tabulate. generiamo (), allora si può facilmente scegliere quale variabile sarà il gruppo omesso, per esempio, permette di omettere gruppo 3. Con il gruppo 3 omesso, la costante è ora la media di gruppo 3 e mealcat1 è group1-group3 e mealcat2 è group2-group3 . Si vede che entrambi questi coefficienti sono significativi, indicando che il gruppo 1 è significativamente diverso da gruppo 3 e il gruppo 2 è significativamente diverso da gruppo 3. Quando si usa il comando XI, come possiamo scegliere quale gruppo è il gruppo omesso Per impostazione predefinita, il primo gruppo è omesso, ma diciamo che vogliamo gruppo 3 per essere omesso. Possiamo usare il comando char come mostrato di seguito per dire Stata che vogliamo il terzo gruppo per essere il gruppo omesso per la mealcat variabile. Poi, quando si usa il comando xi utilizzando mealcat gruppo mealcat3 verrà omesso. Se si salva il file di dati, Stata ricorderà questo per le future sessioni di Stata. È possibile confrontare e vedere che questi risultati sono identici a quelli trovati usando mealcat1 e mealcat2 come predittori. 3.3.3 L'utilizzo del comando anova Possiamo anche fare questa analisi utilizzando il comando anova. Il vantaggio del comando ANOVA è che ci dà la prova del l'effetto complessivo di mealcat senza dover utilizzare successivamente il comando test come abbiamo fatto con il comando regresso. Possiamo vedere il test ANOVA dell'effetto della mealcat è uguale al comando di test dal comando regresso. Possiamo anche seguire questa con il anova, comando di regredire e confrontare le stime dei parametri con quelli abbiamo eseguito in precedenza. Nota: le stime dei parametri sono gli stessi perché mealcat è codificato nello stesso modo nel comando regresso e nel comando ANOVA, in entrambi i casi l'ultima categoria (categoria 3) che è caduto. Mentre è possibile controllare quali categoria è la categoria omessa quando si utilizza il comando regresso, il anova, comando di regresso cade sempre l'ultima categoria. 3.3.4 Altri schemi di codifica è generalmente molto comodo da usare codifica fittizia ma che non è l'unico tipo di codifica che può essere utilizzato. Come avete visto, quando si utilizza la codifica fittizia uno dei gruppi diventa il gruppo di riferimento e tutti gli altri gruppi sono confrontati a quel gruppo. Questo non può essere la serie più interessante di confronti. Dire che si desidera confrontare gruppo 1 con i gruppi 2 e 3, e per un secondo Confronto gruppo 2 con il gruppo 3. È necessario generare uno schema di codifica che forma questi 2 confronti. Illustreremo questo utilizzando un programma Stata, Xi3. (Una versione migliorata del xi) che creerà le variabili si avrebbe bisogno di tali confronti (così come una varietà di altri confronti comuni). I confronti che abbiamo descritto (confrontando gruppo 1 con 2 e 3, e quindi confrontando i gruppi 2 e 3) corrispondono ai confronti Helmert (si veda il Capitolo 5 per maggiori dettagli). Usiamo il h. prefisso (invece del i. prefisso) per indicare che desideriamo confronti Helmert sul mealcat variabile. In caso contrario, si vede che Xi3 funziona più o meno come il comando xi. Se si confrontano le stime dei parametri con i mezzi (vedi sotto) è possibile verificare che il coefficiente per Imealcat1 è la media del gruppo 1 meno la media dei gruppi 2 e 3 (805.71756 - (639,39394 504,37956) 2 233,83081) e il coefficiente per Imealcat2 è la media del gruppo 2 gruppo meno 3 (639,39-504,37 135.01). Entrambi questi confronti sono significativi, indicando che il gruppo 1 differisce significativamente da gruppi 2 e 3 combinati, e il gruppo 2 si differenzia significativamente dal gruppo 3. E il valore del cons è la media non ponderata dei mezzi dei 3 gruppi. Utilizzando il sistema di codifica fornito da Xi3. siamo stati in grado di formare i test forse più interessanti di quelle previste dalla codifica manichino. Il programma Xi3 può creare variabili secondo altri schemi di codifica, nonché per i sistemi di codifica personalizzati creati, vedere la Guida Xi3 e il Capitolo 5 per ulteriori informazioni. 3.4 Regressione con due predittori categoriali 3.4.1 Uso del XI: comando precedenza abbiamo esaminato utilizzando yrrnd per prevedere api00 e abbiamo anche guardato mealcat utilizzando il comando xi Siamo in grado di includere sia yrrnd e mealcat insieme nello stesso modello. Possiamo testare l'effetto complessivo del mealcat con il comando test, che è significativo. Dato che questo modello ha solo effetti principali (non di interazione) è possibile interpretare Byrrnd come la differenza tra l'anno e non l'anno girone. Il coefficiente per Imealcat1 (che chiameremo BImealcat1) è la differenza tra mealcat1 e mealcat3, e BImealcat2 come differenza tra mealcat2 e mealcat3. Consente di scavare sotto la superficie e vedere come i coefficienti si riferiscono ai valori previsti. Consente di visualizzare le cellule formate da attraversando yrrnd e mealcat e il numero delle cellule da cell1 a cell6. Per quanto riguarda mealcat. il mealcat3 gruppo è la categoria di riferimento, e per quanto riguarda il yrrnd yrrnd0 gruppo è la categoria di riferimento. Come risultato, CELL3 è la cella di riferimento. La costante è il valore previsto per questa cella. Il coefficiente per yrrnd è la differenza tra CELL3 e cell6. Dato che questo modello ha solo effetti principali, è anche la differenza tra cell2 e cell5, o da cell1 e cell4. In altre parole, Byrrnd è l'importo si aggiunge al valore previsto quando si passa da tutto l'anno non per tutto l'anno le scuole. Il coefficiente per Imealcat1 è la differenza tra il predetto cell1 e CELL3. Dato che questo modello ha solo effetti principali, è anche la differenza tra il predetto cell4 e cell6. Analogamente, BImealcat2 è la differenza tra il predetto cell2 e CELL3, e anche la differenza tra il predetto cell5 e cell6. Così, i valori previsti, in termini di coefficienti, sarebbero Dobbiamo notare che se calcolati i valori attesi per ogni cella, non avrebbero corrispondere esattamente i mezzi nei 6 celle. I mezzi previsti sarebbero vicino ai mezzi osservati nelle cellule, ma non esattamente la stessa. Questo perché il nostro modello ha solo effetti principali e assume che la differenza tra cell1 e cell4 è esattamente lo stesso come differenza tra celle 2 e 5, che è la stessa come la differenza tra le cellule 3 e 6. Poiché i valori osservati dont seguire questa modello, vi è una certa discrepanza tra i mezzi previsti e mezzi osservati. 3.4.2 L'utilizzo del comando anova possiamo correre la stessa analisi utilizzando il comando ANOVA con effetti solo principali Si noti che otteniamo le stesse informazioni che facciamo dal XI. comando di regresso, seguito dal comando di prova. Il comando anova fornisce automaticamente le informazioni fornite dal comando di prova. Se ci piace, possiamo anche richiedere le stime dei parametri in seguito solo in questo modo. anova visualizzerà le stime dei parametri dell'ultimo modello ANOVA. Tuttavia, il comando anova è rigida nella sua determinazione di quale verrà si elimina il gruppo omesso e l'ultimo gruppo gruppo. Dal momento che questo si differenzia dal codice che abbiamo usato nei comandi di regressione di cui sopra, i parametri stime di questo comando anova sarà diverso dal comando regresso sopra. In sintesi, questi risultati indicano le differenze tra l'anno e non l'anno scuole è significativo, e le differenze tra i tre gruppi mealcat sono significativi. 3.5 predittore categoriale con interazioni Consente di eseguire la stessa analisi che abbiamo eseguito in precedenza, questa volta lascia comprendono l'interazione di mealcat da yrrnd. Quando si usa xi. è facile comprendere un termine di interazione, come mostrato di seguito. Siamo in grado di testare l'interazione globale con il comando test. Questo effetto interazione non è significativo. È importante notare come il significato dei coefficienti cambiate in presenza di questi termini di interazione. Ad esempio, nel modello precedente, con solo effetti principali, potremmo interpretare Byrrnd come differenza tra l'anno e non anno scuole. Tuttavia, ora che abbiamo aggiunto il termine di interazione, il termine Byrrnd rappresenta la differenza tra CELL3 e cell6, o la differenza tra l'anno e non l'anno le scuole in cui mealcat 3 (perché mealcat 3 è stato il gruppo omesso). La presenza di una interazione implicherebbe che la differenza tra l'anno e non anno scuole dipende dal livello di mealcat. I termini di interazione BImeaXyrrn1 e BImeaXyrrn2 rappresentano la misura in cui la differenza tra l'anno roundnon anno scuole modifiche quando mealcat1 e quando mealcat2 (rispetto al gruppo di riferimento, mealcat3). Ad esempio, il termine BImeaXyrrn1 rappresenta la differenza tra l'anno e rotondo non anno per mealcat1 contro la differenza mealcat3. In altre parole, BImeaXyrrn1 in questo disegno è (cell1-cell4) - (CELL3-cell6), oppure rappresenta quanto l'effetto di yrrnd diversa tra mealcat1 e mealcat3. Qui di seguito abbiamo mostrato i valori dei sei celle in termini di coefficienti nel modello. Se si confronta questo al modello effetti principali, si vedrà che i valori previsti sono gli stessi tranne che per l'aggiunta di ImeaXyrrn1 (nella cella 4) e ImeaXyrrn2 (nella cella 5). Può essere molto difficile da interpretare questi termini di interazione, se si desidera formare confronti specifici. Ad esempio, se si vuole effettuare un test del semplice effetto principale di yrrnd quando mealcat 1, vale a dire il confronto con cell1 cell4, si vorrebbe confrontare contro BImealcat1 vs cons B yrrnd BImealcat1 BImeaXyrrn1 e dal contro e Imealcat1 sarebbero drop out, ci prova la prova significativo, indicando che l'effetto di yrrnd è significativo per il gruppo mealcat 1. Come vedremo, tali prove possono essere più facilmente fatto tramite anova. 3.5.2 L'utilizzo anova Costruire queste interazioni può essere un po 'più facile quando si utilizza il comando anova. Come si vede sotto, il comando anova ci dà la prova degli effetti principali globali e interazioni senza la necessità di eseguire successivi comandi di test. E 'facile da eseguire prove di semplici effetti principali usando il comando delle PMI. È possibile scaricare le PMI dall'interno Stata digitando sme Findit (vedi Come posso utilizzare il comando findit per la ricerca di programmi e ottenere ulteriore assistenza per ulteriori informazioni sull'uso findit). Ora siamo in grado di testare gli effetti principali semplici di yrrnd ad ogni livello di mealcat. I risultati sme ci mostrano l'effetto di yrrnd a ciascuno dei 3 livelli di mealcat. Possiamo vedere che il confronto per mealcat 1 corrisponde quelli abbiamo calcolato sopra utilizzando l'istruzione di prova, tuttavia, era molto più facile e meno soggetto a errori usando il comando delle PMI. Anche se questa sezione si è concentrata su come gestire le analisi che coinvolgono le interazioni, questi risultati mostrano particolari alcuna indicazione di interazione. Potremmo decidere di omettere termini di interazione dalla futura analisi avendo trovato le interazioni di non significative. Questo semplificherebbe analisi future, tuttavia compreso il termine interazione può essere utile per assicurare lettori che il termine di interazione non è significativo. 3.6 Le variabili continue e categoriali 3.6.1 Uso regresso dire che noi desideriamo analizzare sia le variabili continue e categoriali in una analisi. Per esempio, consente di includere yrrnd e somecol nella stessa analisi. Siamo in grado di creare i valori previsti utilizzando il comando prevedere. Consente grafico i valori previsti dalla somecol. Il coefficiente per somecol indica che per ogni unità di aumento somecol il punteggio api00 dovrebbe aumentare da 2,23 unità. Questa è la pendenza delle linee mostrate nel grafico di cui sopra. Il grafico ha due linee, una per l'anno le scuole e uno per le scuole tonde, non anni. Il coefficiente per yrrnd è -149,16, indicando che come yrrnd aumenta di 1 unità, il punteggio api00 si prevede una diminuzione di circa 149 unità. Come si può vedere nel grafico, la linea superiore è di circa 150 unità superiore alla linea inferiore. Si può vedere che l'intercetta è 637 e che è dove la linea superiore attraversa l'asse Y quando X è 0. La riga inferiore attraversa la linea di circa 150 unità inferiore a circa 487. 3.6.2 mediante ANOVA Possiamo eseguire questa analisi utilizzando il il comando anova. Il comando anova presume che le variabili sono categoriali, in tal modo, abbiamo bisogno di utilizzare l'opzione continua () (che può essere abbreviato come segue ()) per specificare che somecol è una variabile continua. Se quadrare il t-valori dal comando di regresso (sopra), avremmo trovato che essi corrispondano a quelli del comando anova. 3.7 Interazioni di continuo da 01 variabili categoriali di cui sopra hanno mostrato una analisi che ha esaminato il rapporto tra somecol e api00 e yrrnd anche incluso. Abbiamo visto che questo ha prodotto un grafico in cui abbiamo visto la relazione tra somecol e api00 ma c'erano due linee di regressione, una più alta rispetto agli altri, ma con la stessa pendenza. Tale modello assume che la pendenza era uguale per i due gruppi. Forse la pista potrebbe essere diverso per questi gruppi. Consente di eseguire le regressioni separatamente per questi due gruppi che iniziano con la non-tutto l'anno le scuole. Allo stesso modo, consente di guardare l'anno le scuole. Notate che l'inclinazione della retta di regressione sembra molto più ripida per l'anno le scuole che per la non-tutto l'anno le scuole. Ciò è confermato dalle equazioni di regressione che mostrano la pendenza per l'anno alle scuole di essere più alto (7.4) rispetto ai non-tutto l'anno le scuole (1.3). Possiamo confrontare questi per vedere se essi sono significativamente diversi tra loro, includendo l'interazione di somecol da yrrnd. un'interazione di una variabile continua da una variabile categorica. 3.7.1 Informatica interazioni manualmente Inizieremo calcolando manualmente l'interazione di somecol da yrrnd. Lascia l'inizio fresco e utilizzare il file di dati elemapi2 utilizzando l'opzione Cancella per cancellare eventuali variabili che abbiamo creato in precedenza. Quindi, consente di fare una variabile che è l'interazione di alcune università (somecol) e l'anno le scuole (yrrnd) chiamato yrXsome. Ora possiamo eseguire la regressione che verifica se il coefficiente per somecol è significativamente diverso per tutto l'anno le scuole e non l'anno rotonde scuole. Infatti, l'effetto di interazione yrXsome è significativo. Possiamo fare un grafico che mostra le linee di regressione per i due tipi di scuole mostrano come i diversi loro linee di regressione sono. Per prima cosa creare il valore previsto, la chiamiamo yhata. Poi, creiamo variabili distinte per i due tipi di scuole che saranno chiamati yhata0 per i non-tutto l'anno le scuole e yhata1 per l'anno rotonde scuole. Possiamo quindi rappresentare graficamente i valori previsti per i due tipi di scuole di somecol. Si può vedere come le due linee hanno molto diverse piste, coerente con il fatto che l'interazione yrXsome è stato significativo. L'opzione c (ll) indica che yhata0 deve essere collegato con una linea, e yhata1 deve essere collegato con linee tratteggiate (perché abbiamo incluso dopo l). Se avessimo usato l. avrebbe fatto una linea tratteggiata. Le opzioni per rendere le linee tratteggiate e punteggiate sono nuovi per Stata 7 e si possono trovare ulteriori informazioni tramite aiuto grsym. Possiamo rappresenterà nuovamente stesso grafico inclusi i punti di dati. Il grafico utilizzato lo stesso tipo di punti per i punti di dati per entrambi i tipi di scuole. Consente di rendere variabili separate per i punteggi api00 per i due tipi di scuole chiamati api000 per il non-tutto l'anno le scuole e api001 per l'anno scuole. Possiamo quindi rendere lo stesso grafico come sopra eccetto mostrare i punti in modo diverso per i due tipi di scuole. Di seguito usiamo piccoli cerchi per la non-tutto l'anno, le scuole e triangoli per l'anno scuole. Consente di eseguire rapidamente le regressioni di nuovo dove ci siamo esibiti regressioni separate per i due gruppi Ora, consente di mostrare la regressione per entrambi i tipi di scuole con il termine di interazione. Si noti che il coefficiente somecol nell'analisi combinata è uguale al coefficiente per somecol per la non-anno scuole Questo perché non anno scuole sono il gruppo di riferimento. Poi, il coefficiente per l'interazione yrXsome nell'analisi combinata è la Bsomecol per l'anno scuole (7.4) meno Bsomecol per il non anno le scuole (1.41) ottenendo 5,99. Questa interazione è la differenza tra le piste di somecol per i due tipi di scuole, e questo è il motivo per questo è utile per testare se le linee di regressione per i due tipi di scuole sono uguali. Se i due tipi di scuole hanno lo stesso coefficiente di regressione per somecol. quindi il coefficiente di interazione yrXsome sarebbe 0. In questo caso, la differenza è significativa, indicando che le linee di regressione sono significativamente differenti. Quindi, se guardiamo il grafico delle due linee di regressione possiamo vedere la differenza tra le pendici delle linee di regressione (vedi grafico sotto). In effetti, possiamo vedere che le scuole tonde, non l'anno (la linea continua) hanno una pendenza più piccola (1,4) rispetto alla pista per l'anno scuole (7.4). La differenza tra queste piste è 5,99, il coefficiente per yrXsome. 3.7.2 interazioni Computing con xi si può utilizzare il comando xi per fare questo tipo di analisi pure. Lascia l'inizio fresco e utilizzare il file elemapi2. Siamo in grado di eseguire un modello, proprio come il modello abbiamo mostrato sopra utilizzando il comando xi. È possibile confrontare i risultati con quelli di cui sopra e vedere che si ottiene lo stesso risultato. Il termine i. yrrndsomecol crea 3 termini, somecol. Iyrrnd2 una variabile indicatore per yrrnd che indica se la scuola è tutto l'anno e la IyrXsome variabile 2 che rappresenta l'interazione di yrrnd da somecol. Come abbiamo fatto in precedenza, possiamo creare valori previsti e creare grafici che mostrano le linee di regressione per i due tipi di scuole. Omettiamo mostrando questi comandi. 3.7.3 interazioni Computing con anova Si può anche eseguire un modello, proprio come il modello abbiamo mostrato sopra utilizzando il comando ANOVA. Includiamo i termini yrrnd somecol e l'interazione yrrnrsomecol Come abbiamo illustrato in precedenza, possiamo calcolare i valori previsti utilizzando il comando prevedere e rappresentare graficamente le linee di regressione separate. Questi comandi vengono omessi. In questa sezione abbiamo scoperto che il rapporto tra somecol e api00 dipendeva se la scuola è una scuola tutto l'anno o un non-tutto l'anno scolastico. For the year round schools, the relationship between somecol and api00 was significantly stronger than for non-year round schools. In general, this type of analysis allows you to test whether the strength of the relationship between two continuous variables varies based on the categorical variable. 3.8 Continuous and Categorical variables, interaction with 123 variable The prior examples showed how to do regressions with a continuous variable and a categorical variable that has 2 levels. These examples will extend this further by using a categorical variable with 3 levels, mealcat . We can use the xi command to run a model with somecol . mealcat and the interaction of these two variables. The interaction now has two terms ( ImeaXsome 2 and ImeaXsome 3 ). To get an overall test of this interaction, we can use the test command. These results indicate that the overall interaction is indeed significant. This means that the regression lines from the 3 groups differ significantly. As we have done before, lets compute the predicted values and make a graph of the predicted values so we can see how the regression lines differ. Since we had three groups, we get three regression lines, one for each category of mealcat . The solid line is for group 1, the dashed line for group 2, and the dotted line is for group 3. Group 1 was the omitted group, therefore the slope of the line for group 1 is the coefficient for somecol which is -.94. Indeed, this line has a downward slope. If we add the coefficient for somecol to the coefficient for ImeaXsome 2 we get the coefficient for group 2, i. e. 3.14 -.94 yields 2.2, the slope for group 2. Indeed, group 2 shows an upward slope. Likewise, if we add the coefficient for somecol to the coefficient for ImeaXsome 3 we get the coefficient for group 3, i. e. 2.6 -.94 yields 1.66, the slope for group 3. So, the slopes for the 3 groups are The test of the coefficient for ImeaXsome 2 tested whether the coefficient for group 2 differed from group 1, and indeed this was significant. Likewise, the test of the coefficient for ImeaXsome 3 tested whether the coefficient for group 3 differed from group 1, and indeed this was significant. What did the test of the coefficient somecol test This coefficient represents the coefficient for group 1, so this tested whether the coefficient for group 1 (-0.94) was significantly different from 0. This is probably a non-interesting test. The comparisons in the above analyses dont seem to be as interesting as comparing group 1 vs. 2 and then comparing group 2 vs. 3. These successive comparisons seem much more interesting. We can do this by making group 2 the omitted group, and then each group would be compared to group 2. As we have done before, we will use the char command to indicate that we want group 2 to be the omitted category and then rerun the regression. Now, the test of ImeaXsome 1 tests whether the coefficient for group 1 differs from group 2, and it does. Then, the test of ImeaXsome 3 tests whether the coefficient for group 3 significantly differs from group 2, and it does not. This makes sense given the graph and given the estimates of the coefficients that we have, that -.94 is significantly different from 2.2 but 2.2 is not significantly different from 1.66. 3.8.2 Using Anova We can perform the same analysis using the anova command, as shown below. The anova command gives us somewhat less flexibility since we cannot choose which group is the omitted group. Because the anova command omits the 3rd category, and the analysis we showed above omitted the second category, the parameter estimates will not be the same. You can compare the results from below with the results above and see that the parameter estimates are not the same. Because group 3 is dropped, that is the reference category and all comparisons are made with group 3. These analyses showed that the relationship between somecol and api00 varied, depending on the level of mealcat . In comparing group 1 with group 2, the coefficient for somecol was significantly different, but there was no difference in the coefficient for somecol in comparing groups 2 and 3. This covered four techniques for analyzing data with categorical variables, 1) manually constructing indicator variables, 2) creating indicator variables using the xi command, 3) coding variables using xi3 . and 4) using the anova command. Each method has its advantages and disadvantages, as described below. Manually constructing indicator variables can be very tedious and even error prone. For very simple models, it is not very difficult to create your own indicator variables, but if you have categorical variables with many levels andor interactions of categorical variables, it can be laborious to manually create indicator variables. However, the advantage is that you can have quite a bit of control over how the variables are created and the terms that are entered into the model. The xi command can really ease the creation of indicator variables, and make it easier to include interactions in your models by allowing you to include interaction terms such as i. progfemale. The xi command also gives you the flexibility to decide which category would be the omitted category (unlike the anova command). The anova command eliminates the need to create indicator variables making it easy to include variables that have lots of categories, and making it easy to create interactions by allowing you to include terms like somecolmealcat . It can be easier to perform tests of simple main effects with the anova command. However, the anova command is not flexible in letting you choose which category is the omitted category (the last category is always the omitted category). As you will see in the next chapter, the regress command includes additional options like the robust option and the cluster option that allow you to perform analyses when you dont exactly meet the assumptions of ordinary least squares regression. In such cases, the regress command offers features not available in the anova command and may be more advantageous to use. See the Stata Topics: Regression page for more information and resources on regression with categorical predictors in Stata. 3.10 Self Assessment 1. Using the elemapi2 data file ( use ats. ucla. edustatstatawebbooksregelemapi2 ) convert the variable ell into 2 categories using the following coding, 0-25 on ell becomes 0, and 26-100 on ell becomes 1. Use this recoded version of ell to predict api00 and interpret the results. 2. Convert the variable ell into 3 categories coding those scoring 0-14 on ell as 1, and those 1541 as 2 and 42100 as 3. Do an analysis predicting api00 from the ell variable converted to a 123 variable. Interpret the results. 3. Do a regression analysis predicting api00 from yrrnd and the ell variable converted to a 01 variable. Then create an interaction term and run the analysis again. Interpret the results of these analyses. 4. Do a regression analysis predicting api00 from ell coded as 01 (from question 1) and somecol . and the interaction of these two variables. Interpret the results, including showing a graph of the results. 5. Use the variable ell converted into 3 categories (from question 2) and predict api00 from ell in 3 categories, from somecol and the interaction. of these two variables. Interpret the results, including showing a graph. Click here for our answers to these self assessment questions. 3.11 For more information

No comments:

Post a Comment