Menghasilkan nilai yang hilang di stata forex

Menghasilkan nilai yang hilang di stata forex

Binary-option-indicator-v-22-osprey
Cara sukses trader forex
Forex-trading-rahasia-trading-sistem-terungkap-trik sulap


Trading-post-online-victoria Binary-option-brokers-in-nigeria-hari ini The-best-binary-option-trading-site Binary-options-brokers-100-minimum-deposit Aktualny-kurs-walut-forex-trading Forex-trading-currency-tools-usa

Beberapa Imputasi di Stata: Menciptakan Model Imputasi Ini adalah bagian tiga dari Multiple Imputation dalam seri Stata. Untuk daftar topik yang tercakup dalam seri ini, lihat Pendahuluan. Secara teori, model imputasi memperkirakan distribusi bersama dari semua variabel yang dikandungnya. MICE memecahkan masalah ini menjadi serangkaian perkiraan yang menurunkan satu variabel pada semua variabel lainnya dalam model. (Kelemahannya adalah bahwa serangkaian model distribusi variabel individual tidak serta merta menambahkan model distribusi bersama yang konsisten.) Perintah imputasi yang dirujuk mi tidak mengharuskan Anda untuk menentukan model untuk setiap variabel secara terpisah: Anda hanya Daftar variabel yang akan diperhitungkan bersama dengan informasi tentang bagaimana mereka harus diperhitungkan, dan mi impute dirantai akan membentuk model individu secara otomatis. Namun, keberhasilan model imputasi keseluruhan bergantung pada kesuksesan semua model individual. Jika satu model gagal disatukan, proses imputasi secara keseluruhan akan gagal. Jika satu model salah, mungkin bias hasil model analisis Anda. Kami sangat menyarankan agar Anda menjalankan masing-masing model individual dengan sendirinya, di luar konteks mi yang bisa dirantai. Untuk menguji konvergensi dan misspecification. Nah diskusikan detilnya di bagian selanjutnya. Bagian ini akan berfokus pada isu-isu yang harus Anda pertimbangkan dalam menciptakan model imputasi Anda. Memilih Variabel Langkah pertama dalam membuat model imputasi adalah menentukan variabel mana yang akan diimpikan. Model imputasi harus selalu mencakup semua variabel dalam model analisis. Ini termasuk variabel dependen dari model analisis Anda, meskipun ada beberapa perdebatan tentang apakah nilai variabel tergantung yang harus digunakan. Bahkan jika Anda tidak berencana untuk menggunakan nilai variabel dependen yang diimplikasikan, nilai variabel dependen yang diamati memberikan informasi tentang variabel lainnya, dan informasi yang tersedia dari pengamatan yang kehilangan variabel dependen tersebut harus digunakan dalam model imputasi sebagai baik. Model imputasi harus mencakup variabel lain yang memberikan informasi baik tentang nilai sebenarnya dari data yang hilang atau tentang probabilitasnya hilang. Hindari membuat model wastafel quotkitchen. Sejumlah besar variabel, terutama variabel kategoris, dapat menyebabkan model yang gagal dipadukan. Gunakan teori untuk membimbing Anda dalam memilih variabel yang sesuai. Anda dapat menambahkan variabel ke model imputasi yang tidak perlu (atau seharusnya) diperhitungkan dengan meletakkannya di akhir daftar variabel yang mengikuti tanda sama dengan sama. Menyesuaikan Model Imputasi Anda dapat menambahkan variabel ke atau menghapus variabel dari model imputasi untuk variabel individu atau kelompok variabel menggunakan opsi include () atau menghilangkan (). Pilihan include () bahkan memungkinkan Anda menambahkan ekspresi ke model seperti (x2). Namun mereka harus masuk ke dalam kumpulan tanda kurung tambahan (misal: ((x2))). Pilihan ini sesuai dengan metode imputasi untuk variabel atau variabel (mis. (Kemunduran, sertakan (x))) daripada di akhir perintah yang diacu oleh mi. Berhati-hatilah untuk menambahkan ekspresi ke model imputasi: jika y bergantung pada beberapa fungsi x. Maka x harus bergantung pada fungsi invers dari y dan gagal memodelkan keduanya bisa bias hasil anda. Lihat Istilah Non-Linear untuk diskusi lebih lanjut. Data PanelLongitudinal Jika Anda memiliki data di mana unit diamati dari waktu ke waktu, prediktor terbaik dari nilai yang hilang dalam satu periode kemungkinan adalah nilai dari variabel tersebut pada periode sebelumnya dan periode berikutnya. Namun, model imputasi hanya dapat memanfaatkan informasi ini jika kumpulan data berbentuk lebar (satu pengamatan per unit, tidak satu pengamatan per unit per periode waktu). Anda dapat mengubah kembali ke bentuk panjang setelah menyiratkan jika diperlukan. Untuk mengkonversikan data ke bentuk yang lebar sebelum menyiratkan, gunakan reshape. Untuk mengkonversikan kembali ke bentuk panjang setelah menyiratkan, gunakan mi membentuk kembali. Ini memiliki sintaks yang sama dengan membentuk kembali. Tapi pastikan imputasinya ditangani dengan benar. Jika Anda tidak terbiasa dengan membentuk kembali. Lihat bagian Data hirarkis dari Stata untuk Periset. Data Survei Perkiraan mi: dan svy: perintah awalan dapat digunakan bersamaan (dalam urutan itu) untuk menjalankan model pada data survei yang telah beberapa diperhitungkan. Namun, svy: tidak bisa digunakan dengan mi impute dirantai. Anda bisa menerapkan bobot (misalnya pweightweight) tapi tidak sesuai untuk elemen struktur survei lainnya seperti strata atau PSU. Rekomendasi saat ini adalah memasukkan variabel struktur survei seperti strata dan PSU dalam model imputasi sebagai kumpulan variabel indikator (misalnya i.psu). Ini adalah bidang penelitian yang sedang berlangsung. Saat Anda menguji model imputasi individual Anda, sebaiknya jalankan dulu dengan siku: awalan dan kemudian tanpanya, namun dengan bobot diterapkan dan variabel struktur survei ditambahkan ke model. Jika keduanya memberikan hasil yang sangat berbeda, coba tambahkan interaksi antara variabel struktur survei atau variabel tambahan yang terkait dengan struktur survei. Jika mereka terus memberikan hasil yang sangat berbeda meski usaha terbaik Anda, waspadalah dengan menggunakan beberapa imputasi. Memilih Metode Ada sembilan metode yang tersedia untuk meniru variabel: regresi. Pmm. Truncreg. Intreg. Logit Ologit Mlogit Poisson dan nbreg. Dalam kebanyakan kasus, Anda akan memilih metode imputasi yang sama yang Anda pilih jika Anda akan memodelkan variabel secara normal: regresi untuk variabel yang paling kontinyu, logit untuk variabel biner, mlogit untuk variabel kategoris yang tidak berurutan, dll. Variabel terus-menerus tetapi tidak normal Ingatlah bahwa Regresi standar menyiratkan istilah kesalahan normal setelah mengendalikan kovariat. Jika Anda memiliki variabel kontinu yang tidak normal, kemunduran mungkin tidak memberi Anda distribusi nilai yang sesuai yang sesuai dengan nilai yang teramati dengan sangat baik. Alternatifnya adalah Predictive Mean Matching (PMM). PMM adalah teknik ad hoc dengan sedikit teori di baliknya, namun tampaknya cukup berhasil dalam praktiknya. PMM dimulai dengan menurunkan variabel yang akan diperhitungkan pada kovariat, dan kemudian menggambar satu set koefisien dari hasilnya, dengan memperhitungkan koefisien perkiraan dan ketidakpastian mengenai hal tersebut. Koefisien tersebut digunakan untuk menghitung nilai prediksi untuk semua nilai yang hilang. Namun, kemudian menggunakan nilai prediksi untuk pengamatan tertentu untuk mengidentifikasi pengamatan yang nilai pengamatan variabel mendekati nilai yang diprediksi dan memilih salah satunya secara acak sebagai nilai imputasi. Jika nilai variabel yang diamati tidak normal, PMM biasanya akan menghasilkan distribusi nilai imputasi yang sesuai dengan distribusi nilai yang diamati lebih dekat daripada regresi. Pilihan knn () mengendalikan jumlah observasi yang dianggap cocok (berdasarkan nilai observasi variabel yang mendekati nilai prediksi untuk pengamatan yang diperhitungkan). Karya terbaru Morris, White dan Royston menunjukkan bahwa jumlah pengamatan yang lebih besar harus digunakan daripada praktik standar di masa lalu. Mereka menyarankan setidaknya 10, dan lebih banyak lagi jika kumpulan data Anda sangat besar (puluhan ribu pengamatan atau lebih). Karena PMM menarik nilai imputasi dari nilai yang diobservasi, ia memiliki properti bahwa nilai yang diperhitungkan tidak akan pernah berada di luar kisaran nilai yang teramati. Hal ini membuatnya sangat berguna untuk variabel terikat (dibahas di bawah). Hal ini juga dapat digunakan untuk beberapa distribusi non-kontinyu. Namun, PMM tidak sesuai jika Anda memiliki alasan untuk percaya bahwa nilai yang tidak teramati berada di luar kisaran nilai yang teramati. Transformasi Variabel bertele-tele dapat dibuat lebih normal dengan transformasi seperti mengambil log. Namun, Anda harus mempertimbangkan bagaimana hal ini mempengaruhi hubungan antar variabel. Misalnya, jika Anda memiliki variabel untuk quotincomequot dan quotspending pada hiburanquot dan Anda yakin bahwa hubungan keduanya adalah linier, ganti kuotom kuota dengan quotalk incomequot membuat model imputasi untuk kedua variabel salah kutip. Bounded Variables Situasi umum lainnya adalah variabel terikat. Sebagai contoh, quothours workquot tidak bisa di bawah nol, dan persentase harus antara nol dan 100. Variabel tersebut dapat diimplikasikan dengan menggunakan truncreg. Opsi ll () dan ul () berisi batas bawah dan batas atas untuk variabel, yang dapat berupa angka atau variabel. Anda tidak diharuskan untuk menentukan keduanya (misalnya jam kerja mungkin hanya memerlukan ll (0). Kecuali jika Anda khawatir model tersebut mungkin mencoba agar seseorang bekerja lebih dari 168 jam per minggu). Sayangnya, dalam pengalaman kami yang tidak biasa bagi truncreg memiliki masalah konvergensi dalam model imputasi dengan banyak variabel. PMM adalah alternatif yang baik untuk truncreg karena secara alami menghormati setiap batas yang ada dalam data yang teramati. Istilah Non-Linear Jika model analisis Anda mengandung istilah non linier, kemungkinan besar variabel kuadrat, maka ini harus diperhitungkan saat membuat model imputasi Anda. Misalkan model analisis Anda mengalami regresi y pada x dan x2. Jika Anda hanya meniru y dan x. Membuat x2 kemudian (baik dengan mi pasif atau c.xc.x), maka nilai imputasi y hanya akan bergantung pada x dan nilai imputasi x akan bergantung secara linear pada y. Ketika Anda menjalankan model analisis Anda, koefisien pada istilah kuadrat akan menjadi bias terhadap nol karena untuk pengamatan dimana y atau x diimplikasikan, y benar-benar tidak berhubungan dengan x2. (Jangan pernah lupa bahwa ketika Anda menulis perintah meremehkan mi Anda, Anda sedang membangun model, bukan hanya mencantumkan variabel yang akan diimpikan.) Alternatif terbaik adalah apa yang White, Royston dan Wood sebut pendekatan Jarang Variabel Lain. Buat variabel baru untuk menyimpan istilah non linier (misalnya gen x2x2) dan kemudian memberi tahu mereka seolah-olah mereka hanyalah variabel lain, tidak terkait dengan istilah linier. Nilai imputasi dari istilah non linier tidak akan memiliki hubungan yang benar dengan istilah linier (yaitu nilai yang direproduksi x2 sebenarnya tidak akan x2) namun selama didistribusikan dengan benar, ini tampaknya tidak mempengaruhi hasil analisis. model. Ini adalah bidang penelitian yang sedang berlangsung. Persyaratan Interaksi Istilah interaksi mengemukakan masalah yang sangat mirip dengan yang diajukan oleh istilah non linier: jika istilah interaksi tidak disertakan dalam model imputasi, koefisien pada istilah interaksi akan menjadi bias terhadap nol dalam model analisis. Pendekatan Variablequot quotJust Another juga berfungsi dengan baik untuk persyaratan interaksi: membuat variabel yang menyimpan efek interaksi (misalnya gen gxgx) dan kemudian menyiratkannya secara terpisah. Jika, bagaimanapun, interaksi melibatkan variabel biner atau kategoris yang mewakili kelompok, pertimbangkan untuk menggunakan opsi () untuk menyiratkan masing-masing kelompok secara terpisah. Hal ini memungkinkan koefisien bervariasi antara kelompok tanpa masalah istilah interaksi yang diperhitungkan yang tidak benar-benar sesuai dengan variabel yang sedang berinteraksi. Misalnya, anggaplah Anda menurunkan pendapatan pendidikan. pengalaman. Dan hitam (indikator untuk quotsubject adalah blackquot), namun berpikir kembalinya pendidikan berbeda menurut ras dan dengan demikian memasukkan blackc.education dalam regresi. Pendekatan variabel yang lain akan menciptakan variabel edblackblackrace dan menyiratkannya, namun model tersebut mungkin dapat menyebabkan nol untuk nilai hitam dan non-nol untuk edblack. Tidak ada indikasi ini akan menyebabkan masalah dalam model analisis. Alternatif lain adalah menambahkan opsi (hitam) ke perintah imputasi, sehingga orang kulit putih dan kulit hitam diperhitungkan secara terpisah. Ini akan memungkinkan Anda untuk menggunakan blackc.education dalam model analisis Anda tanpa bias (dan itu akan selalu sesuai dengan nilai sebenarnya dari hitam dan pendidikan). Namun, menjalankan dua model imputasi terpisah memungkinkan kembalinya pengalaman bervariasi menurut ras dalam model imputasi, bukan hanya pendidikan. Jika Anda memiliki alasan teoritis yang kuat untuk percaya bahwa bukan itu masalahnya (yang tidak mungkin) yang akan menjadi masalah spesifikasi. Masalah yang jauh lebih umum adalah ukuran sampel yang kecil: pastikan masing-masing kelompok () Anda cukup besar untuk regresi yang masuk akal. Mencoba menggunakan quotJust Another Variablequot untuk interaksi antara variabel kategoris dan meniru mereka dengan logit bermasalah. Gunakan dengan () sebagai gantinya. Set Variabel Indikator Jika Anda memiliki seperangkat variabel indikator yang saling eksklusif, gunakanlah untuk membuat variabel kategoris tunggal dan kemudian nyalakan dengan menggunakan mlogit. Misalnya, gabungkan putih. hitam. Hispanik. Lainnya menjadi ras. Atau highSchool beberapa perguruan tinggi. Bujangan Maju ke pendidikan. Anda dapat menciptakan variabel indikator setelah menyiratkan, baik dengan mi pasif atau hanya dengan menggunakan i.race atau i.education pada model Anda. Jika Anda menyiratkan variabel indikator itu sendiri menggunakan logit. Model imputasi tidak akan memaksakan batasan bahwa hanya satu saja yang bisa menjadi satu. Dengan demikian, Anda mungkin bisa mendapatkan orang dengan lebih dari satu ras atau lebih dari satu tingkat pendidikan. Dengan mengubah indikator menjadi variabel kategoris dan menyiratkan variabel kategoris menggunakan mlogit, Anda memaksa model untuk memilih hanya satu kategori. Terakhir Direvisi: 9152015Multiple Imputation in Stata: Imputing Ini adalah bagian keempat dari Multiple Imputation in Stata series. Untuk daftar topik yang tercakup dalam seri ini, lihat Pendahuluan. Bagian ini akan berbicara tentang rincian proses imputasi. Pastikan Anda telah membaca setidaknya bagian sebelumnya, Creating Imputation Models. Jadi Anda memiliki rasa masalah apa yang dapat mempengaruhi keabsahan hasil Anda. Contoh Data Untuk mengilustrasikan prosesnya, gunakan juga kumpulan data buatan. Tidak seperti di bagian contoh, kumpulan data ini dirancang untuk memiliki kemiripan dengan data dunia nyata. Balapan wanita (biner) (kategoris, tiga nilai) urban (biner) edu (diurutkan kategoris, empat nilai) exp (kontinyu) upah (kontinyu) tidak ada. Setiap nilai dari semua variabel kecuali perempuan memiliki 10 kemungkinan kehilangan sama sekali secara acak, tapi tentu saja di dunia nyata kita tidak akan tahu bahwa itu adalah MCAR sebelumnya. Dengan demikian, kami akan memeriksa apakah itu MCAR atau MAR (MNAR tidak dapat diperiksa dengan melihat data yang diobservasi) dengan menggunakan prosedur yang diuraikan dalam Memutuskan untuk Mengidentifikasi: nomina unab: unab missvars: jumlah tiriskan upah di kota, gen (miss) foreach var of Lokal missvars covars lokal: daftar numvars - var display newline (3) quotlogit missingness of var on covarsquot logit missvar covars foreach nvar of covars lokal tampilkan newline (3) quotttest nvar oleh missingness varquot ttest nvar, oleh (missvar) Lihat log File untuk hasil Tujuan kami adalah untuk menurunkan upah pada jenis kelamin, ras, tingkat pendidikan, dan pengalaman. Untuk melihat jawaban quotrightquot, buka file do yang membuat kumpulan data dan periksa perintah gen yang mendefinisikan upah. Kode lengkap untuk proses imputasi dapat ditemukan pada file do berikut: Proses imputasi menghasilkan banyak output. Nah, menyoroti halaman ini, file log lengkap termasuk grafik terkait dapat ditemukan di sini: Setiap bagian artikel ini akan memiliki tautan ke bagian log yang bersangkutan. Klik quotbackquot di browser Anda untuk kembali ke halaman ini. Menyiapkan Langkah pertama dalam menggunakan perintah mi adalah dengan menetapkan data Anda. Ini agak mirip dengan svyset. Tsset Atau xtset Perintah mi set memberitahu Stata bagaimana seharusnya menyimpan imputasi tambahan yang akan Anda buat. Sebaiknya gunakan format lebar, karena sedikit lebih cepat. Di sisi lain, mlong menggunakan sedikit memori kurang. Agar Stata menggunakan struktur data yang luas, ketik: Agar Stata menggunakan struktur data mlong (marginal long), ketik: Terminologi luas vs. panjang dipinjam dari bentuk kembali dan strukturnya serupa. Namun, keduanya tidak setara dan Anda tidak akan pernah menggunakan reshape untuk mengubah struktur data yang digunakan oleh mi. Sebagai gantinya, ketik mi convert wide atau mi convert mlong (tambahkan, jelas apakah data belum disimpan sejak perubahan terakhir). Sebagian besar waktu Anda tidak perlu khawatir tentang bagaimana imputasi disimpan: perintah mi mengetahui secara otomatis bagaimana menerapkan apapun yang Anda lakukan pada setiap imputasi. Tapi jika Anda perlu memanipulasi data dengan cara yang tidak bisa saya lakukan untuk Anda, Anda harus mempelajari keseluruhan struktur yang Anda gunakan. Kamu juga harus sangat berhati-hati. Jika Anda tertarik pada hal-hal seperti itu (termasuk format flong dan flongsep yang jarang digunakan) jalankan file ini dan baca komentar yang dikandungnya saat memeriksa peramban data untuk melihat seperti apa data dalam setiap form. Mendaftarkan Variabel Perintah mi mengenali tiga jenis variabel: Variabel yang diimpikan adalah variabel yang mi impute atau telah diperhitungkan. Variabel reguler adalah variabel yang tidak boleh diimplikasikan, baik dengan pilihan atau karena nilainya tidak hilang. Variabel pasif adalah variabel yang benar-benar ditentukan oleh variabel lain. Misalnya, upah log ditentukan oleh upah, atau indikator obesitas mungkin ditentukan oleh fungsi berat dan tinggi badan. Interaksi istilah juga variabel pasif, meskipun jika Anda menggunakan sintaks interaksi Statas Anda wont harus menyatakan mereka seperti itu. Variabel pasif sering bermasalah dengan contoh transformasi. Non linieritas Dan interaksi menunjukkan bagaimana menggunakannya secara tidak tepat dapat menyebabkan perkiraan yang bias. Jika variabel pasif ditentukan oleh variabel biasa, maka variabel tersebut dapat diperlakukan sebagai variabel biasa karena tidak ada imputasi yang diperlukan. Variabel pasif hanya harus diperlakukan sedemikian rupa jika bergantung pada variabel yang diperhitungkan. Mendaftarkan variabel memberitahu Stata jenis variabel apa adanya. Variabel yang harus diinterogasi harus selalu terdaftar: register mil berimplikasi pada varlist dimana varlist harus diganti dengan daftar variabel aktual yang akan dihitung. Variabel reguler seringkali tidak perlu didaftarkan, namun merupakan ide bagus: mi mendaftar varlist biasa Variabel pasif harus didaftarkan: mi register passive varlist Namun, variabel pasif lebih sering dibuat setelah diimplikasikan. Lakukan dengan mi pasif dan mereka akan terdaftar sebagai pasif secara otomatis. Dalam contoh data kami, semua variabel kecuali wanita perlu diperhitungkan. Perintah register mi yang sesuai adalah: register mi dihitung ras-upah (Perhatikan bahwa Anda tidak dapat menggunakan daftar varlist Anda meskipun Anda harus menyiratkan semua variabel Anda, karena itu akan mencakup variabel sistem yang ditambahkan oleh mi set untuk melacak struktur imputasi .) Mendaftarkan wanita sebagai reguler adalah pilihan, tapi ada baiknya: mi mendaftarkan wanita biasa Memeriksa Model Imputasi Berdasarkan jenis variabel, metode imputasi yang jelas adalah: ras (kategoris, tiga nilai): mlogit urban (binary): Logit edu (diurutkan kategoris, empat nilai): ologit exp (kontinyu): regresi upah (kontinu): regresi wanita tidak perlu diperhitungkan, namun harus disertakan dalam model imputasi baik karena berada dalam model analisis dan karena Mungkin relevan Sebelum mulai berimplikasi, kita akan memeriksa masing-masing model imputasi. Selalu jalankan masing-masing model imputasi Anda secara terpisah, di luar konteks impute chute, untuk melihat apakah mereka bertemu dan (sejauh mungkin) memverifikasi bahwa mereka ditentukan dengan benar. Kode untuk menjalankan masing-masing model ini adalah: mlogit race i.urban exp wage i.edu i.female logit urban i.race exp wage i.edu i.female ologit edu i.urban i.race exp wage i.female regress exp I.urban i.race upah i.edu i.female regres upah i.urban i.race exp i.edu i.female Perhatikan bahwa ketika variabel kategoris (dipesan atau tidak) muncul sebagai kovariat i. Memperluas mereka ke dalam set variabel indikator. Serta lihat nanti, output dari perintah impute mil impute mencakup perintah untuk model individual yang dijalankannya. Dengan demikian, pintasan yang berguna, terutama jika Anda memiliki banyak variabel untuk diimplikasikan, adalah menyiapkan perintah merantai mi Anda dengan opsi dryrun untuk mencegahnya melakukan penyimpangan aktual, jalankan, lalu salin perintah dari keluaran ke File do anda untuk pengujian Masalah Konvergensi Hal pertama yang harus diperhatikan adalah bahwa semua model ini berjalan dengan sukses. Model kompleks seperti mlogit mungkin gagal untuk bertemu jika Anda memiliki sejumlah besar variabel kategoris, karena itu seringkali mengarah ke ukuran sel kecil. Untuk menentukan penyebab masalah, hapus sebagian besar variabel, pastikan model bekerja sesuai dengan yang tersisa, lalu tambahkan kembali variabel satu per satu atau dalam kelompok kecil sampai berhenti bekerja. Dengan beberapa eksperimen Anda harus dapat mengidentifikasi variabel masalah atau kombinasi variabel. Pada saat itu Anda harus memutuskan apakah Anda dapat menggabungkan kategori atau variabel drop atau membuat perubahan lain untuk menciptakan model yang sesuai. Prediksi Prefek Prediksi sempurna adalah masalah lain yang harus diperhatikan. Proses imputasi tidak bisa hanya menjatuhkan pengamatan yang diprediksi dengan sempurna seperti logit. Anda bisa menjatuhkannya sebelum menyiratkan, tapi sepertinya bisa mengalahkan tujuan beberapa imputasi. Alternatifnya adalah menambahkan augment (atau hanya aug) pilihan ke metode yang terpengaruh. Ini memberitahu mi untuk melakukan chained menggunakan pendekatan regressionquot quotaugmented, yang menambahkan pengamatan palsu dengan bobot yang sangat rendah sedemikian rupa sehingga efeknya tidak dapat diabaikan pada hasilnya namun mencegah prediksi yang sempurna. Untuk rinciannya lihat bagiannya. Isu prediksi sempurna selama imputasi dataquot kategoris dalam dokumentasi MI Stata. Memeriksa Misspecification Anda juga harus mencoba untuk mengevaluasi apakah model ditentukan dengan benar. Diskusi lengkap tentang bagaimana menentukan apakah model regresi ditentukan dengan benar atau tidak jauh melampaui cakupan artikel ini, namun gunakan alat apa pun yang menurut Anda sesuai. Berikut adalah beberapa contohnya: Residual vs. Fitted Value Plots Untuk variabel kontinyu, plot nilai residual vs pas (mudah dilakukan dengan rvfplot) dapat berguna. Beberapa contoh menggunakannya untuk mendeteksi masalah. Pertimbangkan plot untuk pengalaman: regres exp i.urban i.race upah i.edu i.female rvfplot Perhatikan bagaimana sejumlah titik dikelompokkan sepanjang garis di kiri bawah, dan tidak ada poin di bawahnya: Ini mencerminkan kendala bahwa Pengalaman tidak boleh kurang dari nol, yang berarti bahwa nilai yang dipasang harus selalu lebih besar dari atau sama dengan residu, atau alternatifnya bahwa residu harus lebih besar dari atau sama dengan nilai pas yang negatif. (Jika grafik memiliki skala yang sama pada kedua sumbu, garis kendala akan menjadi garis 45 derajat.) Jika semua titik di bawah garis yang sama dan bukan di atasnya, ini akan memberi tahu Anda bahwa ada batas atas pada variabel Bukan batas bawah. Pencegatan y dari garis kendala memberi tahu Anda batasan dalam kedua kasus tersebut. Anda juga bisa memiliki kedua ikatan bawah dan batas atas, meletakkan semua titik di sebuah band di antara keduanya. Model quotobviousquot, regresi. Tidak tepat untuk pengalaman karena tidak menerapkan batasan ini. Ini juga tidak pantas untuk upah karena alasan yang sama. Alternatifnya termasuk truncreg, ll (0) dan pmm (well use pmm). Menambahkan Interaksi Dalam contoh ini, tampaknya masuk akal bahwa hubungan antar variabel dapat bervariasi antara kelompok ras, jenis kelamin, dan kelompok urban. Jadi salah satu cara untuk mengecek misspecification adalah menambahkan istilah interaksi ke model dan melihat apakah kinerjanya penting. Sebagai contoh, bandingkan dengan model yang jelas: regres exp i.race upah i.edu i.urban i.female dengan satu yang mencakup interaksi: regeks exp (i.race i.urban i.female) (c.wage i.edu ) Berjalan dengan baik perbandingan yang sama untuk model variabel lainnya. Ini menciptakan banyak output, jadi lihat file log untuk hasil. Interaksi antara variabel perempuan dan variabel lainnya signifikan pada model untuk exp. upah. Edu. Dan perkotaan. Ada beberapa interaksi yang signifikan antara ras atau perkotaan dan variabel lainnya, namun tidak sebanyak (dan ingat bahwa dengan banyaknya koefisien ini, diharapkan ada beberapa positif palsu yang menggunakan tingkat signifikansi 0,05). Nah dengan demikian berarti pria dan wanita secara terpisah. Ini adalah pilihan yang sangat bagus untuk kumpulan data ini karena perempuan tidak pernah hilang. Jika ya, menikah harus menjatuhkan pengamatan yang hilang karena tidak dapat ditempatkan dalam satu kelompok atau kelompok lainnya. Dalam perintah imputasi ini berarti menambahkan opsi oleh (wanita). Saat menguji model, itu berarti memulai perintah dengan awalan wanita: awalan (dan hapus wanita dari daftar kovariat). Model imputasi yang ditingkatkan demikian: bysort perempuan: reg exp i.urban i.race upah i.edu oleh perempuan: logit urban exp i.race upah i.edu oleh perempuan: mlogit race exp i.urban wage i.edu oleh perempuan : Reg wage exp i.urban i.race i.edu oleh perempuan: ologit edu exp i.urban i.race upah pmm sendiri tidak bisa dijalankan diluar konteks imputasi, tapi karena berdasarkan regresi Anda bisa menggunakan regresi reguler untuk mengujinya . Model ini harus diuji lagi, tapi juga menghilangkan proses itu. Sintaks dasar untuk mi impute chained adalah: mi impute chained (method1) varlist1 (method2) varlist2. Regvars Setiap metode menentukan metode yang akan digunakan untuk menyiratkan varlist berikut Kemungkinan metode adalah kemunduran. Pmm. Truncreg. Intreg. Logit Ologit Mlogit Poisson. Dan nbreg. Regvars adalah daftar variabel biasa untuk digunakan sebagai kovariat dalam model imputasi tapi tidak diperhitungkan (mungkin tidak ada). Pilihan dasarnya adalah: tambahkan (N) rseed (R) savetrace (tracefile replace) N adalah jumlah imputasi yang akan ditambahkan ke kumpulan data. R adalah benih yang akan digunakan untuk generator bilangan acak8212 jika Anda tidak mengaturnya, Anda akan mengalami imputasi yang berbeda setiap kali perintah dijalankan. Tracefile adalah dataset di mana mi impute dirantai akan menyimpan informasi tentang proses imputasi. Nah gunakan dataset ini untuk memeriksa konvergensi. Pilihan yang relevan dengan metode tertentu sesuai dengan metode, di dalam tanda kurung tapi mengikuti koma (mis. (Mlogit, aug)). Pilihan yang relevan dengan proses imputasi secara keseluruhan (seperti pada (wanita)) pergi pada akhirnya, setelah koma. Sebagai contoh, perintahnya adalah: mi impute dirantai (logit) urban (mlogit) race (ologit) edu (pmm) exp wage, tambahkan (5) rseed (4409) oleh (perempuan) Perhatikan bahwa ini tidak termasuk savetrace () pilihan. Pada tulisan ini, dengan () dan savetrace () tidak dapat digunakan pada saat bersamaan, mungkin karena akan memerlukan satu file jejak untuk masing-masing kelompok. Stata menyadari masalah ini dan kami berharap ini akan segera berubah. Untuk keperluan artikel ini, hapus juga opsi () ketika tiba saatnya untuk menggambarkan penggunaan file jejak. Jika masalah ini muncul dalam penelitian Anda, bicaralah dengan kami tentang pekerjaan-sekitar. Memilih Jumlah Imputasi Ada beberapa ketidaksepakatan di antara pihak berwenang tentang berapa banyak imputasi yang cukup. Ada yang bilang 3-10 di hampir semua keadaan, dokumentasi Stata setidaknya menunjukkan 20, sementara White, Royston, dan Wood berpendapat bahwa jumlah imputasi harus kira-kira sama dengan persentase kasus dengan nilai yang hilang. Namun, kita tidak mengetahui adanya argumen bahwa peningkatan jumlah imputasi yang pernah menyebabkan masalah (hanya saja manfaat marjinal dari imputasi lain secara asimtotik mendekati nol). Meningkatnya jumlah imputasi dalam analisis Anda pada dasarnya tidak ada pekerjaan dari pihak Anda. Ganti saja nomor di add () pilihan untuk sesuatu yang lebih besar. Di sisi lain, bisa jadi banyak pekerjaan untuk komputer. Beberapa imputasi telah mengenalkan banyak peneliti ke dunia pekerjaan yang membutuhkan waktu berjam-jam atau hari untuk dijalankan. Anda umumnya dapat berasumsi bahwa jumlah waktu yang dibutuhkan akan proporsional dengan jumlah imputasi yang digunakan (misalnya jika file membutuhkan waktu dua jam untuk berjalan dengan lima imputasi, mungkin dibutuhkan waktu sekitar empat jam untuk berjalan dengan sepuluh imputasi). Jadi, inilah saran kami: Mulailah dengan lima imputasi (akhir rendah dari apa yang dianggap sah secara luas). Bekerja pada proyek penelitian Anda sampai Anda cukup yakin bahwa Anda memiliki analisis dalam bentuk akhirnya. Pastikan untuk melakukan semuanya dengan melakukan file sehingga Anda dapat menjalankannya lagi sesuka hati. Perhatikan berapa lama prosesnya berlangsung, mulai dari imputasi sampai analisis akhir. Pertimbangkan berapa banyak waktu yang tersedia dan putuskan berapa banyak imputasi yang bisa Anda jalankan, dengan menggunakan aturan praktis yang dibutuhkan waktu sebanding dengan jumlah imputasi. Jika memungkinkan, buat jumlah imputasi kira-kira sama dengan persentase kasus dengan data yang hilang (perkiraan akhir yang tinggi dari apa yang dibutuhkan). Biarkan waktu untuk pulih jika ada yang salah, seperti biasanya. Tingkatkan jumlah imputasi dalam file do anda dan mulailah. Lakukan sesuatu yang lain saat file berjalan, seperti menulis makalah Anda. Menambahkan imputasi seharusnya tidak mengubah hasil Anda secara signifikan dan dalam hal yang tidak mungkin terjadi, anggap diri Anda beruntung telah menemukannya sebelum dipublikasikan. Mempercepat Proses Imputasi Beberapa imputasi telah mengenalkan banyak peneliti ke dunia pekerjaan yang membutuhkan waktu berjam-jam, hari, atau bahkan berminggu-minggu untuk berjalan. Biasanya yang tidak layak menghabiskan waktu Anda untuk membuat kode Stata berjalan lebih cepat, namun beberapa imputasi bisa menjadi pengecualian. Gunakan komputer tercepat yang tersedia untuk Anda. Bagi anggota SSCC yang berarti belajar menjalankan pekerjaan di Linstat, cluster komputasi SSCC Linux. Linux tidak sesulit yang mungkin Anda pikirkan. Menggunakan Linstat memiliki instruksi. Beberapa imputasi melibatkan lebih banyak pembacaan dan penulisan ke disk daripada kebanyakan perintah Stata. Terkadang ini termasuk menulis file sementara di direktori kerja saat ini. Gunakan ruang disk tercepat yang tersedia untuk Anda, baik untuk kumpulan data dan direktori kerja Anda. Secara umum ruang disk lokal akan lebih cepat dari ruang disk jaringan, dan pada ramdisk Linstat (sebuah quotdirectoryquot yang sebenarnya tersimpan dalam RAM) akan lebih cepat daripada ruang disk lokal. Di sisi lain, Anda tidak ingin menyimpan data set secara permanen di manapun kecuali ruang disk jaringan. Jadi pertimbangkan untuk melakukan file Anda melakukan sesuatu seperti berikut: Windows (Winstat atau PC Anda sendiri) Ini berlaku saat Anda menggunakan data yang diperhitungkan juga. Jika kumpulan data Anda cukup besar sehingga bekerja dengan itu setelah imputasi lambat, prosedur di atas dapat membantu. Memeriksa Konvergensi MICE adalah proses berulang. Dalam setiap iterasi, mi impute dirantai pertama memperkirakan model imputasi, dengan menggunakan data yang diamati dan data yang direputasi dari iterasi sebelumnya. Ini kemudian menarik nilai-nilai baru yang direputasi dari distribusi yang dihasilkan. Perhatikan bahwa sebagai hasilnya, setiap iterasi memiliki beberapa autokorelasi dengan imputasi sebelumnya. Iterasi pertama harus merupakan kasus khusus: di dalamnya, mi impute dirantai pertama memperkirakan model imputasi untuk variabel dengan nilai yang paling sedikit hilang berdasarkan hanya pada data yang diamati dan menarik nilai yang diperhitungkan untuk variabel tersebut. Kemudian mengestimasi model untuk variabel dengan nilai yang paling sedikit yang hilang sebelumnya, dengan menggunakan nilai yang teramati dan nilai imputasi dari variabel pertama, dan hasilnya sama untuk variabel lainnya. Jadi iterasi pertama sering kali tidak lazim, dan karena iterasi berkorelasi, hal itu juga bisa membuat iterasi berikutnya juga tidak biasa. Untuk menghindarinya, mi impute dirantai secara default melewati sepuluh iterasi untuk setiap data yang dihitung yang Anda minta, hanya menyimpan hasil iterasi kesepuluh. Sembilan iterasi pertama disebut burn-in period. Normally this is plenty of time for the effects of the first iteration to become insignificant and for the process to converge to a stationary state. However, you should check for convergence and increase the number of iterations if necessary to ensure it using the burnin() option. To do so, examine the trace file saved by mi impute chained. It contains the mean and standard deviation of each imputed variable in each iteration. These will vary randomly, but they should not show any trend. An easy way to check is with tsline. but it requires reshaping the data first. Our preferred imputation model uses by(). so it cannot save a trace file. Thus well remove by() for the moment. Well also increase the burnin() option to 100 so its easier to see what a stable trace looks like. Well then use reshape and tsline to check for convergence: preserve mi impute chained (logit) urban (mlogit) race (ologit) edu (pmm) exp wage female, add(5) rseed(88) savetrace(extrace, replace) burnin(100) use extrace, replace reshape wide mean sd, i(iter) j(m) tsset iter tsline expmean, title(quotMean of Imputed Values of Experiencequot) note(quotEach line is for one imputationquot) legend(off) graph export conv1.png, replace tsline expsd, title(quotStandard Deviation of Imputed Values of Experiencequot) note(quotEach line is for one imputationquot) legend(off) graph export conv2.png, replace restore The resulting graphs do not show any obvious problems: If you do see signs that the process may not have converged after the default ten iterations, increase the number of iterations performed before saving imputed values with the burnin() option. If convergence is never achieved this indicates a problem with the imputation model. Checking the Imputed Values After imputing, you should check to see if the imputed data resemble the observed data. Unfortunately theres no formal test to determine whats quotclose enough.quot Of course if the data are MAR but not MCAR, the imputed data should be systematically different from the observed data. Ironically, the fewer missing values you have to impute, the more variation youll see between the imputed data and the observed data (and between imputations). For binary and categorical variables, compare frequency tables. For continuous variables, comparing means and standard deviations is a good starting point, but you should look at the overall shape of the distribution as well. For that we suggest kernel density graphs or perhaps histograms. Look at each imputation separately rather than pooling all the imputed values so you can see if any one of them went wrong. The mi xeq: prefix tell Stata to apply the subsequent command to each imputation individually. It also applies to the original data, the quotzeroth imputation.quot Thus: mi xeq: tab race will give you six frequency tables: one for the original data, and one for each of the five imputations. However, we want to compare the observed data to just the imputed data, not the entire data set. This requires adding an if condition to the tab commands for the imputations, but not the observed data. Add a number or numlist to have mi xeq act on particular imputations: mi xeq 0: tab race mi xeq 15: tab race if missrace This creates frequency tables for the observed values of race and then the imputed values in all five imputations. If you have a significant number of variables to examine you can easily loop over them: foreach var of varlist urban race edu mi xeq 0: tab var mi xeq 15: tab var if missvar For results see the log file . Running summary statistics on continuous variables follows the same process, but creating kernel density graphs adds a complication: you need to either save the graphs or give yourself a chance to look at them. mi xeq: can carry out multiple commands for each imputation: just place them all in one line with a semicolon ( ) at the end of each. (This will not work if youve changed the general end-of-command delimiter to a semicolon.) The sleep command tells Stata to pause for a specified period, measured in milliseconds. mi xeq 0: kdensity wage sleep 1000 mi xeq 15: kdensity wage if missvar sleep 1000 Again, this can all be automated: foreach var of varlist wage exp mi xeq 0: sum var mi xeq 15: sum var if missvar mi xeq 0: kdensity var sleep 1000 mi xeq 15: kdensity var if missvar sleep 1000 Saving the graphs turns out to be a bit trickier, because you need to give the graph from each imputation a different file name. Unfortunately you cannot access the imputation number within mi xeq. However, you can do a forvalues loop over imputation numbers, then have mi xeq act on each of them: forval i15 mi xeq i: kdensity exp if missexp graph export expi.png, replace Integrating this with the previous version gives: foreach var of varlist wage exp mi xeq 0: sum var mi xeq 15: sum var if missvar mi xeq 0: kdensity var graph export chkvar0.png, replace forval i15 mi xeq i: kdensity var if missvar graph export chkvari.png, replace For results, see the log file . Its troublesome that in all imputations the mean of the imputed values of wage is higher than the mean of the observed values of wage. and the mean of the imputed values of exp is lower than the mean of the observed values of exp. We did not find evidence that the data is MAR but not MCAR, so wed expect the means of the imputed data to be clustered around the means of the observed data. There is no formal test to tell us definitively whether this is a problem or not. However, it should raise suspicions, and if the final results with these imputed data are different from the results of complete cases analysis, it raises the question of whether the difference is due to problems with the imputation model. Last Revised: 8232012
Forex-trade-copier-2% -cracker-barrel-cheddar-cheese
Forex-trading-usa