Kategorik Değişken Seçiminde Karar Verme Noktası


#1

Merhaba,

Kategorik değişkenleri, OneHot veya Dummies gibi methodlar ile numerik değişkenlere çeviriyorum. Sonrasında değişken azaltma yöntemleri uygulayarak modele etkisi yüksek olan değişkenleri seçmeye çalışıyorum.

Şöyle bir sorum var. Dummies uyguladığımız kategorik değişken içinde bulunan veri tipi kadar kendini yeniden oluşturduğunda, bunlar arasından kaç tanesi modele etki ediyorsa o değişkenin tamamı için etki ediyor diyebilirim?

Örneğin X değişkenim olsun ve X = [1, 2, 3, 4] şeklinde verilere sahip olsun.
Dummies uyguladıktan sonra X_1, X_2, X_3, X_4 gibi farklı değişkenler elde edeceğim.
Değişken azaltma ve eleme yöntemleri uyguladığımda bana X_1 ve X_2 'yi seçmem gerektiğini söylediği sonucuna vardığımı varsayalım bu durumda. Başlangıçtaki X değişkeni için ben modele etkisi var diyip seçmeli miyim? Yoksa tam tersi mi? Bunun için istatistiksel bir eşik değeri var mıdır? Yoksa bir tane bile etki eden olsa o değişken için etki ediyor seçmeli denilebilir mi?


#2

Oncelikle diyelim X1,X2,…,X10 gibi kodlanmis bir degiskenden sadece X1 ve X2 etken diye olcumluyorsan digerleri birlestirmek suretiyle etken hale getirilir. Ornegin X3_5 gibi X3,X4,X5 in herhangi birinin 1 oldugu durumda 1 olan tek degisken olur. Bu islemler Weight of Evidence ve Information Value gibi olceklere bakarak yapilir.

Ne tur bir algoritma kullandigini yazmamissin. Ancak istatistiksel degisken analizi gerektirmeyen bir uygulama ise ve sadece prediction performansi onemliyse artik degisken atma yontemleri pek kullanilmiyor. Onun yerine regularizasyon kullaniliyor.


#3

Merhaba,

Feature Extraction yöntemlerini kullandığını varsayarsak (ör. olarak PCA) ;

var = pca.explained_variance_ratio_

varyans en az %60 değerini destekleyecek şekilde seçimini yapabilirsin.

Murat


#4

Merhaba, cevabınız için teşekkür ederim. Elimde 40 feature’ı bulunan bir hastalık verisi var ve bunun üzerinde çalışıyorum. Sınıflandırma yaparak tahminleme modeli oluşturmaktayım. Soru sorarken verdiğim örnek bununla alaka idi.

Bu bilgiler ışığında bahsettiğiniz yöntemlerden hangisini kullanmak daha sağlıklı olur?