Caner Erden

Caner Erden

PhD in Industrial Engineering

Kategorik Veriler ile Çoklu Regresyon Analizi: Minitab Uygulaması

Basit lineer regresyon modellerinde bağımsız değişken(X) sadece nümerik verilerden oluşur. Eğer modelimizde birden fazla bağımsız değişken ve bağımsız değişkenlerin de kategorik değerlerden oluşması söz konusu ise modelimiz çoklu regresyon modeline döner. Kategorik veriler aralarında matematiksel işlemlerin yapılamadığı sadece büyüklük küçüklük(ordinal) ya da eşitlik, eşitsizlik(nominal) veri türüdür. Örneğin cinsiyet değişkeni, kategorik bir değişkendir ve 2 değer alabilir(Kadın ve Erkek). Kategorik değişkenin alabileceği değerleri yeniden kodlayarak Erkek kategorisine 0 Kadın kategorisine 1 yazmak gibi değişkeni kesikli bir hale çevirebiliriz. Burada kullandığımız değerler sayısal değerler olsa da verilen 1 ve 0 değerleri aritmetik açıdan bir anlam ifade etmez. Sadece bir referans değeri olarak kullanılır. Bu yazıda, regresyon analizinde birden fazla bağımsız değişkenin ve kategorik değişkenlerin modelde olması durumunda nasıl regresyon analizi yapabileceğimiz konusunu inceleyeceğiz.

Öncelikle ele alacağımız veri setine bakalım. Veri setinde 30 çalışana ait bilgiler bulunmakta. 5 bağımsız değişkenin(Maaş, Cinsiyet, Çalışma Şekli, Mezuniyet, Tecrübe) 1 bağımlı değişkeni(Katkı Düzeyi) etkilediği düşünülmektedir. Veri setini Minitab çalışma dosyasını şu adresten indirebilirsiniz.

Cinsiyet (0=Erkek, 1=Kadın), Calisma_sekli (1=Asistan, 2=Yarı Zaman, 3=Tam Zamanlı), Mezuniyet (1=Endüstri Müh, 2=Bilgisayar Müh, 3=Makine Müh)

MaaşCinsiyetÇalışma ŞekliMezuniyetTecrübeKatkı Düzeyi
1380003101.47
2580012284.38
380001393.65
4300011101.64
5500011302.54
6490011312.06
7450003144.76
8420011203.05
9590003332.73
10470012103.14
11340001134.42
12530002302.36
13350011114.29
14420001223.81
15420001223.84
16510003273.15
17510012185.07
18400001232.73
19480012113.56
20340011173.54
21460012122.71
22450001265.18
23500011322.66
24610003333.7
25620013123.75
26510001383.96
27590003302.88
28650012353.37
29490001302.84
30370011195.12
Çalışanlara ilişkin veri seti

İkili değişkenlerin(Binary-Indicator) regresyona dahil edilmesi için sayısal olarak 0-1 şekline çevrilmesi yeterlidir. Yani cinsiyet değişkeni modele direkt eklenebilir. Modelimizi oluşturduktan sonra ikili değişkenin ağırlık katsayısı pozitif ise ağırlık katsayısı tahmin edilen y değişkenine eklenir, eğer negatif ise ağırlık katsayısı tahmin edilen y değişkeninden çıkarılır. R^2 değerinde de ikili değişkenin ağırlık değeri diğer değişkenler ile aynı şekilde yorumlanır.

Şimdi bu işlemi Minitab’de nasıl yapacağımıza bakalım. Verileri Minitab’de açtıktan sonra Stat sekmesinden Regression>>Regression Analysis i tıklayıp aşağıdaki gibi verileri girilir.

Stat>>Regression>>Regression Analysis seçeneği

Regression Equation
Katkı Düzeyi = 3,435 – 0,000136 Maaş – 0,101 Cinsiyet + 0,2153 Tecrübe 

İkili değişkenin yorumları regresyon analizinde yapılan yorumlar ile aynıdır. Regresyon denklemini ikili değişken için yorumlayalım. Diğer tüm bağımsız değişkenler sabit tutulduğunda eğer çalışan kadın ise (cinsiyet=1) çalışan katkısının 0,10 oranında düştüğü sonucuna varırız.

Katsayılar tablosu

Ancak katsayılar tablosuna bakıldığında sadece ‘Tecrübe’ değişkeninin anlamlı bir katkı sunduğu yorumu yapılır.

Ancak Çalışma Şekli ve Mezuniyet değişkenleri ikiden fazla değer içerdiğinden dolayı direkt modele dahil olamazlar. Bu değişkenleri modele dahil edebilmek için ikili değişkenler halinde yazmamız gerekir. Genel olarak k adet değerden oluşan değişkeni k adet yeni değişken halinde ikili olarak yazabiliriz. Bu ikili hale getirme işlemine kukla kodlama ya da dummycoding ya da one-hot encoding adı verilir. 3 değerli bir değişken olan mezuniyet değişkeni tablodaki gibi kukla değişkenlere ayrılabilir.

BölümEndüstriBilgisayarMakine
Endüstri1100
Bilgisayar2010
Makine3001
Mezuniyet Değişkeninin Kukla Kodlaması(Dummy Coding)

Minitab’de Calc>>MakeIndicatorVariables komutu ile kukla kodlama işlemi gerçekleştirilebilir. Bu komut penceresinde öncelikle hangi değişken için kukla değişkenler oluşturacağımızı gösteririz.

Minitab ile Kukla Kodlama

Minitab bizim için değişken içerisindeki tüm farklı değerleri getirir. İstediğimiz sütun isimlerini yazdıktan sonra pencereye tamam deyip çalışıyoruz. Şekilde Mezuniyet için yapılan kukla değişken işlemini gösterilmektedir.

Mezuniyet Değişkeni Minitab Kukla Kodlama

Şimdi aynı işlemi Çalışma Şekli için yapalım. Burada isimlendirme calisma_sekli_Asistan şeklinde yapılırsa iyi olacaktır. Böylece kategorinin hangi değişkene ait olduğunu da göstermiş oluruz.

Çalışma Şekli Değişkeni Minitab Kukla Kodlama

Kukla Kodlamalardan sonra veri setimiz regresyon analizine uygun hale gelmiş oldu. Kukla değişkenlerde 3 farklı değer olduğu için regresyon analizinde bu değişkenlerden sadece 2’si alınacaktır. Çünkü 3’ü birlikte alındığında negatif korelasyon çok yüksek çıkacaktır.

Regresyon Analizine Hazır Veri Seti

Regresyon Analizinde Kategorik Değişkenlerin Kullanım Alanları

Kategorik değişkenleri 2 şekilde kullanabiliriz:

  1. Referans kategorik değişken: Modele eklemeden kategorik değişkendeki farklı değer sayısında model oluşturabiliriz.
  2. Regresyon elemanı olarak kategorik değişken: Kategorik değişkeni regresyon bağımsız değişkeni olarak modele ekleyebiliriz.

Mezuniyet değişkendeki ayrıma göre regresyon modelleri kurmak istersek şekildeki gibi bir yapı kurmamız gerekir.

Mezuniyet Değişkeni Adedince Regresyon Modeli Kurmak

Regression Equation
Mezuniyet 
1  Katkı Düzeyi  =  2,372 + 0,000191 Maaş – 0,228 Cinsiyet + 0,1998 Tecrübe 
2  Katkı Düzeyi  =  2,129 + 0,000191 Maaş – 0,228 Cinsiyet + 0,1998 Tecrübe 
3  Katkı Düzeyi  =  1,52 + 0,000191 Maaş – 0,228 Cinsiyet + 0,1998 Tecrübe 

Görüldüğü gibi mezuniyet 1-Endüstri Müh, 2-Bilgisayar Müh, 3-Makine Müh. İçin 3 farklı regresyon analizi gerçekleştirmiş olduk. Buradaki yorum, katkı düzeyine katkının diğer katsayılar aynı olduğu için Mezuniyet 1’deki katkının(2,372)  diğerlerinden yüksek olduğudur.

Endüstri Mühendisliğinin en fazla katkıya sahip olduğunu görebilirsiniz…

İşletme sahiplerine duyuru 🙂

Regresyon Elemanı Olarak Kategorik Değişken

Kukla kodlaması yapılan bir kategorik değişkeni regresyon modeline dahil edebiliriz. Dikkat etmemiz gereken nokta eğer 3 farklı değerimiz varsa bunlardan 2 tanesini regresyon modeline koymamız gerektiğidir. Ancak bu durumda ters korelasyondan kurtulabiliriz. Hatırlanacağı gibi birbirleri arasında yüksek korelasyon(negatif veya pozitif) olan bağımsız değişkenleri regresyon analizinden çıkarmamız gerekiyordu.

Örneğin Mezuniyet değişkenini şekildeki gibi modele ekleyelim. Buraya eklenmeyen kategori yani Makine Mühendisliği değeri karşılaştırma yapmak için kullanılır.

Regresyon denkleminden görülebileceği gibi Endüstri Mühendisliği mezuniyetinin katkısı 0,851 olarak bulundu.

Endüstri Mühendisliği P-Değeri α=0,05’ten küçük olduğu için anlamlı kabul edilir. Buradaki yorum, Endüstri Mühendisliği Mezunlarının Makine Mühendisliği Mezunlarına göre katkı düzeyinin 0,851 daha fazla olduğu şeklinde yapılır.

Modele Alınacak Kategori Değeri

Eğer 2’den fazla sayıda değerden oluşan bir kategorik değişkenimiz varsa istediğimiz değeri karşılaştırma değeri olarak alabiliriz. Örneğin Endüstri Mühendisliğini karşılaştırma değeri olarak alırsak modele eklememiz gereken 2 değer Bilgisayar Mühendisliği ve Makine Mühendisliği değerleri olacaktır.

Regresyonun Performans Ölçüleri

R^2  : Regresyon modellerinde sürekli dikkat etmemiz gereken değer determinasyon katsayısıdır. Bu değer bağımsız değişkenlerin bağımlı değişkenini ne kadar açıkladığını gösterir. Veri setine yeni gözlem değerleri veya yeni değişkenler eklemek bu değeri ya yükseltir ya da aynı seviyede tutar.

R_adj^2: Regresyon modelinde birden fazla değişken olduğunda ve hangilerinin modele dahil edilmesi gerektiğine karar vermede kullanılır. Bu değer parametre sayısını ve örneklem sayısını dikkate alarak R^2 üzerinde ayarlama yapar. Modele yeni parametre ekledikçe R^2 değeri yükselir ancak modelin karmaşıklığının azaltılması için modelin en az değişken ile açıklanması beklenir. Bu nedenle modele yeni değişkenler eklendiğinde gereksiz eklenen değişkenleri cezalandıran R_adj^2 kullanılması gereklidir.

En İyi Regresyon Modeli (Best Subsets Regression)

Regresyona alınacak değişkenlerin belirlenmesi için deneme yanılmadan başka bir takım sistematik yaklaşımlar kullanılabilir. Bunlardan birisi en iyi alt küme regresyonu(best subsets regression)’dır. Bu yöntemde kullanılan seçim kriterleri: R^2, R_adj^2  C_p değerleridir.

C_p istatistiği: Modele eklenecek değişkenin belirlenmesinde kullanılır. Bu yöntemde tüm bağımsız değişkenler birlikte regresyon modeli çalıştırılır.

Biz, R_adj^2 değerini maksimize eden ve C_p değerini minimize eden modeli kurmaya çalışacağız. Ayrıca R^2 değerini de sürekli kontrol edeceğiz.

Amaç

Minitab’de Best Subsets Regression

Stat >> Regression >> Regression >> Best Subsets komutundan sonra aşağıdaki gibi bilgiler doldurulur. Örneğin 3 değişken için en iyi modeli bulmaya çalışalım. Minitab önce 1’li, sonra 2’li en son da 3’lü regresyonları kombinasyonları ile birlikte deneyerek en iyi modeli bulacak.

Yorumlar

En iyi model olarak bulunan değişkenler yoruma bağlıdır. Örneğin çalışan kişi eğer bazı değişkenleri mutlaka modelde görmek istiyor ise model değişik kurulabilir. Ya da çalışan kişi eğer 4 değişken olmasını istiyorsa ona göre modeldeki değişkenler değişecektir. Ancak biz bulguları yorumlayalım;

  1. En yüksek R_adj^2 değeri 44,6 ile 3. modelde yani Tecrübe, Endüstri Mühendisliği ve Bilgisayar mühendisliği mezuniyetinde olduğu söylenebilir. Bu modelde kazanım en fazladır.
  2. En düşük Cp değeri ise 2’li modelde tecrübe ve Endüstri Mühendisliği mezuniyetinde olmuş. Bu model de kullanılabilir.
  3. Eğer en yüksek R_adj^2, en düşük standart sapma(S) ve Cp değeri 1 modeli gösteriyorsa o modelin tercih edilmesi gereklidir.

Daha detaylı bilgi için aşağıdaki linkleri inceleyebilirsiniz.

Best Subsets:

https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-statistics/regression/how-to/best-subsets/before-you-start/overview

Lojistik Regresyon:

https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-statistics/regression/how-to/binary-logistic-regression/before-you-start/overview

Kaynaklar

  • “Multiple Regression with Categorical Variables”. Erişim 30 Mart 2020. http://psychstat3.missouristate.edu/Documents/MultiBook3/Mlt07.htm.
  • Cintas, Pedro Grima, Lluis Marco-Almagro, ve Javier Tort-Martorell Llabres. Industrial statistics with Minitab. Wiley Online Library, 2012.
  • Erhardt, Erik B., Edward J. Bedrick, ve Ronald M. Schrader. “Advanced Data Analysis-Lecture Notes”, 2016.
  • Karagöz, Murat. İstatistik Yöntemleri. 9. bs. Ekin Kitabevi Yayınları, 2015.
  • Khan, Rehman M. Problem solving and data analysis using minitab: A clear and easy guide to six sigma methodology. John Wiley & Sons, 2013.
  • Lesik, Sally A. Applied statistical inference with MINITAB®. CRC Press, 2018.
  • Newton, Isaac. Minitab cookbook. Packt Publishing Ltd, 2014.
  • “Support | Minitab”. Erişim 29 Mart 2020. https://www.minitab.com/en-us/support/.

DROP A COMMENT

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir