Caner Erden

Caner Erden

PhD in Industrial Engineering

Lojistik Regresyon: Minitab Uygulaması

Lojistik regresyon, çıktı değişkeninin kesikli değerler aldığı durumlarda geçerlidir. Daha genel anlamda söyleyecek olursak çıktı değişkenlerinin kategorik değerlerden oluştuğu problemler sınıflandırma problemleri olarak bilinir. Örneğin gelen e-postanın spam ya da spam değil, ya da kan değerlerinin hasta ya da hasta değil gibi çıktı değerlerine sahip olması gibi. Gelen mailin spam olup olmayacağının kararının verilmesi için bir sınıflandırıcı oluşturmak isteyelim. Eğer lineer regresyon kullanırsak belirli bir eşik değerinin üzerine 1 yani spam altına 0 yani spam değil diyecektik. Örneğin eşik değeri 0,4 olsaydı 0,41 çıkan değerlere spam 0,39 ve altında çıkan değerlere spam değil etiketi yapıştıracaktık. Ancak bu durumda olasılık değerleri 0 ile 1 arasında değiştiği için bu değerler arasındaki değerler için bir sınıflandırma sonucu bulamayacaktık. Bu nedenle basit regresyonun bu tip sınıflandırmalar için yeterli olmadığı sonucuna varırız. Lineer regresyonda çıktı değişkeni sınırlandırılmamıştır. Sonuç olarak sınıflandırma problemlerinde regresyon modeli olarak lojistik regresyon kurulmalıdır. Lojistik regresyondaki bağımsız değişkenler yani girdi değişkenleri sürekli veya kesikli veriler olabilir.

Lojistik regresyonda çıktı değişkeninin alacağı değerlere bakılarak ayrım yapılır. 3 çeşit lojistik regresyon vardır. Bunlar:

  1. İkili Lojistik Regresyon: Bağımlı değişkenler, 0 ya da 1 değerlerini alabilir. Spam-Spam değil, Hasta-Hasta değil, Hatalı-Hatalı değil gibi.
  2. Çoklu Lojistik Regresyon: İkiden fazla kategorinin olduğu durumlarda geçerlidir. Görüntü işleme sonucunun Kedi, Köpek, Kuş gibi kategorilerden oluşması gibi.
  3. Ordinal Lojistik Regresyon: Bağımlı değişken sıralı değerlerden oluşursa kullanılır. Kötü, Orta, İyi çıktıları gibi.

Lojistik regresyonda çıktı olarak sınıflara ait olma olasılıkları verilir. Bu nedenle sınıflandırıcı olarak isimlendirilmezler. Onun yerine lojistik regresyon, sınıflandırıcıların oluşturulmasında kullanılır. Bir sınıfa ait olma olasılığı aşağıdaki formülde olduğu gibi hesaplanır.

z değeri yani çıktı değişkeni için lineer regresyondaki denklem yazılırsa;

Buradaki denkleme Sigmoid fonksiyonu ya da lojistik fonksiyonu denir. Sürekli olarak aldığı değerleri 0 ile 1 arasında dönderir. Eğer çıktı değeri sonsuz değer alırsa sınıflandırma sonucu 1 değerini alacaktır. Eğer çıktı değeri – sonsuza gidecek olursa sınıflandırma sonucu  0 değerini alır.  Verinin hangi sınıfa dahil olduğunu belirleyebilmek için öncelikle bir eşik(threshold) değeri belirlenir. Belirlenen eşik değerine göre verinin sınıfına karar verilir. Örneğin SPAM ve ya değil örneğinde eşik değeri 0,5 olursa 0,5’ten küçük değerlere spam büyük değerlere spam değil denilebilir.

Odd ise bir olayın olma olasılığı ile olmama olasılığının bölünmesi ile elde edilir.

Örnek Çalışma

Örnekte Alabone ların kadın erkek olmasını birtakım ölçülerinden yola çıkarak modelleyelim. Veri seti şu adreste bulunabilir. Ya da Minitab’e hazır csv dosyası şuradan indirilebilir.

Örnek veri setini csv olarak minitab’de açmak için File>>Open dedikten sonra aşağıdaki ayarlamaları yapmamız gerekiyor.

Ardında verilerimiz hazır hale gelir.

Stat>> Regression >> Binary Logistic Regression>> Fit Binary Logistic Model seçeneği seçilir. Aşağıdaki şekilde gösterildiği gibi değişkenler belirlenir ve Tamam denir.

Results Menüsüne tıklanarak aşağıdaki gibi rapor dosyası oluşturulabilir.

Tamam deyip Minitab rapor ekranı açılır.

Referans olay olarak M yani erkek olması durumunu almışız.

Model Summary ve Goodness of Fit test tablosunda bizim kurduğumuz modelin bağımsız değişkenler tarafından ne kadar açıklandığını gösterir. Buradaki örnekte bu değerler kötü çıkmış ancak istatistik çalışmasına devam edelim.

Katsayılar tablosunda tüm bağımsız değişkenlerin aldığı katsayıları ve bunların anlamlılık düzeylerini görebiliriz. Bu örnekte örneğin Agirlik değişkeni -3,54 katsayısına sahip ve p-değeri de 0,082 olarak bulunmuş. P-değeri anlamlılık düzeyi 0,05’ten küçük olduğu için değişkenin istatistiksel olarak anlamlı olduğunu söyleyebiliriz. Agirlik değişkenindeki 1 birimlik değişim diğer bütün değişkenler sabit tutulduğunda bağımlı değişkende 3,54 birimlik bir azalma gerçekleştirir. Modelin anlamlı olabilmesi için tüm bağımsız değişkenlerin P değerlerinin anlamlılık düzeyi 0,05 ten küçük olması gerekir. En yüksek p-değerine sahip olan değişkeni bulup modelden çıkaralım. Burada halkalar değişkeninin anlamlılık düzeyi en yüksek olduğu için ilk önce modelden çıkarılır.

Bu kez en yüksek p-değerine toplam ağırlık sahip olduğu için o da modelden çıkarılır.

Uzunluk da modelden çıkarılır.

Kabuk ağırlığı da modelden çıkarılır.

Şimdi tüm p değerleri 0,05’ten küçük çıktı. Modelimiz anlamlı hale geldi.

Regresyon modeli yukarıdaki gibidir. Şimdi modeli tahmin için kullanabiliriz.

Kaynaklar

  • “Multiple Regression with Categorical Variables”. Erişim 30 Mart 2020. http://psychstat3.missouristate.edu/Documents/MultiBook3/Mlt07.htm.
  • Cintas, Pedro Grima, Lluis Marco-Almagro, ve Javier Tort-Martorell Llabres. Industrial statistics with Minitab. Wiley Online Library, 2012.
  • Erhardt, Erik B., Edward J. Bedrick, ve Ronald M. Schrader. “Advanced Data Analysis-Lecture Notes”, 2016.
  • Karagöz, Murat. İstatistik Yöntemleri. 9. bs. Ekin Kitabevi Yayınları, 2015.
  • Khan, Rehman M. Problem solving and data analysis using minitab: A clear and easy guide to six sigma methodology. John Wiley & Sons, 2013.
  • Lesik, Sally A. Applied statistical inference with MINITAB®. CRC Press, 2018.
  • Newton, Isaac. Minitab cookbook. Packt Publishing Ltd, 2014.
  • “Support | Minitab”. Erişim 29 Mart 2020. https://www.minitab.com/en-us/support/.

DROP A COMMENT

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir