Linear regression mse neden convex?


#1

Linear regression modelini mean squared error cost fonksiyonu ile hesapladığımızda convex bir şekil çıkıyomuş ve dolayısıyla tek bir minimum oluyormuş buda global minimum oluyormuş dolayısıyla. Benim anlayamadığımda neden convex bir şekle sahip, mse linear regressionda? Aşağıda linkini verdiğim yerde tam sormak istediğim soru sorulmuş ve cevaplanmış fakat 2. ifadeden sonra diğer ifadelere geçişleri anlayamadım, sizlere sormak istiyorum.


#2

Matematiksel ispat yerine olayi gorsel dusunebilirsin. Lineer bir ifadeyle kare fonksiyonu bir araya geldigine Quadratic denen formul tipi olusur. Iki boyutta bu hepimizin orta okulda gordugu paraboldur. 3 boyutta yaridan kesilmis Amerikan futbol topu ve boyut arttikca yine kafamizda canlandiramayacagimiz bu tur canak sekillerini temsil eder. Ve bu sekillerin herhangi bir noktada 2. turev degerleri isaret degistirmez (tam dogrusu yukarida linkte bahsedilen Hessian matrisinin positive definite olma durumu, tek basina quadratic olmasi yeterli degildir). Bu sebeple 1. turevin isaret degistirdigi sadece 1 nokta vardir, o nokta da minimumdur.


#3

Teşekkürler gayet mantığıma yattı söyledikleriniz. Peki şu formüllerle açıklayabilecek birisi var mı?


#4

Formulle aciklarim ama oncelikle bu forumda Latex ile formul yazilabiliyor mu bilmiyorum. Admin’ler bu konuya isik tutarlarsa iyi olur. Ikincil olarak verdigin linkte bunu zaten anlatiyor. Onu anlamadiysan benim formullerimin de cok faydasi olacagini zannetmiyorum.

Genel olarak verdigin linkteki yaklasim soyle. Kare fonksiyonu convextir. Kare’nin icine koydugun ifade de “affine” transformasyon. Bu iki fonksiyonun birlesimi de convextir (basit bir matematik teoremi).

Yanliz gerek linkte gerek soruda eksik bir detay var. Orada bahsedilen hessian matrisi (2. turev matrisi) “Positive Semi Definite”. Bu convex icin yeterli bir kosul ancak tek bir global minimum icin yeterli degildir. Tekil bir global minimum icin “Positive Definite” omasi gerekir. Ikisi arasindaki fark PSD durumunda minimum noktasinda genis bir plato olma ihtimalidir. Yani minimum yine minimumdur fakat bu minimumu saglayan farkli agirliklar mevcuttur. Bu ornegin lineer regresyonda birbiriyle 100% korelasyonu olan iki degiskenin mevcut olmasi sirasinda olusur (veya birbirinin lineer kombinasyonu olan coklu degiskenler, aka “colinearity”). Bu 2 degiskenin agirliklarini toplami ayni olacak sekilde istedigin gibi degistirebilirsin, sonuc etkilenmez.


#5

Merhaba @Cowboy_Trader,

Portalımızda LaTeX ile formül yazabilirsiniz. Bununla ilgili olarak buradaki konuyu inceleyebilirsiniz.

İyi çalışmalar!