İstatistik-Makine Öğrenmesi ilişkisi


#1

Ben Makine Öğrenmesi veya Derin Öğrenme ile istatislik ilişkisini kafamda bir türlü oturtamıyorum.

Sadece Bayes anlatılırken, olasılıktan bahsediliyor diğer algoritmalarda(Linear Regression,SVM,…) özellikle Deep Learning de olasılıktan bahsedilmiyor ama her zaman önemli olduğu söyleniyor. Örneğin Deep Learning sadece matirs çarpmaları iken, olasılık nerede devreye giriyor?

İstatistik-Makine öğrenmesi, İstatistik-Derin Öğrenme kavramlarını net bir şekilde oturtmak için ayrıntılı, güzel bir kaynak var mı?


#2

Istatistikte iki temel dusunce okulu var: Frequentist ve Bayesian. Bunlari bir dinin mezhepleri gibi dusunebilirsin.

https://en.wikipedia.org/wiki/Probability_interpretations

Bayesian kendi icinde daha tutarli ancak elimizdeki gereclerin cogu Frequentist cunku Bayesian’i anlamak ve uygulamak daha zor. Ortalama zekaya hitap eden frequentist yaklasim populerligini koruyor. Bu konuda farkli gorusler olabilir ama bu kamplasmanin sorunun cevabi ile direk alakasi yok.

Genel olarak yapay sinir aglarinda kullanilan gerecler frequentist (Bayesian yontemler de gelisiyor). Aradaki iliskiye gelince:

Herhangi bir makine ogrenme algoritmasi eger farklarin karelerinin toplami gibi bir hata fonksiyonu kullaniyorsa aslinda arka planda Gaussian dagilim kullaniliyor demektir.

f(x;\mu,\sigma) = {\displaystyle {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}

bu tek sample icin.

n tane bagimsiz ve ayni dagilim’dan gelen sample icin (https://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables) olasilik veya olasilik yogunluklarinin carpimi anlamina gelir. Bagimsiz olasiliklar carpilir. Bu carpimin logaritmasini alirsak (logaritma monoton olarak arttigi icin optimizasyon sonucunu etkilemez) carpimlar logaritmanin ozelligi olarak toplamaya donusur ve asagidaki ifadeye geliriz.

{\displaystyle \log {\Big (}{\mathcal {L}}(\mu ,\sigma ){\Big )}=-{\frac {\,n\,}{2}}\log(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(\,x_{i}-\mu \,)^{2}}

Bu ifadenin maximum degerine Maximum Likelihood denir. Ikinci terimin, yani karelerin farkinin minimum oldugu noktada bu degere ulasir.

https://en.wikipedia.org/wiki/Maximum_likelihood_estimation

Yani bir yapay sinir agini farkin karelerinin toplamini minimize ederek egitirsen aslinda istatistikte herkesin cok iyi bildigi bir islemi gerceklestirmis olursun.

Baska hata fonksiyonlari ile baska dagilim kabullenmeleri yapmis oluruz. Konu cok daha karisik ama giris seviyesinde cevabim bu sekilde.

Kaynak olarak da su kitaba bakilabilir:

https://www.amazon.com/Machine-Learning-Probabilistic-Perspective-Computation/dp/0262018020


#3

Şu kitabıda hem bir çok ders için referans hem de bayes bakış açısı içerdiği için önerebilirim. Üstelik artık ücretsiz
:grinning::grin:

not : çözüm kitabıda var