CNN ile Hareket Tanıma


#1

Merhaba,

Benim bildiğim kadarıyla CNN networklerini eğitirken hep tek frame tek frame vererek output bekiyoruz, Mesela insan yüzünü tanımak için yüzbinlerce insan yüzünü networke veriyoruz. Fakat benim yapmak istediğim,

Videolardan bir CNN (örneğin Alexnet) modeli eğitmek. Videolardan hareketler tanıtmak ve bu hareketleri öğrenmesini sağlamak. Video olduğu için frame leri tek tek değerlendirmek istemiyorum, örneğin 3 öncesi ve 3 sonrası gibi (çok bilmiyorum burayıda aydınlatabilirseniz sevinirim) sıralı frame seri sini vererek bir CNN modeli üretmek istiyorum.

Hareket dediğin ne derseniz, basketboldaki hareketler, örneğin steps, basket vs gibi.

Alexnet kullanarak bu sıralı frame seti eğitme işlemini nasıl yapabilirim?


#2

Sanirim LSTM’de sizin isinize yarar, zira tek resim yerine bir dizi (sequence) olarak verileri giris olarak verebilirsiniz.


#3

2016’da CVPR’da yayınlanmış bir makale: http://vision.stanford.edu/pdf/ramanathan2016cvpr.pdf

@Kadir’in dediği gibi LSTM kullanmışlar gibi gözüküyor (5 saniye falan göz gezdirdim). Oku anla, literatürde CNN’le yapan da vardır kesin, arayıp bulursun bu paper’dan ve referanslarından zaten.

Ha bir de kendini basketballa sınırlamak zorunda değilsin. Sonuçta yaptığını futbol için yapanlar da var. Farklı domainlerde aynı iş için önerilmiş çözümlere de bak.