Videodan tagli data oluşturmak


#1

Merhaba,

Benim sormak istediğim, örneğin bir basketbol maçının tüm videosu elimizde olsun, bu videodaki önemli bazı anları işeretleyip nasıl tagleyebilirim? Örneğin Sayı, Hücum Reboundu, Savunma Reboundu, Dalış gibi önemli anları videoda nasıl işaretleyebilirim? Aynı zamanda bu terimler 1 framelerik taglenecek terimlerde değil, birkaç frame sürecek hepsi. Kafam karışık biraz, bunları yaparak daha sonra bu hareketleri otomatik anlamaya çalışan bir network kurmayı planlıyorum. Başlamak için yol gösterebilir misiniz?


#2

Videolar çok alanım değil ama 8 gün öncesinde yazılmış şöyle bir blog buldum (genel olarak özet geçip, piyasadaki tooları kendi toolarıyla karşılaştırıyolar gibin): https://blog.claysciences.com/2018/a-comprehensive-guide-to-annotating-videos-for-machine-learning/

Şu da Google’ın 61 citation’ı olan bir paperı: Video2Text: Learning to Annotate Video Content


#3

işaretlemek istediğin şey bir eylem bu yüzden elbette bir frame de gösteremiyorsun.
Bizim elimizdeki imkanlarda ise sabit uzunluk gerekliliği var bu yüzden bir maksimum kaç frame olacağına karar vermen lazım.
Varsayalaım 10 frame seçtin bu durumda 10 frame lik bölümleri senin söylediğin gibi etiketlemen lazım
Ağızımızınn girişini böylece hallettik
Çıkış için karar vermen gereken bir şey var. Verdiğin her bölüme bir tek etiketmi vereceksin yoksa birden fazla etiket olabilirmi ?
Sonrasında etiketleri seçeceksin
kaç değişik etiket vereceksin
ağın çıktısıda bu olacak.
Eğer çoklu etiket kullanacaksan binary yoksa kategorik şekilde eğieceksin
Ağın iç yapısında
Resimden vektöre dönüşüm yapabileceğin Bilinen Ağ yapılarından birini kullanabilirsin mesela resnet gibi
bu şekilde bir birini takip eden resimlerden bir birini takip eden vektöre dönüşmüş olur sonrasında RNN tipi bir yapı ve sonu sınıflandırıcı olacak şekilde ağı tamamlarsın

Şimdilik aklıma gelen bunlar


#5

Değişik şekillerde yapmak mümkün
deneme yapmadan hangisi daha iyi olur bilemeyiz
Mesela
Çoklu giriş kullanabilirsin 10 tane giriş resmii veririsin
paylaşılan bir alexnet modelinde çıktı olarak sınıflandırıcı öncesi bir katmandan 10 çıkış elde edersin ve onu
LSTM katmanına verip sonuca gidebilirsin


#4

Hocam seçtiğim 10 ardışık frameyi alexnet gibi bir networkle denemek istersem ona nasıl verebilirim? Channel olarak verebilir miyim?


#7

Zaman sıralı frame vermemiz gerekiyor zamanla değişen görüntüden bir eylem tanıyacaksınız bu yüzden kanal bazlı olmaz diye düşünüyorum
Çok girişli Ağ sistemi mümkün


#6

çoklu girişten kastınız yukarıda sorduğum channel lar mı? Yani RGB channel a 10 tane sıralı frame vermek. Eğer bu değilse bahsettiğiniz, ben bunu denemek istiyorum, sizce channel kısmına böyle bir işlem yapmak saçma mı, araştırdım biraz yapan görmedim de.


#8

Hocam ben internettede araştırıyorum fakat bu işin başlangıcındayım, daha önce böyle bir tecrübem olmadı, pek bir şey bulamıyorum. Önce Alexnet olmak üzere daha sonrada LSTM kullanarak bu iki methodlada sequence image seti vererek, motion detection yapmak istiyorum anlattığım şekilde. Keras kullanmak istiyorum. Ne okuyayım, nerelere bakayım, ne diye bir araştırma yapayım, yardımcı olabilir misiniz?


#9

“Shared layers” , “Multi-input” , " Extract features with …"
anahtar kelimelerin

Keras örnekler