Kendi veri setini oluşturan bir algoritma


#1

Elimizde 20.000 tane resim var diyelim. Bu verileri tek tek incelleyip seçmek zor olur. Acaba bunu bir algoritmaya yaptirabilir miyiz?

Ben şöyle düşundüm: goruntu isleme üzerine bir proje yapalim, bu projede istediğimiz nesneleri makinaya tanitalim, o nesnelerin olduğu resmleri tek bir yerde toplayip , yeni temiz bir veri seti olsun.Fakat bu biraz basit olur galiba.

Bu işlemlerini en dogru nasil yapabiliriz, bunun hakkinda proje yapmak için, neler üzerinde çalişmaliyiz?


#2

İstediğin gibi bir ayıraç yapmak içinde yine network eğitmelisin, networkü eğitmek içinde ilk önce resimlerini kendin elinle ayırmalısın. Ama güzelce eğittikten sonra tabiki dediğin gibi kendi kendisine yapabilecektir bu ayırımı. Yanılıyor olabilirim ama düşüncem istediğini yapmanın bir yoluda GAN’ın fake/real ayırımını yapan networkü olabilir. Ya da normal CNN ile benzerlik oranına görede datasetine ekleyebilirsin resimleri.


#3

Hocam elimizde binlerce data olduğunda hepsini tek tek inceliyor muyuz ? Belki elimizde yüksek miktarda veriler olacak… manuel olarak yapmak çok zor değil mi ? Bunun için bir bir araç yok mu ? hazır veri setler üzerinde çaliştığımızdan dolayı, bu tür işlemlere gerek kalmıyor mu ?


#4

Doğru yolu, her bir resmi sadece sen değil bir grup insanın labellamasıdır. Sonuçta ikilem yaratabilecek datalarda senin labelların biased olur ve datasetin güvenilirliğini azaltır.

Bu işi bir research labda falan çalışıyorsan, ameleliği tüm laba yayarak yapabilirsin veya paranız varsa Mechanical Turk gibi bir crowdsourcing toolunda yaptırabilirsiniz (en yaygın yöntem).

İlla otomatik yapmak istiyorum diyorsan da semi-supervised learning’e bak. Ama burada da %100 accurate bir şey elde edemiyorsun ve bu sebeple network’ün her %1’lik hatası katlanarak senin dataset labellarını bozar.