Bu proje dolandırıcıları engellemek için sahte kredi kartlarını bulan bir machine learn projesidir. Python dilinde yazılmış olup Sklearn, Pandas ve Matplotlib teknolojileri kullanılmıştır.
Veri seti, Avrupalı kart sahipleri tarafından Eylül 2013'te kredi kartlarıyla yapılan işlemleri içermektedir. Bu veri kümesi, 284,807 işlemden 492'sinin dolandırıcılık olduğu iki gün içinde gerçekleşen işlemleri sunar. Veri kümesi oldukça dengesizdir, pozitif sınıf (dolandırıcılık) tüm işlemlerin %0,172'sini oluşturur.
Yalnızca bir PCA dönüşümünün sonucu olan sayısal girdi değişkenlerini içerir. Ne yazık ki, gizlilik sorunları nedeniyle, orijinal özellikleri ve verilerle ilgili daha fazla arka plan bilgisi sağlayamıyoruz. Özellikler V1, V2, … V28, PCA ile elde edilen temel bileşenlerdir, PCA ile dönüştürülmeyen tek özellikler 'Zaman' ve 'Miktar'dır. 'Zaman' özelliği, her işlem ile veri kümesindeki ilk işlem arasında geçen saniyeleri içerir.
Veri Seti: https://www.kaggle.com/mlg-ulb/creditcardfraud
“Destek Vektör Makinesi” (SVM), sınıflandırma veya regresyon problemleri için kullanılabilen denetimli bir makine öğrenmesi algoritmasıdır. Bununla birlikte, çoğunlukla sınıflandırma problemlerinde kullanılır. Bu algoritmada, her bir veri maddesini belirli bir koordinatın değeri olan her özelliğin değeri ile birlikte n-boyutlu boşluğa (burada n sahip olduğunuz özelliklerin sayısı) bir nokta olarak çizilir. Ardından, iki sınıftan oldukça iyi ayrım yapan hiper-düzlemi bularak sınıflandırma gerçekleştirilir.
Random Forest algoritması denetimli bir sınıflandırma algoritmasıdır. (Supervised classification algorithm). İsminden de anlayacağımız üzere basit olarak algoritma rastgele olarak bir orman yaratıyor. Algoritmadaki ağaç sayısı ve elde edebileceği sonuç arasında doğrudan bir ilişki bulunmaktadır. Ağaç sayısı arttıkça kesin bir sonuç elde ederiz.
Sınıflandırma yaparken, sınıfların eşit dağılmadığı, yani her sınıf için yaklaşık olarak aynı sayıda verinin olmadığı veri kümesidir. Mesela, ikili sınıflandırma (binary classification) durumunda, 500 verinin olduğu bir veri kümesindeki 40 verinin azınlık sınıfa (Sınıf-1), 460 verinin ise diğer sınıfa (Sınıf-0) ait olması durumudur.
Dijital sinyal işlemede, altörnekleme, sıkıştırma ve desimasyon, çok oranlı bir dijital sinyal işleme sisteminde yeniden örnekleme süreciyle ilişkili terimlerdir. Hem altörnekleme hem de karartma, sıkıştırma ile eşanlamlı olabilir veya bant genişliği azaltma (filtreleme) ve örnekleme hızı azaltma sürecinin tamamını tanımlayabilirler.