SPAM; e-posta, telefon, faks, SMS, ICQ, MSN, WhatsApp, Telegram gibi elektronik ortamlarda genellikle çok sayıda alıcıya aynı anda gönderilen gereksiz veya uygunsuz iletilerdir.
1 Mayıs 1978 tarihinde günümüz internetinin atası olan ARPANET üzerinde gönderilen e-posta bilinen ilk SPAM iletisidir. Bu iletide SPAM ürün ve hizmet tanıtımı amaçlı kullanılmıştır. Günümüzde gönderilen SPAM türlerinin önemli bir kısmı da reklam ve tanıtım amaçlıdır.
SPAM mesajlar genellikle birden fazla alıcıya aynı içerik ile gönderilmektedir. Gönderilen iletiler çoğunlukla alıcıya hiçbir şey ifade etmemektedir. Bazı durumlarda yasadışı ve yanıltıcı içeriğe sahip olmaktadır, siber güvenlik yönünden sorun oluşturmaktadır.
HAM ve SPAM Terimleri
SPAM mesajlar çeşitli bot yazılımlarla web sitelerinden ve benzeri belgelerden toplanmaktadır. Toplanan adreslere gönderilen iletiler geçerli ve işlevsel bir geri dönüş adresi sunmadıklarından geriye dönük izleme zorlaşmaktadır.
HAM kavramı Amerika Birleşik Devletleri’nde “domuz eti konservesi” olarak bilinmektedir. Ülkede üretilen ve savaşta askerlere ana menü olarak sunulan SPAM: “Spiced HAM (baharatlanmış domuz eti konservesi)” ise yaygın bilinen bir marka haline gelmiştir. Bu marka ile üretilen konserveler günümüzde halen satıştadır.
Burada belirtilen SPAM terimi yıllarca gereksiz ve istenmeyen iletiler için kullanılmıştır. HAM terimi ise SPAM teriminin karşıt anlamlısı olarak benimsenmiştir.
Naive Bayes Sınıflandırıcı Algoritması
İsmini 17. yüzyılda yaşamış İngiliz matematikçi Thomas Bayes ’ten almıştır. Söz konusu sınıflandırıcı algoritma Bayes teoremini temel almaktadır.
Sade tasarım ve basitleştirilmiş varsayımlara karşın sonuçta beklenenden daha iyi çıktılar üretmektedir.
Algoritmada temel alınan Bayes teoremi, bir rassal değişken için koşullu olasılıklar ile marjinal olasılıklar arasındaki ilişkiyi göstermektedir.
P(A\B) = (P(B/A) P(A)) / P(B)
P(A): A olayının marjinal olasılığı
P(B): B olayının marjinal olasılığı
P(A|B): B olayı gerçekleştiğinde A olayının meydana gelme olasılığı
P(B|A): A olayı gerçekleştiğinde B olayının meydana gelme olasılığı
Sınıflandırma problemi bir çok özellikten ve hedef değişkenden oluşmaktadır.
İlgili formülde C hedef değişkeni, F ise özellikleri temsil etmektedir.
Sonuçta Naive Bayes sınıflandırıcı bütün koşullu olasılıkların çarpımıdır.
N-gram Algoritması
Bir veri üzerinde arama, karşılaştırma ve tekrar sayısını (frekansı) saptama amaçlı kullanılan bir algoritmadır.
Burada “n” tekrar derecesini, “gram” ise ağırlığı ifade etmektedir. N değerleri temelde 4 başlıkta ele alınmaktadır:
1-Gram: unigram
2-Gram: bigram
3-Gram: trigram
N-Gram: n-gram
Bu yaklaşım metin tabanlı veri madenciliği ile birlikte konuşma tanıma sistemlerinde dil modeli tanımlamada yaygın olarak kullanılmaktadır.
Sonuçlar
Doğruluk (Accuracy): 0.9904 (ACC = (TP + TN) / (P + N))
Duyarlılık (Sensitivity): 0.9917 (TPR = TP / (TP + FN))
Özgüllük (Specificity): 0.9815 (SPC = TN / (FP + TN))
Kesinlik (Precision): 0.9972 (PPV = TP / (TP + FP))
Negative Predictive Değeri: 0.9465 (NPV = TN / (TN + FN))
False Positive Oranı: 0.0185 (FPR = FP / (FP + TN))
False Discovery Oranı: 0.0028 (FDR = FP / (FP + TP))
False Negative Rate: 0.0083 (FNR = FN / (FN + TP))
F1 Skoru: 0.9945 (F1 = 2TP / (2TP + FP + FN))
Matthews Katsayısı: 0.9584