estadísticas en dspam
Existe un programa llamado dspam_stats
que proporciona información sobre la efectividad del filtro desde el primer momento ó desde la última llamada al mismo.
La información que muestra es la siguiente:
victor:
TP True Positives: 0
TN True Negatives: 3889
FP False Positives: 15046
FN False Negatives: 1769
SC Spam Corpusfed: 192
NC Nonspam Corpusfed: 0
TL Training Left: 0
SHR Spam Hit Rate 0.00%
HSR Ham Strike Rate: 79.46%
OCA Overall Accuracy: 18.78%
Y cada uno de los valores proporcionan pistas para saber qué está pasando:
TP True Positives
Esta cifra es el número total de mensajes clasificados como Spam.
TN True Negatives
Esta cifra es el númeor total de mensajes clasificados como ham.
FP False Positives
Son los mensajes válidos, pero que han sido marcados equivocadamente como spam.
FN False Negatives
Son los mensajes no válidos (spam), pero que han sido marcados equivocadamente como ham.
SC Spam Corpusfed
Total de mensajes spam que han sido incorporados al filtro como corpus.
NC Nonspam Corpusfed
Idem pero para los mensajes ham.
TL Training Left
Número de mensajes que faltan para que el filtro finalice el proceso de
aprendizaje inicial (por debajo de 2.500). Se le resta a esta cifra la suma de
los mensajes que el filtro ha clasificado como ham (innocent_classified
)
más la de los mensajes que se le ha enseñado (innocent_learned
).
SHR Spam Hit Rate
Este es el ratio de aciertos del filtro en cuando a clasificación de spam. Se obtiene con la siguiente fórmula
( 100.00 - ( spam_misclassified / all_spam ) * 100.00 )
siendo spam_misclassified
el total de correos marcados erróneamente como
spam y all_spam
el número total de mensajes marcados como spam.
HSR Ham Strike Rate
Igual que el anterior pero referido a los errores al clasificar mensajes ham como spam; en este caso las variables son:
innocent_classified
all_innocent
OCA Overall Accuracy
Este es el indicador de precisión total, basado en la relación entre correos marcados como ham y la de marcados como spam.