Filtro bayesiano
Origem: Wikipédia, a enciclopédia livre.
O filtro bayesiano é o processo de usar métodos estatísticos para classificar documentos por categorias. O filtro de Bayes foi definido depois do documento de Paul Graham, A Plan of Spam, e transformou-se num mecanismo popular para distinguir um e-mail ilegítmo conhecido como spam de um e-mail legítimo.
Muitos programas de e-mail modernos como Mozilla Thunderbird utilizam a filtragem de spams por meio do método Bayesian. O filtro bayesiano utiliza o Teorema de Bayes, no contexto do Spam, diz que a probabilidade que um email seja um Spam, percebido em determinadas palavras dentro dele, é igual à probabilidade de encontrar aquelas determinadas palavras no e-mail de Spam, cronometrando a probabilidade que todo e-mail é Spam, dividido pela probabilidade de encontrar aquelas palavras em qualquer e-mail:
As palavras particulares têm probabilidades particulares de ocorrer no e-mail do Spam e no email legítimo. Por exemplo, a maioria dos usuários de email encontrarão freqüentemente a palavra Viagra no email de Spam, mas verão raramente no e-mail legítimo. O filtro não sabe das probabilidades adiantado, o usuário terá que orientá-lo, treinando o filtro a excluir automaticamente as probabilidades em sua base de dados.