miércoles, 2 de diciembre de 2009

Algoritmo "Naive Bayes"

Naive Bayes es una técnica de clasificación y predicción que construye modelos que predicen la probabilidad de posibles resultados. Naive Bayes utiliza datos históricos para encontrar asociaciones y relaciones y hacer predicciones.



Donde, como podemos ver, lo que aparece son la probabilidad a priori, que es la regla de LaPlace ya que para aplicarla hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas probabilidades, de la hipótesis (h) y de las observaciones (O) y las probabilidades condicionadas P(hO) y P(Oh). A esta última se le conoce como la probabilidad de que la hipótesis h haya producido el conjunto de observaciones O. Como anteriormente se dijo la técnica de Naive Bayes es un método de clasificación probabilístico,este será utilizado para clasificar una nueva instancia de un documento D dentro de un conjunto finito C de clases predeterminadas. Esto significa que, dada una clase C y un conjunto de palabras W del nuevo documento a clasificar, se calcula la probabilidad de que dicho documento se clasifique dentro de la categoría C, así se tiene:
Donde P(C) es la probabilidad a priori de la clase y P(WC) es la probabilidad condicional la palabra W dada la clase C. En base a los datos observados en cada experimento, se conoce la probabilidad de una palabra dada una clase y la probabilidad de la clase. Pero se necesita encontrar el máximo valor de la expresión para encontrar la clase en la que mejor se clasifica el documento:

La probabilidad de cada una de las palabras P(W) es condicionalmente independiente dado el valor de la clase, por lo que es común eliminarla para evitar mayores cálculos. El nuevo documento D a clasificar se encuentra definido en términos de la lista W = {w1, w2, ..., wd} de palabras relevantes del mismo. Además, existe un conjunto finito de clases C = {c1, c2, ..., cn} en las que puede ser clasificado dicho documento. Finalmente, el método Naive Bayes clasifica al documento D en una de todas las clases existentes utilizando la fórmula:




2 comentarios: