domingo, 14 de enero de 2024

Modulo IV. Fundamentos Teóricos del Aprendizaje Supervisado y No Supervisado. Conceptos

 

1. Introducción

El Aprendizaje Automático (Machine Learning) es un campo de la Inteligencia Artificial que se centra en el desarrollo de algoritmos que permiten a las máquinas aprender de los datos y hacer predicciones o tomar decisiones sin ser explícitamente programadas para cada situación específica. Dentro del aprendizaje automático, existen dos enfoques principales: aprendizaje supervisado y aprendizaje no supervisado.

El aprendizaje supervisado implica entrenar un modelo en un conjunto de datos etiquetados, donde el objetivo es predecir la etiqueta a partir de las características de los datos. Por otro lado, el aprendizaje no supervisado se utiliza con datos que no tienen etiquetas, y el objetivo es encontrar patrones o estructuras inherentes en los datos.

2. Aprendizaje Supervisado

En el aprendizaje supervisado, el modelo aprende de un conjunto de datos que incluye tanto las entradas como las salidas deseadas. Los ejemplos comunes incluyen la regresión lineal, para predecir valores continuos, y los árboles de decisión, utilizados tanto para clasificación como para regresión.

Gráfica y Código: Ejemplo de Regresión Lineal

Vamos a generar un gráfico simple para una regresión lineal utilizando Python.

                                        Código


                                        Gráfica


3. Aprendizaje No Supervisado

En el aprendizaje no supervisado, los algoritmos intentan identificar patrones en los datos que no están etiquetados. Un ejemplo común es el algoritmo K-means para la agrupación de datos, y el Análisis de Componentes Principales (PCA) para la reducción de dimensionalidad.

Gráfica y Código: Ejemplo de K-means

Ahora, crearemos un gráfico para un ejemplo simple de K-means.

                               Código


                                Gráfico

4. Comparación y Usos

El aprendizaje supervisado es más común cuando las etiquetas de los datos están disponibles y el objetivo es predecir o clasificar nuevas observaciones. Por otro lado, el aprendizaje no supervisado es útil para explorar la estructura de los datos y encontrar patrones subyacentes, especialmente útil en la etapa de análisis exploratorio de datos.

5. Conclusión

Ambos enfoques del aprendizaje automático, supervisado y no supervisado, son fundamentales para entender y aplicar técnicas de inteligencia artificial en diversas áreas, desde la predicción de tendencias de mercado hasta el reconocimiento de patrones en imágenes y datos de sensores.

Aca se presenta las gráficas correspondientes a los ejemplos de regresión lineal y K-means.

Imagen de salida del código ejecutadoImagen de salida del código ejecutado

Aquí tienes las gráficas generadas para los ejemplos de aprendizaje supervisado y no supervisado:

  1. Ejemplo de Regresión Lineal (Aprendizaje Supervisado): Esta gráfica muestra una simple regresión lineal, donde el modelo predice una variable dependiente a partir de una variable independiente.

  2. Ejemplo de K-means Clustering (Aprendizaje No Supervisado): En esta gráfica, se ilustra cómo el algoritmo K-means agrupa los datos en dos clusters distintos.

Estas gráficas y sus respectivos códigos son ejemplos ilustrativos de cómo se aplican estos métodos en el aprendizaje automático. Puedes incluir estas gráficas y códigos en tu documento para complementar la explicación de cada enfoque.



MODULO IV Aplicación Práctica: Que es el Teorema de Bayes y el Enfoque Nayve . Ejemplo Practico

 Introducción:

El Teorema de Bayes y su enfoque naive son herramientas fundamentales en el ámbito del Machine Learning, y su aplicación práctica puede ilustrarse con un ejemplo específico. Imaginemos un escenario donde deseamos clasificar correos electrónicos como spam o no spam utilizando el enfoque naive de Bayes. Este ejemplo proporcionará una visión práctica de cómo se implementan estos conceptos en un problema del mundo real.

          Problema: Clasificación de Correos Electrónicos como Spam o No           Spam

    1. Recopilación de Datos:

    Supongamos que hemos recopilado un conjunto de datos de correos                         electrónicos etiquetados como spam o no spam. Cada correo electrónico se            representa como un conjunto de palabras o términos (características) y se              etiqueta según su naturaleza.

    2. Probabilidades a Priori:

    Calculamos las probabilidades a priori, es decir, la probabilidad de que un              correo electrónico sea spam (

(Spam)) o no spam ((No Spam)). Esto se hace contando la frecuencia relativa de correos spam y no spam en nuestro conjunto de datos.

3. Probabilidades Condicionales:

Para cada palabra en nuestro conjunto de datos, calculamos la probabilidad condicional de que aparezca en un correo spam ((PalabraSpam)) o en un correo no spam ((PalabraNo Spam)). Esto se hace contando la frecuencia relativa de cada palabra en correos spam y no spam.

4. Clasificación de un Nuevo Correo Electrónico:

Cuando recibimos un nuevo correo electrónico, calculamos la probabilidad de que sea spam y la probabilidad de que no sea spam utilizando el Teorema de Bayes y la suposición naive de independencia condicional. La fórmula para calcular la probabilidad de que un correo electrónico sea spam dado un conjunto de palabras específico es:

(SpamPalabras)=(PalabrasSpam)(Spam)(Palabras)

De manera similar, calculamos (No SpamPalabras).

Ejemplo Numérico:

Supongamos que tenemos el siguiente conjunto de datos de entrenamiento:

  • (Spam)=0.4 (40% de los correos son spam)
  • (No Spam)=0.6 (60% de los correos no son spam)
  • (ViagraSpam)=0.8 (80% de los correos spam contienen la palabra "Viagra")
  • (ViagraNo Spam)=0.1 (10% de los correos no spam contienen la palabra "Viagra")

Supongamos que recibimos un nuevo correo con las palabras "Viagra oferta". Calculamos las probabilidades condicionales y aplicamos el Teorema de Bayes para determinar la probabilidad de que el correo sea spam o no spam.

Limitaciones:

Es importante destacar que este enfoque naive asume independencia condicional entre las palabras, lo cual puede no ser realista en la práctica. Además, el rendimiento del modelo dependerá de la calidad y representatividad de los datos de entrenamiento.

Conclusión:

Este ejemplo ilustra la aplicación práctica del Teorema de Bayes y el Enfoque Naive en la clasificación de correos electrónicos como spam o no spam. Aunque el ejemplo es simplificado, refleja cómo estos conceptos se utilizan en la realidad y destaca las limitaciones asociadas con la suposición de independencia condicional. La adaptabilidad de estos principios a problemas del mundo real los convierte en herramientas valiosas en la caja de herramientas del Machine Learning.

Implementación del Clasificador Naive Bayes

Vamos a simular un conjunto de datos y luego aplicar el clasificador Naive Bayes para clasificar un nuevo correo electrónico como spam o no spam.

  1. Simulación de Datos: Crearemos un conjunto de datos ficticio con las probabilidades dadas (40% spam, 60% no spam, etc.).

  2. Cálculo de Probabilidades: Calcularemos las probabilidades a priori y las probabilidades condicionales.

  3. Clasificación de un Nuevo Correo Electrónico: Utilizaremos estas probabilidades para clasificar un nuevo correo electrónico que contiene las palabras "Viagra oferta".

  4. Visualización: Generaremos una gráfica que muestre las probabilidades de que el correo sea spam o no spam.

Ahora, procederé a escribir y ejecutar el código necesario para este ejemplo.

Imagen de salida del código ejecutado

Aquí tienes la implementación del clasificador Naive Bayes para el ejemplo de clasificación de correos electrónicos como spam o no spam, basado en la presencia de la palabra "Viagra":

  • Probabilidad de Spam dado Viagra: Aproximadamente 84.21%.
  • Probabilidad de No Spam dado Viagra: Aproximadamente 15.79%.

Además, he generado una gráfica que ilustra visualmente estas probabilidades. Esta gráfica muestra la probabilidad estimada de que un correo electrónico sea clasificado como spam o no spam, dado que contiene la palabra "Viagra". La barra roja representa la probabilidad de spam, mientras que la barra verde representa la probabilidad de no spam.

Este ejemplo demuestra cómo se puede aplicar el Teorema de Bayes en un escenario de clasificación de correos electrónicos, resaltando la importancia de la probabilidad condicional en el análisis de datos y en el aprendizaje automático.

Modulo IV. Fundamentos Teóricos del Aprendizaje Supervisado y No Supervisado. Conceptos

  1. Introducción El Aprendizaje Automático (Machine Learning) es un campo de la Inteligencia Artificial que se centra en el desarrollo de ...