The tfm-semisup from dguipla

Parte 5 (Resultados y Memoria Final)

1,. Comparativa con Keel (paper Triguero) y los modelos implementados de SSC
2. Comparativa con datasets mas grandes focalizasdos en Big data entre Supervisado y Self+Co Training
3,. Resumen de los mejores resultados y caracteristicas para llegar a ellos

Overleaf - Memoria - Compartida

@alvarag @jjrodriguez He compartido con overleaf la memoria pero creo que solo puedo compartirlo con una persona (la version gratuita), cuando tengais un hueco me deciis si finalmente teneis acceso.
Gracias!!

Completar resultados con powerBI

Exploracion de Datos y Featurization Pipeline (AdultIncome)

Crear Class para los datos de SemiSupervisado

Class para poder trabajar con los datos de los resultados (labeled initial, labeled final, unlabeled initial...) de Semisupervisado sin necesidad de tabajar con la clase del clasificador semisupervisado en concreto

Seleccion conjunto de datos

Exploracion de Datos y Featurization Pipeline (BCW)

Una tarea (Issue) por conjunto de datos ya que la featurization sera diferente para cada conjunto
hacer una exploracion y procesado (limpieza ) de los datos
Crear un pipeline stage de featurization para despues utilizarlo juntamente con el pipeline stage de los clasificadores

modificacion de los for/s de las funciones calculo de resultados por maps

Exploracion de Datos y Featurization Pipeline (NYTaxi)

Self Trainning --> Implementacion de pipeline para cada Conjunto de datos + modelo SelfTrainnig

Crear una biblioteca de Spark

Las instrucciones para crear una biblioteca de Spark con el código que tienes en los notebooks sería algo como lo que puedes ver en este repositorio, cortesía de Mario Juez (predoctoral del área).

Para poder crear el paquete, vas a necesitar instalarte sbt en tu máquina.

Luego los pasos serían:

Crear un directorio src, dentro uno main... así hasta tener algo del estilo a src/main/scala/org/apache/spark/ml/semisupervised
Sacar el código de las clases a ficheros independientes y dejarlos en al ruta anterior. Por ejemplo: src/main/scala/org/apache/spark/ml/semisupervised/SelfLearning.scala
Crear un fichero build.sbt, donde cambiarás el nombre (como se llamará el paquete), la organización (en tu caso ubu, por ejemplo), el resto son versiones que no deberías necesitar cambiar.
Crear una carpeta project
En dicha carpeta crear dos ficheros:
- build.properties En su interior pones la versión de sbt que hayas instalado en tu equipo.
- plugins.sbt No hace falta que cambies nada, copias el que hay en el repositorio indicado arriba.

Una vez tengas todo en su sitio, debería ser tan sencillo como ejecutar en tu consola sbt package, creará un directorio target/scala... donde aparecerá el "xxx.jar" con tu biblioteca.

Ejemplo:

➜  sbt_scala_spark_hello_world git:(main) git clone https://github.com/mjuez/sbt_scala_spark_hello_world.git
...
➜  sbt_scala_spark_hello_world git:(main) sbt package
...
[info]   Compilation completed in 19.006s.
[success] Total time: 42 s, completed 09-mar-2021 15:49:54
➜  sbt_scala_spark_hello_world git:(main) ls target/scala-2.12/
classes  spark_hw_2.12-1.0.0.jar  update  zinc

Scatter - Duda (Keel vs Spark)

Sobre la figura para comparar keel y Spark, aqui tengo un ejemplo de como quedaria lo que no se si esta correcto del todo ¿? No me queda claro ...

Parte 4 (Co-Training Implementacion)

Exploracion de Datos y Featurization Pipeline (Pocker)

Crear la clase del "desetiquetador"

Para crear la clase que "desetiquete" un porcentaje de las instancias/ejemplos que tenga un conjunto de datos deberás coger de modelo algún transformador de los que trae Spark.

Creo que el más sencillo puede ser https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/feature/Normalizer.scala

Es importante que vayas ya creándote un diagrama de carpetas/paquetes que deje cada clase en su sitio. En este caso los trasnformadores en la carpeta src/main/scala/org/apache/spark/ml/feature

Puedes copiar y pegar el código en tu IDE (el que vayas a utilizar) y empezar a entender esa clase. Verás que hay muchos @SInCE (todo eso lo quitas). Algo importante que verás es que hereda de la clase Transformer, esta clase abstracta define la interfaz que deben cumplir los Transformadores de Spark ML: básicamente que tengan un método transform. Hereda de Transformer y no de UnaryTransformer, que en tu caso no es unario (creo).

Luego podrás ver en Normalizer cómo crea el parámetro "p" y su get y set. Tu deberás crear un parámetro que sea el porcentaje de instancias a desetiquetar.

En tu caso el esquema del DataFrame de salida será igual que el DataFrame de entrada, puesto que no añades ni quitas columnas, solo modificas instancias.

En tu caso el código que realiza el desetiquetado irá en la función

def transform(dataset: Dataset[_]): DataFrame

Cuando te pongas con ello me preguntas, que así de primeras parece difícil pero seguro que no te cuesta :)

Entender los clasificadores base que vamos a utilizar

Concretamente:

*Se podria excluir o añadir algun otro

Comparativa Self/CoTraining Spark con Keel (paper Triguero)

Reunión seguimiento

Enlaces de interés:

Plantilla en LaTeX: https://github.com/bbaruque/plantillaTFM_MUINBDES
Guía de estilo para programar en Scala https://github.com/databricks/scala-style-guide

Documentación/Papers (Estado del arte) 1

leer y buscar papers relevantes Semi-Supervisado

https://app.zenhub.com/files/323652909/063dd67d-d792-443f-90fd-18b62f44e46e/download

https://app.zenhub.com/files/323652909/8eb9f025-9189-433a-a06e-e08eb44351e6/download

https://app.zenhub.com/files/323652909/ff7eb32c-11cd-4dc1-9aa6-085c7e638a6b/download

https://app.zenhub.com/files/323652909/e03215ce-7dc9-4f11-8080-087c139a15da/download

https://app.zenhub.com/files/323652909/1ec150db-2642-41de-b254-29f30e7dfb08/download

https://app.zenhub.com/files/323652909/0951ba8d-ea53-48ec-b15e-f50bb8348fae/download

https://app.zenhub.com/files/323652909/b8f41fa8-5bb1-47a4-ae21-3e9df4524b6b/download

https://app.zenhub.com/files/323652909/f7197d2e-e365-4443-86cf-553530e7ac33/download

Documentacion/Papers (Estado del arte) 2

Recoger las ideas principales y plasmarlas en la memoria, también recopilar ideas nuevas
Documentar tambien las partes e ideas recogidas en la parte de research de este Epic Parte 1

Parte3 (Implementación Semi-Supervisado SelfTraining)

Una vez la parte 2 este fininalizada o cerca de finalizar (donde tendremos los resultados para supervisado con los clasificadores Base )
Implementaremos la solucion Self Training para semi-supervisado.

Implementación de self training en scikit-learn

scikit-learn tiene una implementación de self training: https://scikit-learn.org/stable/modules/semi_supervised.html#self-training

Los parámetros del método, ejemplos de cómo usarlo e incluso la implementación podrían dar ideas o servir de guía.

Parte 5 Resultados

Parte2 (Spark ClassificadoresBase)

Desarrollo/Inplementacion de los clasificadores base (Supervisado) juntamente con la exploracion de los datos:

LR, DT, RF, LSVM, NB

SelfTrainning - Calculos de probabilidades por los clasificadores base

Añado otro Issue de Dudas para separar los dos temas, En este caso, SelfTraining:

Implementando el SefTrainning, para los casos de muy pocos datos etiquetados la probabilidad que me da los clasificadores base ya en la primera iteración es muy alta es decir casi siempre da valores de probabilidad >0.98 (por la simplicidad del modelo entiendo) excepto para RF. Con lo que en la primera iteración añadiría prácticamente todos los datos NoEtiquetados como validos juntamente con sus predicciones. Lo hablamos en la próxima reunión

Muchas gracias !

Dashboard publicado online con PowerBI

@jjrodriguez @alvarag he publicado el dashboard con Power BI (online) he encontrado una opción que me permite hacerlo gratuitamente durante 60 dias a partir de una cuenta de microsoft (utilizo la de ubu) os habra llegado una invitación.

https://app.powerbi.com/groups/5908ed4e-7aec-428c-bbb1-21ddbb1761d0/reports/e4048998-0fbf-4825-a34c-b9ee11245834?ctid=2aa3b0b5-a782-4f38-a898-e483b20e8d61

Familiarizarse con Spark y ML (vision general)

Documentar en la memoria:

Que es Spark
-Porque Spark
Arch Spark
-Componentes Spark
-....

Posteriormente profundizar en la capa ML y en concreto sobre los clasificadores base que vamos a utilizar

ClasificadoresBase - Implementacion Pipeline +Funcion (reutilizables)para todos los clasificadores (DT,RF,NB...)

La principal idea es abstraer el maximo posible la creación de los clasificadores creando una funcion que genere los diferentes clasificadores independientemente de los datos a utilizar.

Nueva Clase para SelfTraining

Donde definiresmo los metodos necesarios para implementar la el algoritmo y poder utilizarla dentro del contexto de Pipeline de ML Spark

Memoria

Estudiar con mas profundidad los algoritmos de aprendizaje Self and Co-training

Parte1(Estudio y Documentacion)

Esta parte seria:

Aprender el conceptor de pipeline, transformer, estimator ... para Spark
Familiarizarme con los classificadores base de spark
Estructurar los papers leidos cogiendo las ideas principales
-Entender en mas profundidad los dos algoritmos de aprendizaje con los que se quiere trabajar:
Self-Trainning
Co-Training

CoTraining

Comparatiba de resultados Supervisad (Parte 2) vs Self-Trainning

Duda - Paper Triguero-Garcia-Herrera (Keel) y sus implementaciones para poder comparar con Spark y Self/CoTraining

@alvarag @jjrodriguez He estado mirando los métodos del paper de Triguero concretamente para SelfTraining y no puede identificar los parametros que utiliza.

En el paper solo me sale las iteraciones (max iter), pero no dice nada del threshold (y según el algoritmo de self training que utiliza trabaja con un threshold, ya que está basado en este paper :(https://www.aclweb.org/anthology/P95-1026.pdf] he mirado en el Github de Keel pero no he visto nada de ningún threshold quizá se me escapa porque está en java y no es muy intuitivo el código para mi... No se, si os suena con que threshold pueden estar trabajando ¿?

Duda ClasificadoresBase Resultado (con los datos BCW y ADULT)

Duda respecto a los resultados conseguidos hasta ahora con los datos BCW y ADULT con los clasificadores Base (supervisado)

Para discutirlo a la vuelta de vacaciones:

Resultados (accuracy) : (https://github.com/Dguipla/TFM-SemiSup/blob/main/notebooks/ClasificadoresSupervisado/resultsClasificadoresBase.csv)

PD: añadiré el resultado de los otros conjunto de datos en cuanto tenga hecho el pipeline de featurization de cada uno para acloplarlo con el pipeline general

dguipla / tfm-semisup Goto Github PK

tfm-semisup's People

Contributors

Watchers

tfm-semisup's Issues

Recommend Projects

Recommend Topics

Recommend Org