Glosario de filtros de preprocesamiento de Weka

Lo siguiente es una mera transcripción de la descripción de los filtros de preprocesamiento que aparecen en el manual oficial de Weka.

Supervised/Attributeglosario

  • AddClassification: añade una clasificación, la distribución de la clase y una bandera de error al conjunto de datos con un clasificador. El clasificador es o bien entrenado con los propios datos o bien es un modelo por defecto.
  • AttributeSelection: permite seleccionar atributos mediante métodos de búsqueda y evaluación. Es un filtro muy flexible.
  • ClassOrder: Cambia el orden de las clases según lo indique el usuario, de modo que los valores de cada clase no siguen en el orden especificado en la cabecera (pero no modifica a esta).
  • Discretize: discretiza atributos numéricos y los convierte en nominales según ciertos parámetros.
  • NominalToBinary: convierte los atributos nominales en numéricos binarios, de manera que un atributo nominal con k valores se convierte en k atributos binarios.
  • PLSFilter: ejecuta la regresión Partial Least Square en las instancias dadas y calcula la matriz beta resultante. Por defecto, se sustituyen los valores perdidos y centra los datos.

Supervised/Instance

  • Resample: produce una submuestra aleatoria de un conjunto de datos usando el muestreo con reemplazo. Para este filtro supervisado, es necesario que el conjunto de datos tenga al menos un atributo nominal. En caso contrario, usar el filtro no supervisado.
  • SMOTE: vuelve a muestrear un conjunto de datos mediante la aplicación de la técnica SMOTE (Synthetic Minority Oversampling TEchnique).
  • SpreadSubsample: produce una submuestra aleatoria de datos. Permite especificar la máxima propagación entre la clase más infrecuente y la más común.
  • StratifiedRemoveFolds: este filtro, a partir de un conjunto de datos, da como salida las hojas (folds) adecuadas para la validación cruzada en clasificación. Las hojas se estratificarán, si no se desea que sea así, usar el filtro no supervisado.

Unsupervised/Attribute

  • Add: añade un nuevo atributo al conjunto de datos. Los valores de este nuevo atributo serán datos perdidos. Algunos de los parámetros que podemos especificarle son el índice o lugar donde queremos que se inserte la columna (por defecto, el último), las etiquetas de valores que puede tomar en caso de ser nominal (si no especificamos, será numérico), el nombre del atributo (por defecto, ‘Unnamed‘).
  • AddCluster: añade un nuevo atributo nominal que representa el clúster asignado a cada instancia por el algoritmo especificado.
  • AddExpression: añade como último atributo el resultado de una expresión matemática que implica atributos y constantes numéricas del conjunto de datos. Esta expresión debemos especificarla antes de aplicar el filtro. Los operadores soportados son +, -, *, /, ^, log, abs, cos, exp, sqrt, floor, ceil, rint, tan, sin, (, ). Los atributos deben especificarse con el prefijo ‘a’ seguido de su índice (por ejemplo, a3 para el atributo de índice 3).
  • AddID: añade un atributo identificador que contiene un ID único para cada instancia.
  • AddNoise: introduce ruido a una submuestra aleatoria de datos cambiando un atributo dado (debe ser nominal).
  • AddValues: agrega las etiquetas de una lista dada a un atributo si se han perdido.
  • Center: centra todos los atributos numéricos para conseguir media cero.
  • ChangeDateFormat: cambia el formato de fecha de un atributo de tipo fecha.
  • ClassAsigner: asigna o cambia la clase dándole como parámetro el índice.
  • ClusterMembership: este filtro usa un clusterer (basado en la densidad) para obtener los valores de pertenencia al agrupamiento de cada instancia y las sacará como nuevas instancias. Si está puesta una clase nominal, el clusterer se llevará a cabo individualmente para cada clase.
  • Copy: copia un rango de atributos. Es útil si suponemos que aplicaremos un filtro que modificará dichos atributos pero aun así también queremos conservar los originales.
  • Discretize: al igual que el supervisado, Discretize convierte los atributos numéricos en nominales.
  • FirstOrder: tomando un rango de n atributos numéricos, FirstOrder los reemplaza por n-1 atributos numéricos cuyos valores serán la diferencia entre los atributos consecutivos, partiendo de la instancia original que se mantendrá como estaba.
  • InterquartileRange: detecta valores atípicos y extremos basado en rangos IQR.
  • KernelFilter: convierte una serie de variables predictoras dadas en una matriz kernel.
  • MakeIndicator: crea un nuevo conjunto de datos reemplazando un atributo nominal por uno booleano.
  • MathExpression: modifica los atributos numéricos de acuerdo a una expresión dada.
  • MargeTwoValues: fusiona dos valores de un atributo nominal a un único valor.
  • MultiInstanceToPropositional: convierte el conjunto de datos con múltiples instancias en un conjunto de datos de una única instancia, de manera que podemos aplicar otros filtros o transformaciones a estos datos para n preprocesamiento previo. El primer atributo de estos nuevos datos es un atributo nominal que se refiere al bagID.
  • NominalToBinary: convierte todos los atributos nominales en atributos numéricos binarios.
  • NominalToString: convierte un atributo de tipo nominal a tipo String.
  • Normalize: normaliza todos los valores numéricos del conjunto de datos. El rango de los datos pasa a ser [0, 1].
  • NumericCleaner: limpia los datos numéricos y cambia los valores que son muy pequeños, grandes o muy cercanos a cierto valor por valores estándar.
  • NumericToBinary: convierte todos los atributos numéricos en atributos numéricos binarios.
  • NumericToNominal:convierte los atributos numéricos en nominales.
  • NumericTransform: transforma los atributos numéricos con un método de transformación dado.
  • Obfuscate: renombra la relación, los nombres de los atributos y sus posibles valores en caso de ser nominales o de tipo String.
  • PartitionedMultiFilter: aplica filtros a un subconjunto de atributos y guarda la salida como un nuevo conjunto de datos.
  • PKIDiscretize:discretiza atributos numéricos usando la misma frecuencia de datos, pero la cantidad de rangos o bins será la raíz cuadrada del número de valores no perdidos.
  • PotentialClassIgnorer: este filtro debe ser llamado desde otros filtros no supervisados de atributos para permitir el procesamiento del atributo clase si se requiere.
  • PrincipalComponents: realiza un análisis de los componentes principales y de las transformaciones de los datos.
  • PropositionalTo MultiInstance: convierte el conjunto de datos de una única instancia propositiva en un conjunto de datos con múltiples instancias.
  • RandomProjection: reduce la dimensión de los datos proyectándola sobre un subespacio de menos dimensión usando una matriz aleatoria con columnas de unidades de longitud.
  • RandomSubset: elige un subconjunto aleatorio de atributos, ya sea un número o un porcentaje.
  • RELAGGS: es un filtro inspirado en el algoritmo RELAGGS. Procesa todos los atributos relacionales que caen en el rango definido por el usuario.
  • Remove: elimina una serie de atributos del conjunto de datos.
  • RemoveType: elimina los atributos de un tipo dado.
  • RemoveUseless: elimina los atributos que no varían o que varían mucho.
  • Reorder: genera una salida con un nuevo orden de los atributos.
  • ReplaceMissingValues: sustituye todos los valores perdidos de los atributos numéricos y nominales de un conjunto de datos con métodos sacado de los datos de entrenamiento.
  • Standarize: estandariza todos los atributos numéricos para tener de media cero y desviación estándar de uno( unit variance).
  • StringToNominal: convierte un atributo de tipo String en nominal.
  • StringToWordVector: convierte un atributo de tipo String en un conjunto de atributos que representan cada palabra contenida en el texto.
  • SwapValues: intercambia dos valores de un atributo nominal.
  • TimeSeriesDelta: asume que las instancias forman series cronológicas de datos y sustituye los valores de las instancias por la diferencia entre el valor actual y el pronosticado para ellas.
  • TimeSeriesTranslate: igual que el anterior, asume que se trata de series cronológicas de datos y sustituye los datos de las instancias por los valores equivalentes de alguna instancia precedente o futura.
  • Wavelet: filtro usado para la transformación wavelet.

Unsupervised/Instance

  • NonSparseToSparse: convierte todas las instancias de entrada a modo abreviado.
  • Normalize: normaliza instancias considerando solo los atributos numéricos e ignorando la clase.
  • Randomize: mezcla aleatoriamente el orden de las instancias.
  • RemoveFolds: da como salida una hoja (fold) específica para la validación cruzada.
  • RemoveMisclassified: elimina instancias incorrectamente clasificadas.
  • RemovePercentage: elimina cierto porcentaje dado de instancias del conjunto de datos.
  • RemoveRange: elimina cierto rango dado de instancias.
  • RemoveWithValues: elimina las instancias de acuerdo con un valor dado.
  • Resample: produce un subconjunto de ejemplo aleatorio usando el muestreo con reemplazo o sin reemplazo.
  • ReservoirSample: produce un subconjunto aleatorio de datos usando el algoritmo de muestre ‘R’, de Vitter.
  • SparseToNonSparse: convierte las instancias a modo completo.
Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s