Características predictivas

En el ejemplo de la aseguradora hemos partido de información sobre los tomadores del seguro: edad, sexo, año en el que obtuvo el carné de conducir, la marca del coche, su potencia... información que podemos llevar a una tabla:

En esta tabla, cada columna recibe el nombre de atributo, campo, variable independiente, característica (feature en inglés) o característica predictiva (predictive feature). Obsérvese que esta información es en la que queremos basarnos para predecir si la persona de que se trate va a tener o no accidentes.

Por otro lado, cada fila de la tabla (correspondiente a una persona en nuestro ejemplo) recibe el nombre de muestra, instancia, instancia de entrenamiento (training instance), observación o registro. El nombre de muestra, aun siendo muy usado, puede resultar ambiguo pues, en estadística, una muestra es un subconjunto -normalmente aleatorio- de una población.

Esta tabla conteniendo las características predictivas será referenciada en nuestro código con la letra X (aplicando la convención habitual de dar a las matrices nombres de letras en mayúscula), y cada característica predictiva aparecerá referenciada en el texto del tutorial como x_i, siendo i el índice o posición de la columna contando desde la izquierda. Así, en la tabla anterior, tendríamos cinco características predictivas a las que podríamos referirnos como x₁ (la característica predictiva “Edad”), x₂, x₃, x₄ y x₅ (la característica predictiva “Potencia”).

Cuando sea necesario hacer referencia a una fila, usaremos la notación x⁽ⁱ⁾, siendo i el índice o posición de la fila contando de arriba hacia abajo. De esta forma, en la tabla anterior tenemos seis filas a las que podríamos referirnos como x⁽¹⁾ (la situada en la parte superior), x⁽²⁾, x⁽³⁾, x⁽⁴⁾, x⁽⁵⁾ y x⁽⁶⁾ (la situada en la parte inferior).

Combinando ambas notaciones, si quisiéramos hacer referencia al valor que una característica predictiva i toma en una fila j, escribiríamos x_i^(j).

Acerca de Interactive Chaos

Información de contacto