Eliminación de la colinealidad

La función pd.get_dummies() permite eliminar la primera de las columnas generadas para cada característica codificada para evitar la denominada colinealidad (que una de las características sea una combinación lineal de las otras), lo que puede dificultar el correcto funcionamiento de algunos algoritmos. Para ello basta con dar al argumento drop_first el valor True:

titanic = sns.load_dataset("titanic")
data = pd.get_dummies(titanic.embarked, drop_first = True)
data.head()

Eliminación de la colinealidad

Obsérvese que, a pesar de lo que pueda parecer, no estamos perdiendo información, pues aquellas muestras que tuviesen como valor el eliminado ("C") están siendo codificadas como [0, 0].