Principal Component Analysis (PCA) o Análisis de Componentes Principales es una técnica que se utiliza para transformar linealmente un conjunto de variables correlacionadas en un conjunto de variables no correlacionadas, llamadas componentes principales.
La transformación queda definida por una matriz que se construye a partir de los llamados eigenvectors de la matriz de covarianzas de las variables originales. Esto supone que cada componente (cada característica resultante) representa una combinación lineal de las variables originales, o, dicho con otras palabras, cada componente principal es una variable sintética que resume información de varias variables originales
Los componentes principales se ordenan de mayor a menor según la varianza explicada en los datos originales. La idea es que los primeros componentes principales retengan la mayor parte de la información de las variables originales (la mayor varianza), mientras que los últimos contengan menos información.
Esta ordenación nos permite seleccionar solo unos pocos componentes principales y aproximar los datos originales con éstos, sabiendo que estamos cubriendo la mayor varianza posible.