Si, tras aplicar el Kernel Trick, los puntos que queremos clasificar son, de hecho, linealmente separables, podremos identificar el hiperplano de máximo margen que los separa maximizando las distancias a las clases. En estas circunstancias no se estarán produciendo errores en la clasificación. Sin embargo, si las clases no son linealmente separables, no será posible encontrar el hiperplano en cuestión.
Con el término "margen duro" hacemos referencia al escenario en el que no se permiten errores en el entrenamiento: si se encuentra un hiperplano de máximo margen es porque clasifica correctamente todas las muestras. Este enfoque, como se ha comentado, no funcionará si las clases no son linealmente separables, escenarios en los que puede resultar más práctico permitir ciertos errores en la clasificación a cambio de poder seguir encontrando el hiperplano de máximo margen. Este segundo enfoque es el que denominamos "de margen blando".
Este concepto -que determina la función de coste del algoritmo- está regulado con el parámetro C: un valor mayor de C implica un coste mayor derivado de las muestras mal clasificadas. Un valor menor implica que las muestras mal clasificadas van a suponer un coste menor, por lo que se tiende a un escenario en el que se permite un mayor número de errores.