Si los tamaños de muestra son desiguales, debemos usar la prueba t de varianzas no agrupadas. Si son iguales, use la agrupada. Aquí hay un extracto de "Understanding and Using Statistics in Psychology" (que coescribí con Phil Banyard).
"Hay varias formas diferentes de decidir si tus varianzas (o desviaciones estándar) son iguales. Una de las más comunes es la prueba de Levene. Si la prueba de Levene es estadísticamente significativa, esto significa que tus varianzas son diferentes entre sí y debes usar la prueba t de varianzas no agrupadas, que no asume homogeneidad de varianza. Si la prueba de Levene no es estadísticamente significativa, no tienes evidencia de que tus varianzas sean diferentes. En ese caso, es posible que puedas usar la prueba t de varianzas agrupadas (la prueba t normal).
Bien, ahora que eso está claro, te contamos la segunda razón por la que es un poco complicado. (¿Aún estabas esperando la segunda razón por la que era complicado?) El problema es que un resultado no significativo no significa que las varianzas sean iguales. Simplemente significa que no hemos encontrado que las varianzas sean diferentes. Y el problema con las pruebas, como la prueba de Levene, es que dependen del tamaño de la muestra, por lo que cuando el tamaño de la muestra es pequeño, la prueba de Levene no es muy buena para detectar diferencias en las varianzas. Cuando el tamaño de la muestra es grande, la prueba de Levene es muy buena para detectar diferencias en las varianzas.
¿Cuándo crees que es más importante que las varianzas sean iguales? Sí, eso es correcto, cuando el tamaño de la muestra es pequeño. Por lo tanto, cuando la prueba de Levene es buena para decirnos cuándo las varianzas son diferentes es precisamente cuando realmente no nos importa. Y cuando la prueba de Levene no es muy buena es precisamente cuando nos importa. Es un poco como tener una linterna solar: solo funciona cuando brilla el sol. (Ya casi terminamos, y si no entendiste bien la última parte, te va a gustar mucho la siguiente).
Resulta que la homogeneidad de varianza realmente no importa cuando los tamaños de muestra son aproximadamente iguales. Entonces, si tenemos tamaños de muestra iguales (o aproximadamente iguales), podemos ignorar la suposición de homogeneidad de varianza y usar la prueba t de varianzas agrupadas.
Cuando los tamaños de muestra son desiguales, la homogeneidad de varianza importa mucho más. Dado que solo tenemos pruebas de homogeneidad de varianza que pueden decirnos si la tenemos definitivamente o no, no debemos depender de ellas, y si los tamaños de muestra son desiguales, debemos usar la prueba t de varianzas no agrupadas. (Si realmente estás interesado en esto, hay un excelente artículo de Zimmerman (2004) que deberías leer)."
Aquí está la referencia de Zimmerman: http://onlinelibrary.wiley.com/doi/10.1348/000711004849222/full. Puede que esté detrás de un muro de pago, pero el resumen te dice todo lo que necesitas saber.
Aquí tienes la información del editor del libro del que se extrajo esto: http://www.sagepub.com/books/Book226292?siteId=sage-us&prodTypes=any&q=jeremy+miles&fs=1
Además, las varianzas iguales no asumidas no son la "versión de la prueba en SPSS", es la prueba t de Welch. La referencia es Welch, B. L. (1938). The significance of the difference between two means when the population variances are unequal. Biometrika 34: 29-35., que es bastante anterior a la producción de SPSS.