Los efectos del tratamiento son efectos causales de un tratamiento binario. Dado que el tratamiento es binario, las personas son tratadas o no son tratadas. Para fines de ejemplo, supongamos que el tratamiento es la participación en un curso que te enseña a ganar dinero: se afirma que el curso te hace mejorar en ganar dinero.
Obviamente, el efecto causal de dicho curso podría variar de una persona a otra (esto se conoce como heterogeneidad del tratamiento). Algunas personas pueden aprender mucho del curso y realmente mejorar en ganar dinero, mientras que otras se aburrirán con el contenido del curso y experimentarán un efecto nulo. Como es habitual cuando medidas cuantitativas importantes varían entre las unidades observadas, una estadística resumen canónica es el promedio. El Efecto Promedio del Tratamiento (ATE) es simplemente eso: el promedio de los efectos individuales del tratamiento de la población considerada. Y el Efecto Promedio del Tratamiento en los Tratados (ATT) es simplemente el promedio de los efectos individuales del tratamiento de aquellos tratados (por lo tanto, no de toda la población).
Para aclarar de manera formal cuál es el efecto causal del tratamiento, a menudo se asume que para cada individuo $i$ existe una cantidad de dinero $Y_i^0$ que el individuo $i$ ganará sin tomar el curso de formación. Y también existe una cantidad de dinero $Y^1_i$ que el individuo $i$ ganará si toma el curso. El efecto causal para el individuo $i$ de participar en el curso se define entonces como
$$\tau_i := Y_i^1 - Y^0_i,$$
la diferencia en el resultado con y sin tratamiento.
Para fines de ejemplo, considera la siguiente tabla para 6 individuos:
Es claro a partir de la tabla que los individuos $i=1,2,3$ están tratados $D_i=1$ mientras que los individuos $i=4,5,6$ no están tratados. Para aquellos que están tratados, la cantidad observada de dinero que gana el individuo $Y_i$ es igual a $Y_i^1$. Para aquellos no tratados, la cantidad observada de dinero que gana el individuo $Y_i$ es igual a $Y_i^0$. En general, esto se escribe como
$$Y_i = D_i Y_i^1 + (1-D_i)Y_i^0.$$
Una parte importante de la configuración es, por lo tanto, que mientras se asume que $Y_i^1$ y $Y_i^0$ existen, no se asume que sean observados.
Sin embargo, volviendo a ATT y ATE. En el ejemplo anterior, el ATE se puede calcular como
$$ATE := \frac{1}{N} \sum_i \tau_i = \frac{1}{N} \sum_i (Y_i^1 - Y_i^0) = \frac{1+1+1+0+1-1}{6} = 0.5,$$
y el efecto promedio del tratamiento de los tratados se calcula como
$$ATT := \frac{1}{N_1} \sum_i \tau_i = \frac{1}{N_1} \sum_i (Y_i^1 - Y_i^0) = \frac{1+1+1}{3} = 1.0,$$
donde $N_1 = \sum_i D_i = 3$.
En este ejemplo, ATE y ATT son numéricamente iguales, pero como puedes ver, son promedios de diferentes conjuntos de efectos causales individuales. Por lo tanto, no necesariamente se espera que sean iguales. Intenta construir un ejemplo por ti mismo donde sean diferentes simplemente cambiando el grupo de individuos tratados.
El efecto promedio del tratamiento (ATE) se utiliza cuando estamos interesados en el tratamiento promedio de toda la población, mientras que el efecto promedio del tratamiento en los tratados (ATT) se utiliza cuando solo estamos interesados en el efecto promedio del tratamiento de aquellos tratados.