Artículo completo
Introducción
Durante los últimos cincuenta años, la Food and Drug Administration (FDA), con el apoyo del Congreso y de la comunidad científica de los Estados Unidos, consideró los estudios aleatorizados, a doble ciego, controlados con placebo y de grupos paralelos como el método putativo para evaluar nuevas opciones terapéuticas para los pacientes que presentan trastornos crónicos y recurrentes como la depresión. El Code of Federal Regulations (CFR) estipula que un antidepresivo nuevo debe ser superior en comparación con el placebo. Dicha superioridad debe ser demostrada mediante estudios clínicos de gran tamaño, multicéntricos, correctamente diseñados y controlados. Una vez demostrado dicho resultado, el patrocinador del estudio debe reproducir los hallazgos mediante la realización de un estudio clínico de diseño similar.
Se informó que en más del 50% de los estudios clínicos realizados recientemente en los cuales se evaluaron antidepresivos en etapa de investigación (que posteriormente fueron aprobados por la FDA) no se pudo demostrar la superioridad de la droga en comparación con el placebo.1 La magnitud de la respuesta a la administración de placebo parece haber aumentado en los estudios clínicos sobre antidepresivos realizados más recientemente, al igual que la respuesta a la administración de la droga, aunque en menor medida.2 La población de pacientes deprimidos reclutados en los estudios clínicos también podría estar cambiando. Recientemente, los investigadores advirtieron una reducción del reclutamiento de pacientes calificados y un aumento de la variación de los síntomas y antecedentes psiquiátricos.3
Existen otros factores que potencialmente pueden afectar el diseño de los estudios clínicos. Kornstein y col. hallaron que las mujeres presentan una mejor tolerancia al tratamiento con inhibidores selectivos de la recaptación de serotonina (ISRS) en comparación con la administración de antidepresivos tricíclicos.4,5 Estos hallazgos fueron reproducidos en algunos estudios6 pero no en otros.7 La inclusión de un gran número de grupos de pacientes que reciben diferentes tratamientos también puede aumentar el nivel de respuesta a la administración de placebo.8 Además, el esquema de dosificación (fijo o flexible) y la gravedad inicial de la depresión también pueden tener una influencia significativa sobre el éxito del estudio.9,10
De acuerdo con diversas publicaciones previas,9-11 identificamos varios factores relacionados con el diseño de los estudios clínicos y las características de los pacientes reclutados con el propósito de comprender las particularidades determinantes del éxito de los resultados. Todos los factores que pueden afectar los resultados de los estudios clínicos sobre antidepresivos fueron evaluados de manera individual en informes previos. No obstante, no se realizó un análisis multifactorial.
Con el objetivo de evaluar las características del diseño de los estudios y de los pacientes, obtuvimos acceso a los informes de la FDA sobre los estudios clínicos acerca de nueve antidepresivos aprobados en los EE.UU. entre 1985 y 2000. Planteamos como hipótesis que los estudios con resultados exitosos (aquellos en los cuales se halló una gran diferencia entre los antidepresivos y el placebo en términos de cambio del puntaje de la Hamilton Depression Rating Scale [HAM-D]) diferirían significativamente en comparación con los estudios menos exitosos en diversas variables relacionadas con las características del diseño y de los pacientes incluidos.
Métodos
Antecedentes
La FDA produce un informe (summary basis of approval [SBA]) para cada Solicitud de Fármaco Nuevo (New Drug Application [NDA]). Dicho informe es compilado por el personal de la FDA, entre ellos médicos, químicos, farmacólogos, toxicólogos, farmacéuticos, etcétera, cada uno de los cuales estudia diferentes aspectos de la NDA. El médico de rango más elevado autoriza el informe completo y añade fragmentos de la información en el rótulo del producto.
A través de la Ley de Libre Acceso a la Información (Freedom of Information Act),12 el público tiene acceso a los informes SBA, que contienen tanto los resultados de los estudios preclínicos como las revisiones de los datos clínicos. Las revisiones de los datos provenientes de los estudios clínicos incluyen información médica y estadística y la cantidad de detalles que proporcionan varía considerablemente. La extensión de los informes promedia las doscientas páginas, aunque algunos son más cortos y en otros se incluyen más detalles. Cada informe resume los datos sobre la eficacia y seguridad obtenidos a partir de aproximadamente tres mil a diez mil pacientes. Todos los sujetos incluidos en los informes SBA se comprometen voluntariamente a participar en un estudio clínico y son asignados al azar para recibir un determinado tratamiento (intención de tratar). Dichos estudios son llevados a cabo mediante el escrutinio riguroso de los organismos correspondientes, de acuerdo con el Procedimiento de Evaluación de un Fármaco Nuevo en Etapa de Invesigación (Investigational New Drug [IND]). Esto se debe a que los estudios que aun no fueron aprobados son diseñados para investigar indicaciones nuevas no aprobadas o se expone a los individuos a drogas no autorizadas.
A diferencia de lo que sucede con los estudios publicados, la comunicación selectiva de los resultados favorables no sucede debido a que las normas federales exigen que los patrocinadores farmacéuticos informen los resultados de todos los estudios clínicos sobre la droga en investigación. Por esta razón y porque los revisores médicos no tienen relaciones que puedan generar conflictos de intereses, los estudios incluidos en los informes SBA comúnmente son tomados como representativos de los estudios sin sesgo de selección.
En las secciones de los informes SBA habitualmente se incluyen recomendaciones para la aprobación, una perspectiva del programa clínico con descripciones de las características específicas del diseño de los estudios clínicos, datos acerca de la eficacia, hallazgos sobre la seguridad, revisiones estadísticas, dosis recomendadas e información para el uso de la droga en poblaciones especiales. En la presente revisión nos centramos en la sección de eficacia incluida en los informes SBA. Dicha sección contiene información acerca de los principales estudios utilizados para establecer la eficacia mediante la demostración de la superioridad de un antidepresivo en investigación en comparación con un placebo, un agente comparador activo o ambos.
Extracción de datos
Obtuvimos los datos acerca de estudios clínicos presentados a la FDA sobre nueve antidepresivos aprobados en los Estados Unidos entre el 1 de enero de 1985 y el 31 de diciembre de 2000. Dichos antidepresivos fueron: clorhidrato de bupropion de liberación sostenida, bromohidrato de citalopram, clorhidrato de fluoxetina, mirtazapina, clorhidrato de nefazodona, clorhidrato de paroxetina, clorhidrato de sertralina, clorhidrato de venlafaxina y clorhidrato de venlafaxina de liberación sostenida. Accedimos a la información mencionada por una módica suma mediante una solicitud específica dirigida a la FDA (Freedom of Information Staff, 5600 Fishers Lane, HFI-35 Rockville, MD 20857). Adquirimos información acerca de los estudios clínicos más recientes en el sitio web de la FDA, cuya dirección es www.fda.gov. En cuanto a las investigaciones sobre los nueve agentes mencionados, la FDA consideró que 56 estudios clínicos eran imprescindibles. Nosotros excluimos tres de esos estudios debido a la falta de información sobre el puntaje total de la HAM-D y otro debido a que en él se analizaba la prevención de las recaídas en lugar de la respuesta al tratamiento a corto plazo.
En los 52 estudios restantes sobre antidepresivos se incluyeron 92 grupos de tratamiento, 69 grupos de investigación y 23 grupos de control activo. Identificamos nueve factores relacionados con las características de los pacientes o del diseño en cada estudio: gravedad inicial del cuadro depresivo, duración del estudio, administración de dosis fijas o flexibles, cantidad de sitios de estudio, cantidad de tratamientos evaluados, cantidad de pacientes por condición, edad de los pacientes, porcentaje de mujeres incluidas en el grupo de referencia y porcentaje de pacientes mujeres incluidas en el grupo de tratamiento con antidepresivos. Los informes SBA no contienen información detallada como los puntajes individuales de la HAM-D13 y la duración del episodio depresivo. No obstante, proporcionan los valores medios para todos los participantes incluidos en cada estudio.
Con el objetivo de evaluar el índice de éxito entre los estudios clínicos sobre antidepresivos estimamos las diferencias entre la droga y el placebo. Para llevar a cabo esta tarea se realizó una sustracción entre el cambio total del puntaje de la HAM-D correspondiente al grupo placebo y el cambio total del puntaje de dicha escala correspondiente al grupo tratado con antidepresivos. Por ejemplo, si el cambio promedio en el puntaje de la HAM-D para el grupo tratado con antidepresivos fuese 9, y para el grupo de referencia fuera 6, la diferencia entre ambos grupos sería 3.
El procedimiento que utilizamos para investigar las características de los pacientes y del diseño de los estudios consistió en la división de las 52 investigaciones seleccionadas en dos grupos, de acuerdo con la diferencia hallada entre el antidepresivo y el placebo. Al tener en cuenta todos los estudios, la diferencia media osciló entre -2.3 y 9.4. Las divisiones se efectuaron según la diferencia entre el antidepresivo y el placebo fuera mayor o igual al (n = 26) o menor (n = 26) en comparación con la media. Clasificamos los estudios cuyos valores estaban por encima de la media como “más exitosos” y aquellos con valores por debajo de la media como “menos exitosos”.
Para evaluar aun más el éxito de las características específicas del diseño y de los participantes subdividimos los estudios seleccionados en cuartilos sobre la base de las diferencias medias entre la administración de antidepresivos y placebo. Analizamos estadísticamente los dos grupos más extremos: los estudios con la mayor diferencia entre el antidepresivo y el placebo (n = 13) y aquellos con la diferencia más pequeña (n = 13). El primer cuartilo se correspondió con los estudios “más exitosos”, y el último, con los “menos exitosos”. Esta división nos permitió examinar más profundamente cuáles eran las características del diseño que definían los estudios más o menos exitosos.
En los casos apropiados para la aplicación de los parámetros estadísticos, utilizamos pruebas de la t para comparar las características del diseño de los estudios clínicos sobre antidepresivos “más exitosos” y “menos exitosos”. Para efectuar un análisis no paramétrico de comparación de los datos utilizamos la prueba de la U de Mann-Whitney. La eliminación de pares nos permitió excluir los estudios para los cuales no se poseían los datos sobre determinadas variables y así utilizar la información disponible para la realización de todos los demás análisis. También llevamos a cabo un análisis correlacional para detectar alguna relación lineal entre las características de los estudios y el grado de éxito de acuerdo con la diferencia entre la administración de placebo y antidepresivo.
Resultados
De los 52 estudios analizados, clasificamos 26 como los “más exitosos” y 26 como los “menos exitosos”. El procedimiento de división de acuerdo con la media fue validado por el hallazgo de una discrepancia significativa entre la diferencia placebo-antidepresivo correspondiente a cada grupo, determinada según el cambio en el puntaje total de la HAM-D. Al realizar la comparación entre los estudios “menos exitosos” y “más exitosos” mediante el procedimiento de división utilizado, observamos que varias características presentaban trascendencia estadística.
El puntaje inicial correspondiente a la HAM-D difirió significativamente entre los estudios menos exitosos y más exitosos (p < 0.05). En los estudios más exitosos participaron pacientes con cuadros depresivos más graves. Los estudios con diferencias mayores entre el tratamiento antidepresivo y la administración de placebo según los cambios del puntaje total de la HAM-D determinados mediante la última observación llevada a cabo (last observation carried forward [LOCF]) presentaron un éxito mucho mayor (p < 0.001). El porcentaje de mujeres incluidas en el grupo tratado con placebo (p < 0.05) y el porcentaje de mujeres que recibieron antidepresivos (p < 0.01) difirieron significativamente entre los estudios más exitosos y los estudios menos exitosos. En los estudios más exitosos se reclutó un porcentaje menor de mujeres, tanto en el grupo tratado con placebo como entre los pacientes que recibieron antidepresivos. En general, las diferencias entre la administración de placebo y antidepresivos fueron mayores entre los hombres en comparación con las mujeres. Además, en los estudios en los cuales se administraron dosis flexibles en vez de dosis fijas se observó un índice de éxito más elevado (p < 0.01). Aparentemente, la duración de los estudios, el número de locaciones, la cantidad de pacientes que recibió cada modalidad de tratamiento y la edad de los participantes no contribuyeron al éxito de los resultados.
Luego de dividir los 52 estudios en cuartilos, efectuamos una comparación entre las nueve características del diseño y de los pacientes incluidos en los dos grupos más extremos (aquellos con la mayor y menor diferencia entre la administración de antidepresivo y placebo, respectivamente). Las diferencias entre la respuesta a la administración de antidepresivo o placebo fueron significativas entre los dos grupos al comparar el cambio del puntaje correspondiente a la HAM-D. De acuerdo con los resultados de la comparación entre los estudios “más exitosos” y “menos exitosos” efectuada mediante el procedimiento de división en cuartilos, las características que difirieron significativamente entre los estudios fueron: el puntaje inicial correspondiente a la HAM-D (p < 0.01), la diferencia entre la administración de antidepresivo y placebo determinada mediante el cambio en el puntaje de dicha escala estimada de acuerdo con la última observación llevada a cabo (p < 0.001), la cantidad de modalidades terapéuticas (p < 0.05), el porcentaje de pacientes de sexo femenino incluidas en el grupo de referencia (p < 0.01), el porcentaje de pacientes de sexo femenino incluidas en el grupo tratado con antidepresivos (p < 0.05) y la utilización de dosis flexibles (p < 0.05). La única diferencia que observamos entre la división en medios y la división en cuartilos fue que los estudios más exitosos incluyeron menos grupos terapéuticos diferentes. La duración del estudio, la cantidad de locaciones, el número de pacientes por condición y la edad de los pacientes tuvieron efectos mínimos sobre el resultado de los estudios.
No sólo examinamos el significado de cada una de las variables mencionadas, también observamos el alcance de dicho significado para detectar cualquier influencia sobre los resultados. Por ejemplo, el puntaje medio inicial correspondiente a la HAM-D osciló entre 21.6 y 33. La cantidad de modalidades terapéuticas varió entre 2 y 5, y la duración del estudio fue de 4 a 12 semanas. La cantidad de locaciones osciló entre 1 y 18, y la cantidad de pacientes por condición fue 21 a 172. La edad media de los pacientes osciló entre los 33.0 y 77.1 años.
Mediante el análisis correlacional se detectó la relación lineal entre las características del estudio y la magnitud de la respuesta a la administración de antidepresivos o placebo demostrada mediante la diferencia total en el puntaje de la HAM-D estimada mediante el análisis de la última observación efectuada. Notamos una correlación significativa y positiva entre la diferencia inicial antidepresivo-placebo, el puntaje inicial correspondiente a la HAM-D (r = 0.42; p = 0.002) y la administración de dosis flexibles de la droga (r = 0.36; p = 0.01). Observamos una correlación significativa y negativa entre la diferencia antidepresivo-placebo y la cantidad de modalidades terapéuticas evaluadas (r = -0.33; p = 0.02), el porcentaje de pacientes de sexo femenino incluidas en el grupo de referencia (r = -0.36; p = 0.02), y el porcentaje de pacientes de sexo femenino tratadas con antidepresivos (r = -0.31; p = 0.05). La duración del estudio, cantidad de locaciones, número de pacientes y edad de los pacientes no parecieron afectar el resultado del estudio.
Discusión
En la presente revisión evaluamos varias características de diseño y de los participantes asociadas con el resultado de los estudios clínicos sobre antidepresivos. Examinamos las siguientes drogas aprobadas por la FDA entre el 1 de enero de 1985 y el 31 de diciembre de 2000: clorhidrato de bupropion de liberación sostenida, bromohidrato de citalopram, clorhidrato de fluoxetina, mirtazapina, clorhidrato de nefazodona, clorhidrato de paroxetina, clorhidrato de sertralina, clorhidrato de venlafaxina y clorhidrato de venlafaxina de liberación sostenida. De acuerdo con lo sugerido por nuestros resultados, los estudios exitosos se relacionan con puntajes correspondientes a la HAM-D previos a la distribución aleatoria más elevados, administración de dosis flexibles de la droga en estudio, inclusión de una cantidad menor de modalidades terapéuticas y menor cantidad de mujeres incluidas tanto en el grupo de referencia como en el tratado con antidepresivos.
En coincidencia con lo esperado, se observó una relación entre la depresión inicialmente más grave y la administración de dosis flexibles y el éxito de los resultados de los estudios clínicos. Nosotros informamos dichos hallazgos en un análisis efectuado previamente sobre los informes SBA de la FDA.1,10 Nuestros resultados también refuerzan la conclusión de que un mayor número de modalidades terapéuticas evaluadas se correlaciona con una respuesta a la administración de placebo de mayor magnitud.8 La mayor respuesta a la administración de placebo minimiza la diferencia entre dicha respuesta y la correspondiente al tratamiento antidepresivo, con lo cual disminuye la oportunidad de obtención de resultados exitosos. No anticipamos la falta de relación entre los resultados y la duración del estudio clínico, cantidad de locaciones y número de pacientes incluidos en cada grupo.
En los estudios con resultados más exitosos participaron menos mujeres y más hombres, lo cual sugiere que la inclusión de una cantidad mayor mujeres disminuiría el éxito del estudio. No obstante, este hallazgo es difícil de corroborar ya que en los informes SBA no se señaló la relación entre los puntajes y el sexo del paciente. Además, ésta es una conclusión complicada de obtener dado que la FDA reclutó menos mujeres en edad fértil durante la década de 1980 debido a las incertidumbres sobre los efectos de los antidepresivos en este tipo de pacientes.
El rango de edades de los pacientes fue pequeño y osciló entre 33.0 y 77.1, con lo cual la población geriátrica no fue representada adecuadamente. Tampoco existió información acerca de los pacientes pediátricos. Además, la HAM-D fue el único sistema de puntuación utilizado por la FDA. En análisis futuros será necesario incluir otras escalas como la Montgomery-Asberg Depression Rating Scale (MADRS) y las versiones modificadas de la HAM-D. En los informes SBA no se incluyó información suficiente para comparar factores individuales como los antecedentes de enfermedad o episodios de depresión, subtipos de depresión o resistencia al tratamiento. Finalmente, la población incluida en los estudios clínicos no sería el indicador adecuado para estimar los efectos de las drogas sobre la población depresiva en general. De acuerdo con lo informado por Zimmerman y col., menos del 30% de todos los pacientes depresivos habitualmente atendidos reúnen los requisitos de inclusión en los estudios clínicos sobre antidepresivos.15
Los hallazgos incumben a los estudios clínicos sobre antidepresivos individuales estudiados. No obstante, no queda claro si las características de diseño informadas pueden aplicarse universalmente en el diseño de estudios futuros. Desafortunadamente, sólo pudimos evaluar nueve de los factores que influyen en el diseño de los estudios debido a la falta de información o coherencia de los informes SBA. Por ejemplo, la información acerca de los puntajes no procesados de cada paciente fue insuficiente. El flujo detallado de los pacientes y otras características demográficas iniciales como el índice de masa corporal y el sexo, en general, no se incluyeron o fueron incompletas. Si efectuamos un análisis acerca de los estudios clínicos sobre antidepresivos de acuerdo con las normas CONSORT sugeridas en el Journal of the American Medical Association (JAMA) y otras publicaciones, menos de la mitad de los informes reunirían los criterios de uniformidad y claridad. Si la FDA cumpliera más rigurosamente con las normas CONSORT nosotros tendríamos acceso a información más consistente en relación con los diferentes antidepresivos para analizar un gran número de características de los ensayos clínicos que tendrían un impacto significativo sobre los resultados de los estudios.
En resumen, hallamos que ciertas características del diseño como la gravedad de la depresión previamente a la distribución aleatoria, la administración de dosis flexibles y la evaluación de un menor número de modalidades terapéuticas se relacionaron significativamente con resultados positivos. Además, en los estudios exitosos se reclutó una proporción mayor de hombres en comparación con las mujeres. La puesta en práctica de las características de diseño mencionadas puede ayudar a mejorar los resultados de los estudios clínicos sobre antidepresivos que se realicen en el futuro.
Bibliografía del artículo
1. Khan A, Khan S, Brown WA. Are placebo controls necessary to test new antidepressants and anxiolytics? Int J Neuropsychopharmacol 2002; 5:193-197.
2. Walsh BR, Seidman SN, Sysko R, Gould M. Placebo response in studies of major depression. JAMA 2002; 287:1840-1847.
3. Robinson DS, Rickels K. Concerns about clinical drug trials. J Clin Psychopharmacol 2000; 20:593-596.
4. Kornstein SG, Schatzberg AF, Thase ME, Yonkers KA, McCullough JP, Keitner GI, Gelenberg AJ, Davis SM, Harrison W, Keller MB. Gender differences in treatment response to sertraline versus imipramine in chronic depression. Am J Psychiatry 2000; 157:1445-1452.
5. Kornstein SG, Sloan DM, Thase ME. Gender-specific differences in depression and treatment response. Psychopharmacol Bull 2002; 36:99-112.
6. Khan A, Brodhead AE, Schwartz KA, Kolts RL, Brown WA. Sex differences in antidepressant response in recent antidepressant clinical trials. J Clin Psychopharmacol 2005; 25:318-324.
7. Quitkin FM, Stewart JW, McGrath PJ, Taylor BP, Tisminetzky MS, Petkova E, Ma YG, Klein DF. Are there differences between women's and men's antidepressant responses? Am J Psychiatry 2002; 159:1848-1854.
8. Zimmerman M, Posternak MA. Placebo response in antidepressant efficacy trials: relationship to number of active treatment groups, in 2003 Annual Meeting New Research Program and Abstracts. Arlington, Va, American Psychiatric Association, 2003, number 893.
9. Khan A, Leventhal RM, Khan SR, Brown WA. Severity of depression and response to antidepressants and placebo: an analysis of the Food and Drug Administration database. J Clin Psychopharmacol 2001; 22:40-45.
10. Khan A, Khan S, Walens G, Kolts R, Giller E. Frequency of positive studies among fixed and flexible dose antidepressant clinical trials: an analysis of the Food and Drug Administration summary basis of approval reports. Neuropsychopharmacology 2003; 28:552-557.
11. Khan A, Warner H, Brown WA. Symptom reduction and suicide risk in patients treated with placebo in antidepressant clinical trials: an analysis of the FDA database. Arch Gen Psychiatry 2000; 57:311-317.
12. Freedom of Information Act. 5 Congress 552 (1994 and Supp II 1996). http://www.usdoj.gov/04foia/.
13. Hamilton M. A rating scale for depression. J Neurol Neurosurg Psychiatry 1960; 23:56-62.
14. Khan A, Khan S, Leventhal R, Krishnan R, Gorman J. An application of the revised CONSORT standards to FDA summary reports of recently approved antidepressants and antipsychotics. Biological Psychiatry 2002; 52:62-67.
15. Zimmerman M, Mattia JI, Posternak MA. Are subjects in pharmacological treatment trials of depression representative of patients in routine clinical practice? Am J Psychiatry 2002; 159:469-473.