por Robert Matthews
Septiembre 13, 1998
Copyright 1998 - The Sunday Telegraph (UK)
Muchos descubrimientos científicos no son más que espejismos basados en investigaciones defectuosas. Dan por resultado un derroche de impuestos, falsas afirmaciones para drogas nuevas y perjudiciales miedos acerca de la salud.
No parecía haber dudas al respecto: si usted iba a tener un ataque cardíaco, no había mejor tiempo para ello que a principios de los 90. Sus probabilidades de sobrevivir parecían ser más grandes que nunca. Las principales publicaciones médicas estaban informando los resultados de nuevas maneras de tratar a las víctimas de ataques cardíacos cuyo impacto en las tasas de mortalidad no eran bastante buenas –era asombroso.
En 1992, los ensayos hechos en Escocia sobre una droga que eliminaba los coágulos llamada Anistrepla-se sugerían que se podrían duplicar las probabilidades de sobrevivir. Un año más tarde emergió otra “Cura milagrosa”: inyecciones de magnesio, que los estudios sugerían que podrían también duplicar las tasas de supervivencia. Los principales cardiólogos alabaron a las inyecciones como un “tratamiento efectivo, seguro, simple y barato,” que podría salvar la vida de miles.
Pero algo extraño comenzó a suceder. En 1995, la revista The Lancet publicó los resultados de un enorme estudio internacional acerca de la tasa de supervivencia de 58.000 pacientes –y la asombrosa habilidad salvadora de las inyecciones de magnesio habían simplemente desaparecido. El Anistreplase se desempeño un poco mejor; la actual visión es la real efectividad es la mitad de la que sugerían los ensayos iniciales.
En la larga lucha contra al mayor asesino individual de Gran Bretaña, algunas desilusiones son obvia-mente inevitables. Y durante la última década o algo así, los científicos hallaron otros tratamientos que en los ensayos reducían la mortalidad hasta en un 30%. Pero, otra vez, algo extraño comenzó a suceder. Una vez que estas drogas pasaron de la etapa de ensayos clínicos y salieron al mercado, también ellas parecen perder sus asombrosas habilidades.
El año pasado, el Dr. Nigel Brown y colegas del Queen's Medical Center en Nottingham, publicaron una comparación las tasas de muerte por ataques cardíacos en paciente entre 1989 y 1992 y las de los pacientes en la Edad Oscura clínica de 1982.84, antes de tales milagros como la terapia trombolítica hubiese mostrado su éxito en los ensayos. Su meta era responder a la simple pregunta: ¿qué impacto tienen estos tratamiento “clínicamente demostrados” en las tasas de muerte fuera de los hospitales?
Juzgando por los resultados, los tratamientos maravilla nos deberían haber llevado a tasas de mortali-dad en los hospitales del 10 por ciento o algo así. Lo que el Dr. Brown y sus colegas descubrieron en realidad fu, para ponerlo de una manera suave, desconcertante. En los pabellones las drogas maravilla parecían no tener ningún efecto. En 1982, la tasa de muerte entre los pacientes admitidos con ataques cardíacos era del 20%. Diez años después, era el mismo 20% - el doble de lo que los ensayos clínicos habían predicho.
En la búsqueda de explicaciones, el Dr. Brown y sus colegas apuntaron a las diferencias entre pacientes y ensayos clínicos – que tienden a ser seleccionados a mano y cuestionados por los principales expertos – y el ordinario burgués que hernia yendo a los hospitales. También sugerían que las tardanzas de los pacientes en llegar a las salas de los hospitales podría impedir que las drogas maravilla mostrasen su verdadero valor.
Todo lo cual parecer ser perfectamente razonable – excepto que las terapias de ataques cardíacos no son los únicos “avances” que están probando ser travesuras que no dieron resultado en el mundo real. Durante años, los expertos en cáncer han visto una cantidad de drogas prometedoras fallar una vez que salen de la etapa de ensayos clínicos. En 1986, un análisis de las tasas de cáncer en el New England Journal of Medicine llegó a la conclusión que “Unos 35 años de intensos esfuerzos enfocado en gran parte en mejorar los tratamientos se tienen que calificar como fracasos.” El año pasado (1997) el mismo journal publicó una actualización: “Con 12 años más de datos y experiencia,” decían los autores, “Vemos muy pocas razones para cambiar esa conclusión.”
Los científicos que investigan los supuestos nexos entre males de la salud y varios “factores de riesgo” han visto la misma cosa: impresionante evidencia de un “riesgo significativo” –que luego se desvanece otra vez cuando otros tratan de confirmar su existencia. Leucemias y líneas de alta tensión, enferme-dad de tejidos conjuntivos e implantes de silicona, sal y presión arterial elevada, el humo de tabaco de segunda mano y cánceres y enfermedades cardiovasculares: todas tienen una impresionante montaña de estudios apuntando a “riesgos significativos.” –y otra impresionante montaña de evidencias que dicen lo contrario.
Es la misma historia más allá de las ciencias médicas, en campos desde la psicología a la genética: asombrosos descubrimientos de respetados grupos de científicos que también se desvanecen en el aire cuando alguien intenta replicar los estudios.
Es han hecho muchos esfuerzos para intentar explicar estos misteriosos casos del Adelanto Científi-co Desaparecido. Excesiva confianza en datos de pequeñas muestras, la renuencia de las revistas científicas publicar los hallazgos negativos de los primeros estudios, o simplemente trampear: todos han sido incluidos en la lsita de los sospechosos.
y sin embargo, el principal culpable ha sido conocido por los estadísticos desde hace mucho. Una pista de su identidad viene de una característica común que tienen todos estas disciplinas científicas: todas ellas se basan y confían en lo que llaman “ensayos significativos” para medir la importancia de sus descubrimientos.
Desarrollado a principios de los años 20, estos ensayos son usados de manera rutinaria por toda la comunidad científica. Miles de “papers” científicos y millones dólares y libras esterlinas en investigación científica se han basado en sus conclusiones. Ellas son ubicuas y fáciles de usar. Y ellas están peligrosa-mente y fundamentalmente equivocadas.
Usadas para analizar los ensayos clínicos, estas técnicas de manual de texto pueden duplicar la aparen-te efectividad de una nueva droga, y transformar un resultado fronterizo en un hallazgo altamente “significativo”. Ellas pueden arrojar sobre el tema muy convincentes –pero totalmente espurias eviden-cia- para nexos entre enfermedades y cualquier clase de causas supuestas. Hasta pueden dar un impresionante apoyo a las afirmaciones de la existencia de lo paranormal.
La mera sugestión de que estas fallas básicas en técnicas tan ampliamente usadas han sido ignoradas durante tanto tiempo resulta algo asombroso. Más asombroso aún es el hecho es que la comunidad científica ha sido advertida de estas fallas en repetidas ocasiones —y las ha ignorando por completo.
Como resultado, miles y miles de estudios de investigación son publicados todos los años, cuyas con-clusiones están basadas en técnicas que se sabe que no son confiables. El tiempo y el esfuerzo —además del dinero público— derrochado en tratar de confirmar el consiguiente hallazgo espurio es uno de los grandes escándalos científicos de nuestro tiempo.
las raíces de este escándalo son profundas, y tienen su origen en el trabajo de un matemático inglés y clérigo llamado Thomas Bayes, publicado hace uno 200 años. En su “Ensayo en Pos de Resolver un Problema en la Doctrina de las Probailidades” Bayes dio una asombrosa receta de asombroso poder. De manera simple, muestra cómo deberíamos cambiar nuestra creencia en una teoría a la luz de nuevas evidencias.
Uno no necesita ser un experto en estadística para ver la importancia fundamental del “Teorema de Bayes” para la investigación científica. Desde el estudio del cosmos hasta los ensayos de drogas para el cáncer, toda investigación se trata, en última instancia, acerca de descubrir cómo deberíamos cambiar nuestra creencia en una creencia a medida de que emergen nueva evidencias.
Durante 150 años, el Teorema de Bayes formó los cimientos de la ciencia estadística, permitiendo a los investigadores evaluar el significado de los nuevos resultados. Pero durante la primera parte de ese siglo, una cantidad de influyentes matemáticos y filósofos comenzaron a presentar objeciones al Teorema de Bayes. La más acusante era también la más simple: Diferentes personas podrían usar el Teorme de Bayes y obtener resultados diferentes.
Enfrentados con la misma evidencia experimental en, digamos, PES (percepción extrasensorial) los creyentes podrían usar el Teorema de Bayes para afirmar que los nuevos resultados implicaban que la telepatía es casi ciertamente real. Los escépticos, por el contrario, podrían usar al Teorema de Bayes para insistir que no estaban aún convencidos.
Ambas visones son posibles porque el Teorema de Bayes sólo muestra la manera en que uno puede alterar su previo nivel de creencias –y personas diferentes pueden empezar con diferentes opiniones.
Para los no científicos, esto no parece ser una falla ilustre en absoluto: lo que una persona puede ver como evidencia convincente pude, obviamente, no impresionar a otros de la misma manera. No impor-ta: el hecho de que el Teorema de Bayes podría llevar a diferentes personas a diferentes conclusiones, lo llevó a estar unido de modo inseparable al concepto más repelente conocido por los científicos: la subjetividad.
Es difícil de transmitir las emociones suscitadas dentro de la comunidad científica por la palabra Subjetividad. Es vista como el bárbaro a las puertas de la ciencia, el enemigo de la verdad objetiva, el destructor del entendimiento. Es vista como el virus mental que ha convertido a la humanidad en un libre-para-todo intelectual, donde la idea de “progreso” es desechada como burguesa, y la creencia en “hechos” en algo ingenuo. Una vez permitido su ingreso a la ciudadela de l ciencia, dice el argumento, la subjetividad transformaría a todas las investigaciones en Crit. Lit. (Literatura crítica) glorificada.
Para los años 20, el Teorema de Bayes había sido declarado una herejía –lo que creaba el problema: ¿con qué lo reemplazarían los científicos? La respuesta provino de uno de los más brillantes críticos de Bayes: el matemático y genetista de Cambridge, Ronald Aylmer Fisher –el padre de la estadística moderna.
Pocos científicos tenían mayor necesidad de un reemplazo de Bayes que el mismo Fisher, quien trabaja-ba frecuentemente con complejos datos de experimentos de reproducción de plantas. Basado en su gran habilidad como matemático, se lanzó a buscar una nueva y completamente objetiva manera de obtener conclusiones de los experimentos. En 1925 él creía que había tenido éxito, y publicó sus técni-cas en un libro, “Métodos Estadísticos de Trabajadores en Investigación.” Estaba destinado a conver-tirse en uno de los textos más influyentes en la historia de la ciencia, y puso los cimientos para virtual-mente todas las estadísticas que hoy usan los científicos.
Fisher había logrado los que Bayes afirmaba que era imposible; había hallado la forma para juzgar la “significación” de los datos experimentales de manera objetiva. Es decir, había descubierto una manera que cualquiera podría usar para mostrar que un resultados era demasiado impresionante como ser desechado como un evento fortuito.
Según Fisher, todo lo que los científicos tenían que hacer era convertir su información cruda en algo llamado el Valor-P, una cifra que daba la probabilidad de obtener resultados tan impresionantes como lo vistos por sólo la casualidad. Si este valor está por debajo de 1 en 20, o sea, 0,05 dijo Fisher, era seguro considerar que un hallazgo era realmente “significante”.
Combinando la simplicidad con la aparente objetividad, el método del Valor-P de Fisher fue un inme-diato éxito en la comunidad científica. Su popularidad se mantiene hasta estos días. Abra usted cual-quier revista científica y podrá ver la frase “P < 0,05” –la marca de un hallazgo significativo – en estudios de cualquier área de investigación concebible, desde astronomía hasta zoología. Cada año aparecen libros de texto sobre estadística para explicar la simple y pequeña receta de Fisher a una nueva generación de investigadores.
Pero a medida de que los científicos iban adoptando los Valores-P, los estadísticos comenzaron a hacer una incómoda pregunta. La más reveladora fue hecha por el distinguido matemático de Cambridge, Harold Jeffreys. Escribiendo en us propio tratado de estadísticas, la Teoría de las Probabilidades, publicado en 1939, Jeffreys hacía la obvia pregunta: ¿Por qué la línea divisoria para la significación establecida por Fisher tenía que ser necesariamente 0,05?
Esta aparentemente inocua pregunta tiene implicancias profundas, porque la cifra 0,05 sigue siendo el sine qua non para decidir si un resultados científico es “significativo”. Todos los científicos saben que si su experimento tiene un valor-P que cumple con las normas de Fisher, están en camino de tener un “paper” publicable.
La norma de Fisher es todavía más importante para las compañías farmacéuticas, dado que las orga-nizaciones reguladoras nacionales siguen hasta hoy usando el valor 0,05 de Fisher para decidir si aprueban o no una droga para uso público. Obtener un ensayo de drogas que resulta con un valor-P que supere los valore de fisher puede ser la diferencia entre millones en ganancias y la bancarrota.
Entonces, ¿cuáles fueron los brillantes pensamientos de Fisher que lo llevaron a elegir una cifra tan talismánica de 0,05, sobre la cual tantos estudios científicos se han basado o fracasado? Increíblemente, como lo dice el mismo Fisher, no hubo ninguno. Simplemente se decidió por 0,05 porque era “mate-máticamente conveniente.”
Las implicaciones de esto son realmente perturbadoras. Significa que cuestiones científicas claves tales como si una nueva droga para el corazón es vista como efectiva, o si la dieta esta realmente ligada con el cáncer están siendo decididas por una norma enteramente arbitraria elegida hace 70 años –por “conveniencias matemáticas”.
Esto no importaría mucho si Fisher hubiese tenido suerte y hubiese elegido una cifra que haga que el riesgo de ser engañado por un resultado fortuito sea muy bajo. sin embargo, los estadísticos saben de sobra que esa elección fue una particularmente mala –y que muchos hallazgos supuestamente “signi-ficantes” son de hecho totalmente espurios.
Las primeras sospechas de esta muy preocupante característica del método de Fisher surgió primero a principios de los años 60, a consecuencia de un resurgimiento del interés en el Teorema de Bayes. Se demostró que muchas de las supuestamente “insuperables” objeciones hechas a su uso carecían de fundamentos, y el teorema ha emergido otra vez como uno de los Axiomas de la entera Teoría de la Probabilidad. Como tal, sus implicancias para la estadística no pueden ser barridas a un lado –sin importar lo repugnante que los científicos puedan hallarlas.
Y la más importante de todas esas implicancias es que, como el mismo Bayes había insistido hace 200 años, es realmente imposible juzgar la “significación” de la información aisladamente. De manera cru-cial, tiene que tenerse en cuanta a la plausibilidad de los datos.
Usando el Teorema de Bayes, una cantidad de importantes estadísticos comenzaron a probar la confia-bilidad de los valores-P como medida de “significación.” Lo que descubrieron no podría ser más serio.
Básicamente el “Standard 0,05” de Fisher sugiere que las chances de que una mera casualidad sea la verdadera explicación de un resultado cualquiera es justo de 5 en 100 –mucha protección en contra de ser engañado. Pero en 1963, un equipo de estadísticos de la Universidad de Michigan demostró que las reales probabilidades de ser engañados por la casualidad son 10 veces mayores.
A causa de que no toma en cuenta a la plausibilidad, el ensayo de Fisher puede ver “signifi-cación” en resultados que en verdad tienen 50% de probabilidades de ser una tontería total. El equipo, que incluyó al Profesor Leonard Savage, uno de los más distinguidos expertos en probabilidad de los tiempos modernos –alertó a los investigadores de que la pequeña receta de Fisher era sorprendentemente propensa a ver significación en resultados casuales.
A pesar de haber sido publicado en la prestigiosa revista Psychological Review, fue una advertencia que pasó desapercibida. Durante los próximos 30 años, otros estadísticos han tratado igualmente de hacer sonar la campana de alarma, pero nuevamente sin éxito. Durante los años 80, el Profesor James Berger de la Universidad Purdue, una autoridad mundial en el Teorema de Bayes, publicó una serie entera de artículos científicos alertando nuevamente contra la “asombrosa” tendencia de los valores-P de Fisher de exagerar la significación. Decía Berger que los estudios que llegaban al Standard 0,05, el valor “pue-de en realidad surgir cuando los datos proveen poca o ninguna evidencia a favor de un efecto.”
Una vez más, todas las advertencias fueron ignoradas.
En 1986 un científico se decidió a tomar acciones directas contra las fallas de los métodos de Fisher. El Profesor Kenneth Rothman de la Universidad de Massachussets, editor del muy respetado American Journal of Public Health le comunicó a los investigadores que deseasen publicar en el journal que no aceptaría más resultados basados en valores-P. Fue un simple movimiento que tuvo efectos dramáti-cos: la enseñanza en las principales escuelas norteamericanas de salud pública fue transformada, revisándose los cursos de estadísticas para entrenar a los estudiantes en alternativas a los valores-P. Pero dos años más tarde, cuando Rothman dejó de ser el editor del journal, su prohibición de los valores-P también fue eliminada, y los investigadores retornaron a sus antiguas costumbres de halar significación donde no la había.
La misma historia se repitió en Gran Bretaña. En 1995 la British Psychological Society y su contraparte americana se pusieron calladamente a trabajar en equipo para considerar la introducción de una prohibición de los valore-P en sus revistas. Al año siguiente el equipo fue dispersado –no habiendo podido hacer ninguna decisión. “Fue sólo un caso de agotamiento natural,” dijo un miembro, “la visión era que causaría mucha conmoción en las revistas.”
Las principales revistas médicas británicas también han examinado la idea de prohibir a los valores-P, pero también se han retirado. En su lugar meramente sugieren que ls investigadores usen otros medios para medir la “significación.” Sin embargo, ya se conoce que estos métodos alternativos sufren de fallas similares a los valores-P, exagerando tanto el tamaño de efectos improbables y su significación.
Más de 30 años después de que se hicieron sonar las alarmas, se ha hecho claro que la comunidad científica no tiene ninguna intención de enfrentar las fallas de los ensayos de significación. Sin embargo, las evidencia de esas fallas están por todas partes donde se mire: débiles afirmaciones de riesgos de salud de una horda de causas improbables, “drogas maravilla” que pierden sus asombrosas cualidades fuera de la etapa de los ensayos clínicos, extravagantes conexiones entre genes y personalidad. Una impactante característica de las excusas dadas para la falta de acción es que se centran en asuntos como “conmoción en nuestras revistas,”, y “cambios radicales” necesarios en el entrenamiento de los científicos. Curiosamente, para una profesión supuestamente dedicada a descubrir verdades, asuntos como la “confiabilidad en las conclusiones de las investigaciones” no se mencionan jamás.
Es muy duro evitar la conclusión de que la verdadera explicación para toda la lentitud no es para nada científica. Simplemente es que si los científicos abandonan la significación de sus ensayos por los valo-res-P, muchas de sus animaciones y “hallazgos” se verían como lo que realmente son: casualidades sin significación alguna, en la que el dinero de los contribuyentes jamás se debería haber usado.
El hecho concreto es que en 1925 Ronald Fisher les dio a los científicos una máquina matemática para convertir tonterías sin sentido en “descubrimientos significativos”, y casualidades en finan-ciación. Es tiempo de quitar el tapón de la bañera.
NOTA de FAEC: Muy poco hay que añadir a esta advertencia hecha en 1998 sobre el fraude –verdadero y demostrado fraude científico- sobre la validez de los valores-P para darle significación a estudios que son realmente una basura vergonzosa. No hay probabilidad ninguna de que los “científicos” vayan a renunciar voluntariamente (por una honestidad de la que parecen carecer) a una herramienta tan útil, sin la cual jamás podrían seguir ganándose la vida como investigadores.
Y gracias a esta fraudulenta herramienta que les permite seguir otorgando valor “científico” a afirmaciones absurdas como la relación del humo de tabaco en ambiente, o la del DDT con el cáncer de mama, y la falsa extinción de pájaros; o el aumento del CO2 y el calentamiento global “catastrófico”, o los CFC y la nunca demostrada reducción global de la capa de ozono, es que la cantidad de científicos que realizan investiga-ciones espurias se ha multiplicado vertiginosamente y consume ingentes sumas de dineros públicos (sólo en el “cambio climático” y tan sólo en los EEUU, se derrochan más de 4 mil millones de dólares anuales: la deuda externa que se le perdonó a Bolivia el año pasado) y cuyos resultados son intentar probar problemas que no existen y que sirven a intereses corporativos o geopolíticos. Como dice el autor, es hora de quitar el tapón y que la basura se vaya por el caño.
Eduardo Ferreyra
Presidente de FAECToda la historia de los temas comentados en este articulo, “hechos versus Facciones: el uso y abuso de la subjetividad en la investigación científica,” está disponible en el European Science and Environmental Forum, 4 Church Lane, Barton, Cambridge CB3 7BE, precio 3 libras.
Vea aquí otras interesantes
estadísticas de la página
¿Desde qué países nos visitan?
¿Quiénes son los visitantes?
No se enoje! Sólo díganos su opinión!