Revista XXV No. 4 de 2018

Reproducibilidad de sus resultados: Un reto ineludible para la investigación científica

Reproducibilidad de sus resultados: Un reto ineludible para la investigación científica

Pedro A. Monterrey

 

PhD. en Matemáticas

 

Profesor. Facultad de Ciencias Naturales y Matemáticas de la Universidad del Rosario

Resumen

La reproducibilidad de los resultados de la investigación científica se relaciona con la validez de sus conclusiones. Se ha encontrado que muchas de las investigaciones que se realizan en la actualidad no son reproducibles, y por tanto las publicaciones en las revistas científicas contienen errores en sus conclusiones. Son muchos los factores que se conjugan y que han conducido a esta situación, ellos se derivan de prácticas deficientes al diseñar, ejecutar y analizar las investigaciones; así de problemas y prácticas en las políticas científicas y de estímulo a la investigación.

Abstract

In scientific research, reproducibility is related with validity of research findings. However, many of present research results are not reproducible and, as a consequence, papers in scientific journals contains mistakes in their conclusions. There are many factors involved in such situation, mainly they are related with deficiencies in design, execution or analysis of research or are consequences of policies in science.

Palabras claves: Investigación. Reproducibilidad. Crisis

Key-words: Research. Reproducibility. Crisis


 

Introducción

La investigación y sus publicaciones científicas, han crecido exponencialmente desde los años 50 del siglo pasado; Pubmed, en julio de 2015, refirió que en 1991 tenía indexados 435 302 artículos y en 2014, 1 182 143. En unos 23 años lo publicado incrementó aproximadamente 2,7 veces (1). La investigación se ha masificado, como reflejo de su importancia en la sociedad moderna, sin embargo, esta diversificación no ha llegado sin problemas.

Muchos resultados científicos se obtienen mediante la experimentación; al repetir el experimento se deberían obtener los mismos resultados; como el azar tiene su efecto, valdría la pena decir que la mayoría de las veces se obtendrían los mismos resultados. Este hecho recibe el nombre de reproducibilidad de la investigación. En un experimento se manipulan los individuos; esta práctica no siempre se puede realizar, por ejemplo, en medicina; en esos casos se realizan los estudios observacionales, que son el sustituto de la experimentación; se basan en observar qué ocurre a quienes se exponen por sus características de vida a los factores bajo estudio. En los estudios observacionales también se esperaría la reproducibilidad. El problema es que, en general, la investigación no es reproducible.

Monya Baker (2) reportó una encuesta de la revista Nature a 1576 investigadores; en ella más del 70% de los encuestados fracasaron al tratar de reproducir los resultados obtenidos por otros investigadores y más del 50% de ellos no lograron reproducir sus propios estudios. El problema es general, por ejemplo, The Economist (3) reporta el caso de la firma Biotecnológica Angem que sólo pudo reproducir los resultados de 6 de 53 estudios fundamentales en la investigación sobre el cáncer. Existe un consenso acerca de que la mayoría de los hallazgos publicados en las revistas científicas pudieran ser falsos, esto ocurre sin distinciones. Ioannidis, en 2005, realizó estudios de simulación sobre la validez de lo publicado, obteniendo que la probabilidad de que la conclusión de una investigación sea falsa es mayor a que sea verdadera; más aún, halló que, en muchas áreas de la ciencia, los hallazgos que se reportan son consecuencias de los sesgos que se cometen en la investigación (4).

El problema de la falta de reproducibilidad de los resultados de la investigación ha sensibilizado a los editores de las revistas científicas y a las autoridades a cargo de la investigación, Marcia McNutt en 2014 comentó “…las revistas científicas se unen en la convicción de que la reproducibilidad y la transparencia son importantes…” (5).

El objetivo del presente artículo es informar acerca del problema de la falta de reproducibilidad de la investigación, así como mostrar cuáles son sus causas principales y qué se está haciendo para obtener resultados de investigación reproducibles y por tanto válidos y útiles.

Los factores que influyen en la crisis de reproducibilidad

La Figura 1 muestra los factores que influyen individualmente o de forma conjunta en la falta de reproducibilidad de la investigación. A continuación, se explicarán algunas de las causas más comunes:

El sesgo de selección

El sesgo de selección se conoce también como el efecto del archivador de resultados (file drawer effect); este sesgo consiste en que los resultados de los análisis que no son positivos, es decir que no aportan nuevos resultados, no son publicados ya sea por decisión de los propios investigadores o por las revistas científicas. Esta práctica es consecuencia de situaciones conocidas: primeramente, la búsqueda de fondos para la investigación y el prestigio del investigador se relacionan con la presentación de resultados positivos, es decir, de nuevas evidencias y, adicionalmente, las publicaciones científicas son rehacías a publicar resultados que no aporten nuevos hallazgos. (6)

El sesgo de inflación

El sesgo de inflación se conoce como P-hacking, dragado de los datos (data dredging), pesquería dentro de los datos (data fishing) o cacería de la significación, entre otras denominaciones (6,7). Al igual que en caso del sesgo de selección, este sesgo ocurre como respuesta a la necesidad del investigador de hallar resultados positivos y puede presentarse de múltiples formas: La más básica consiste en realizar múltiples pruebas estadísticas para un mismo problema y escoger la que brinde significación sin otro criterio adicional, sólo porque el resultado era el “conveniente” (8). Es un hecho reconocido que los datos siempre se pueden torturar lo suficiente hasta que demuestren lo que se desea demostrar (9).

Otras formas, más sutiles, de hackear los resultados provienen del área computacional y se producen ya sea en el tratamiento de los puntos aberrantes, los outliers, o en la operacionalización de variables. En el caso de los puntos aberrantes se puede seguir el criterio de eliminarlos o mantenerlos según su influencia sobre los efectos a detectar. En la operacionalización se agrupan variables o se construyen categorías para obtener significación estadística en las pruebas.

Los sesgos de selección y de inflación producen el mismo efecto: sobredimensionan los resultados positivos en la literatura científica; por eso ambos se agrupan bajo el nombre de sesgo del exceso de significación. La consecuencia de estos sesgos es que, al realizar los meta-análisis, se detectan relaciones o efectos que no existen y se sobre-dimensiona su importancia (6).

El análisis de datos

Para los análisis se dispone de múltiples procedimientos estadísticos, uno de los más utilizados y populares son las pruebas de significación de la hipótesis nula, conocidas como pruebas de hipótesis o de significación. Términos que se utilizan indistintamente, aunque realmente no se refieran a lo mismo. Comúnmente las pruebas se realizan utilizando los valores P (P-valores), ellas son muy utilizadas como se puede apreciar leyendo los artículos de cualquier revista científica, pero, muchos no saben que han estado en el centro de la controversia durante muchos años. De hecho, inicialmente se pensó que ellas eran la causa de la falta de validez de la investigación; motivo por el cual han sido sometidos a prohibiciones e intensas críticas (10,11).

Los valores P fueron introducidos en los años 30 del siglo pasado por R. Fisher y se fundamentaron en que la ciencia progresa buscando potenciales explicaciones a los datos; para ello Fisher propuso que el conocimiento sometido a evaluación fuera estructurado en una hipótesis, la hipótesis nula (H0), y que el interés en el análisis sería entonces determinar si los datos obtenidos permitían rechazarla o no, según su comportamiento discrepara o no de lo esperado si fuera cierta (12). Este procedimiento no era un criterio de decisión sobre la validez de una hipótesis o una teoría científica; según Fisher el valor P era un componente heurístico de un procedimiento informal que identificaría problemas de investigación que resultaban interesantes (7, 10, 13):

El valor P se construye partiendo de un estadístico (E) que cuantifica la concordancia de los datos con la hipótesis H0, los valores de E que numéricamente identifican la discordancia determinan la dirección de rechazo. La que se corresponde con la hipótesis alternativa (HA) . Al analizar los datos se obtiene el valor observado del estadístico (eo), el valor P se define como la probabilidad del valor observado o de valores más extremos que él en la dirección de rechazo de H0, probabilidad que se calcula suponiendo la hipótesis cierta. Mientras más pequeño P, mayor la discordancia entre los datos y la hipótesis. La Figura 2 resume el proceso siguiendo la pauta que comúnmente se utiliza en los cursos de estadística para comparar las medias de dos poblaciones. Posteriormente este procedimiento se mezcló con las reglas de decisión de Neyman y Pearson (10) para dar lugar a la regla que rechaza la hipótesis nula si p < 0,05. Dicotomía que distorsiona el procedimiento de Fisher y que, según Gelman conduce a que “…la estadística se venda como una suerte de alquimia que transmuta el azar en certidumbre, una especie de “lavandería del azar” que comienza con los datos y concluye con un éxito coronado por la significación estadística…” (14).

 

Otro problema en los análisis de los datos está en el criterio para determinar los umbrales para analizar los valores P, el popular umbral de 0,05 para detectar efectos positivos ha sido reconocido que genera muchos falsos positivos, siendo necesarios umbrales más exigentes (15,16). Benjamin y un grupo de 71 autores propusieron, en 2016, cambiar el umbral de la significación (significancia) de 0,05 a 0,005 para disminuir la cantidad de resultados falsos positivos; aunque resaltaron que esta propuesta debería ser transitoria hasta que cada una de las disciplinas analice los umbrales que les serían pertinentes (17).

Existen múltiples ejemplos de los errores que se pueden cometer debido al mal uso de las pruebas de hipótesis: un ejemplo muy interesante se encuentra referido en el artículo de Young y Karr (18) quienes comentan el ejemplo de un resultado falso positivo obtenido por Mathews y cols. en 2008 cuando afirmaron que las mujeres que consumían cereales en el desayuno tenían más probabilidad de tener hijos varones (19)

Se reconoce la necesidad de cambio en la manera de hacer estadística. Es un hecho reconocido que los procedimientos de análisis basados en los valores P, por su importancia, estarán presentes en el futuro inmediato (7,17), pero su uso debería basarse en la adecuada comprensión de qué son las pruebas de significación y los errores que con ellas se cometen. Los valores P no son la única opción de análisis, ni por si mismos son suficientes, diversificar los criterios, así como introducir en los análisis las medidas de efecto y sus estimaciones son opciones disponibles y que mejorarían inmediatamente la calidad de los análisis.

Para comprender mejor qué son los valores P la American Statistical Association publicó su posición respecto a ellos, estableciendo qué son y cuál es su función metodológica en el análisis de los datos (20):

La metodología y el diseño de investigación

El problema de la falta de reproducibilidad de los resultados de la investigación no se circunscribe a los análisis, también se debe a malas prácticas en la investigación (15). Lo primero debería ser entender la función de la estadística en la investigación; ella no es un conjunto de fórmulas matemáticas y algoritmos para interactuar con los datos, sino un conjunto de procedimientos y metodologías que abarcan las diferentes etapas de un proyecto de investigación cuantitativa (21), las que se relacionan e interactúan entre sí en una unidad que debería ser indisoluble.

Un proyecto de investigación debe concebirse como un todo: las variables y su tratamiento deberían estructurarse conjuntamente con el estado del arte, de aquí se derivaría el muestreo y sobre esta base los procedimientos de análisis. Para mejorar la investigación se ha promovido el desarrollo de la meta-investigación o investigación en la investigación (1)

La enseñanza de la estadística

Muchos de los programas que se utilizan para enseñar la estadística en las especialidades no matemáticas promueven las malas prácticas que han conducido a la falta de reproducibilidad de los resultados de la investigación (11, 22, 23). La mayoría de los libros de texto que se utilizan han cambiado poco respecto a lo que se hacía hace más de 60 años y no reflejan los retos y necesidades actuales de la investigación. En ellos predominan las reglas de decisión de Neyman-Pearson y se promueve la mezcla de enfoques con los valores P; los ejercicios y la propia presentación de la teoría presentan una conclusión matemática a los problemas a analizar. En ese sentido Hubbard y Bayarri en 2002 comentaron que se enseña la estadística como si fuera la palabra de Dios (24).

Se impone que los cursos de estadística logren vincular las diferentes componentes de la disciplina y que muestren el alcance de sus análisis y cuáles son los factores a tener en cuenta en ellos; en este sentido Ioannidis en 2015 comentó que se debe “…educar a los investigadores en la importancia de los métodos y el rigor para realizar una investigación reproducible” (1).

Conclusiones

La investigación científica atraviesa una crisis como consecuencia de la imposibilidad de reproducir muchos de sus resultados. Por ese motivo muchas de las publicaciones científicas que los divulgan no son correctas. Las causas de esta situación son múltiples y provienen de diferentes áreas. Eliminarlas es fundamental para perfeccionar la investigación.

Bibliografía

(1) Ioannidis J, Fanelli D, Drake Dunne D, Goodman S. Meta-research: Evaluation and Improvement of Research Methods and Practices. Plos Biology 2015; 13(10): e1002264. doi:10.1371/journalpbio.1002264

(2) Baker M. Is there a reproducibility crisis? Nature 2015; 533(7604): 452-4. doi: 10.1038/533452a.

(3) Anonymous. How science goes wrong. The Economist 2016; 409(8858): 13-7

(4) Ioannidis J. Why most published research findings are false. Plos Medicine 2005; 2(8): 696-700.

(5) McNutt M. Journals United for Reproducibility. Science 2014; 346(6210): 679

(6) Head M, Holman L, Lanfear R, Kahn A, Jennions M. The extent and consequences of P-hacking in science. PLoS Biology 2015;13(3):e1002106. doi: 10.1371/journal.pbio.1002106.

(7) Nuzzo R. Statistical Errors. Nature 2014; 506(7487):150-2

(8) Gelman A, Loken E. The statistical crisis in science. American Scientists 2014; 102: 460-5

(9) Mills J. Data torturing. New England Journal of Medicine 1993; 329(16): 1196-9

(10) Monterrey P. p < 0,05, ¿Criterio mágico para resolver cualquier problema o leyenda urbana? Universitas Scientiarum 2012; 17(2): 203-15

(11) Greenland S, Senn S, Rothman K, Carlin J, Poole C, Goodman S, Altman D. Statistical Test, P-values, Confidence Intervals, and Power: A Guide to Misinterpretations. European Journal of Epidemiology 2016; 31(4): 337-50

(12) Lew J. Bad statistical practice in pharmacology (and other basic biomedical disciplines): you probably don´t know P. British Journal of Pharmacology 2012; 166:1559-67

(13) Szucs D, Ioannidis P. When null hypothesis testing is unsuitable for research: A reassessment. Frontiers in Human Neuroscience 2017; 11(390): 1-21

(14) Gelman A. The problem with P-values are not just P-values. En: Wasserstein R, Lazar N. The ASA's Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI:10.1080/00031305.2016.1154108. Consultado 19/11/2018. Disponible en: Supplemental Material to the ASA Statement on P-Values and Statistical Significance https://amstat.tandfonline.com/doi/suppl/10.1080/00031305.2016.1154108#.W_OCCuJG2Uk

(15) Ioannidis J. Fit-for-Purpose Inferential Methods: Abandoning / Changing P-values Versus Abandoning / Changing Research. En: Wasserstein R, Lazar N. The ASA's Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI:

10.1080/00031305.2016.1154108. Consultado 19/11/2018. Disponible en: Supplemental Material to the ASA Statement on P-Values and Statistical Significance

https://amstat.tandfonline.com/doi/suppl/10.1080/00031305.2016.1154108#.W_OCCuJG2Uk

(16) Benjamin D, et. al. Redefine statistical significance. Nature Human Behaviour 2018; 2: 6 –10

(17) Benjamini Y. Is not the p-values fault. Consultado 19/11/2018. Disponible en: https://errorstatistics.files.wordpress.com/2016/03/benjamini.pdf

(18) Young S, Karr A. Deming, data and observational studies. Significance 2011; 8(3): 116-20

(19) Mathews F, Johnson P, Neil A. You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans. Procedings of the Royal Society B 2008; 275: 1661-68

(20) Wasserstein R, Lazar N. The ASA's Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI: 10.1080/00031305.2016.1154108

(21) Kennet R. Statistics: A Life Cicle View. Quality Engineering 2015;27:111-21

(22) Greenland S. The ASA Guidelines and Null Bias in Current Teaching and Practice. En: Wasserstein R, Lazar N. The ASA's Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI:

10.1080/00031305.2016.1154108. Consultado 19/11/2018. Disponible en: Supplemental Material to the ASA Statement on P-Values and Statistical Significance

https://amstat.tandfonline.com/doi/suppl/10.1080/00031305.2016.1154108#.W_OCCuJG2Uk

(23) Sterne J. Teaching hypothesis test – time for significant change? Statistics in Medicine 2002; 21:985-94

(24) Hubbard R, Bayarri M. Confusion Over Measures of Evidence (p's) Versus Errors (α's) in Classical Statistical Testing. The American Statistician 2003; 57(3): 171-82


 

 

Compartir