|
|
MAS ALLÁ DE LANZAR UNA MONEDA AL AZAR: UNA REFUTACIÓN A LA CRÍTICA DE RICHARD WISEMAN EN THE SKEPTICAL INQUIRER*
Johann Baptista** y Max Derakhshani***
Examinamos una crítica a la parapsicología escrita por el profesor Richard Wiseman en un artículo publicado en la revista The Skeptical Inquirer de 2010 titulado Heads I Win, Tails You Lose; How Parapsychologists Nullify Null Results, [Si sale cara, yo gano; ceca, tu pierdes: Cómo los parapsicólogos invalidan sus resultados nulos] y refutan en detalle cada uno de sus argumentos. Este ensayo es una versión abreviada de Baptista y Derakhshani (2014), que apareció en el Journal of Parapsychology, y analiza la crítica a la investigación psi centrada en los resultados del paradigma ganzfeld: "el buque insignia de la parapsicología" (Parker, 2000). En este ensayo, mostramos nuestros desacuerdos con los argumentos de Wiseman, y concluimos con recomendaciones acerca de cómo investigar psi y avanzar más allá de sus críticas. Si nuestros esfuerzos ayudan al desarrollo del escepticismo o de la parapsicología, consideraremos bien hecho nuestro trabajo.
LA PERCEPCIóN DE RESULTADOS NULOS
La premisa principal de la crítica de Wiseman es que los parapsicólogos tienden a aceptar los resultados positivos como evidencia de psi, pero desprecian los resultados nulos con explicaciones post hoc. En este sentido, Wiseman escribe:
Los parapsicólogos con frecuencia generan y ponen a prueba nuevos procedimientos experimentales en un intento por demostrar la existencia de psi. La mayoría de estos estudios no dan resultados significativos. Sin embargo, en lugar de ser considerados como evidencia en contra de la existencia de psi, estos resultados se suelen atribuir a que el experimento se llevó a cabo bajo condiciones que no son facilitadoras de psi. (Wiseman, 2010a, p. 37)
La crítica de Wiseman plantea la cuestión de cuánto peso deben razonablemente tener los resultados nulos para evaluar a psi. Antes de responder, debemos señalar que mientras Wiseman tiene razón al decir que la mayoría de los estudios en parapsicología no producen resultados significativos, la proporción de estudios significativos actuales está muy por encima de lo que cabría esperar por la hipótesis nula. Por ejemplo, en los años 60, de todos los estudios ganzfeld realizados después de los estudios llevados a cabo por Charles Honorton en el Psychophysical Research Laboratories (pos-PRL), sólo 15 (el 25%) resultaron significativos. Esto sigue siendo cinco veces la hipótesis nula y la probabilidad de uno en 5,2 millones de acertar por azar. Criterios como éstos constituyen los fundamentos de nuestra crítica al problema de la repetibilidad en parapsicología.
¿Pero es esto suficiente? Debemos señalar que la definición de repetibilidad es controvertida, y que hay más de un método válido para determinar si un efecto es o no replicable (ver Cumming, 2012; Utts, 1991). Nuestra medida es la proporción de estudios significativos (p ? 0,05) producida por una técnica de investigación (posiblemente el criterio más cercano a la norma convencional). Esta proporción se rige por una propiedad estadística llamada "poder", que es la frecuencia a largo plazo (o probabilidad) de lograr un resultado significativo en función de tres factores, el efecto de magnitud (ES), el tamaño de la muestra (N), y el nivel de alfa ( ) (por ejemplo, p 0,05). Como esto predice el éxito potencial de un estudio, es importante saber el "poder" antes de juzgar qué nivel de replicabilidad debemos esperar en un conjunto de estudios; una especie de "prueba de fuego" de validez. Después de todo, cuanto más bajo es el poder, ni siquiera se podría detectar efecto alguno.
¿Cuánto poder se emplea, en general, en parapsicología? Según Utts (1991) y Tressoldi (2012), no mucho. Tomando el Ganzfeld como ejemplo, para los 100 estudios de Storm, Tressoldi, y Di Risio (2010), con diseños basados en cuatro elecciones (tres imágenes señuelo y una imagen objetivo), la tasa general de éxito es del 32% y el tamaño promedio de la muestra es de 43, para una poder promedio por estudio es de 29% que, como tal, está muy cerca del porcentaje de estudios con resultados significativos (28,5%). Cálculos similares realizados por Derakhshani (2014) -usando su propia prueba de poder y la que recomiendan Ioannidis y Trikalinos (2007)- demuestran que el porcentaje de estudios significativos en todas las bases de datos de ganzfeld se puede predecir muy bien utilizando supuestos de poder estándar en un intervalo de confianza del 95%. Esto sugiere que los estudios ganzfeld producen el grado de coherencia que se espera, dadas las características de los estudios, y que son replicables en la medida en que podamos hacer predicciones sobre su probabilidad de éxito y que son verificables.
Por tanto, deberíamos lograr cambios en nuestros niveles de éxito, usando estos modelos. Si quisiéramos tener un poder del 80% en el ganzfeld, por ejemplo, podríamos tratar de aumentar el tamaño de la muestra; sin embargo, esto resultaría en -por menos- 236 ensayos más (debido a que el promedio de aciertos es del 32,2% según Storm et al., 2010), un número que quizá sea imposible para un investigador normal. De hecho, el mayor número de ensayos nunca antes alcanzado en un sólo estudio ganzfeld es de 138 (Parra y Villanueva, 2006). Otra opción para aumentar la potencia es elevar el efecto de magnitud de los estudios. Derakhshani (2014) lo hizo y demostró, basado en la base de datos llevados a cabo después del PRL, que si los investigadores utilizan sólo participantes seleccionados (por ejemplo, participantes con experiencias previas de psi, han practicado disciplinas mentales, y han participado en otros experimentos, son creyentes en psi, o preferentemente una combinación de éstos) se necesitan sólo 56 ensayos para alcanzar un poder del 80%. Observamos que esta proporción de estudios significativos es no sólo completamente consistente con estudios previos, sino que es potencial como meta.
 Wiseman dice: "Los parapsicólogos con frecuencia generan y ponen a prueba nuevos procedimientos experimentales en un intento por demostrar la existencia de psi. La mayoría de estos estudios no dan resultados significativos." Wiseman plantea el problema lo que los parapsicólogos con resultados positivos tienen más probabilidad de encontrar un espacio que los estudios con resultados negativos, y esto produce una muestra sesgada.
|
Considerando la relación entre la predicción teórica y los datos empíricos, sería posible lograr cierto nivel de éxito en el ganzfeld. Por ejemplo, si se desea el 80% de repetibilidad, por la tasa de éxito del 32,2% en el estudio de Storm et al. (2010), entonces 236 ensayos serían recomendables. Sin embargo, la mayoría de los investigadores estaría de acuerdo en que este número de ensayos es poco realista en parapsicología. Una forma de evitar este problema es reconocer que la tasa de éxito de los 39 estudios ganzfeld originales es muy heterogénea; por lo tanto debe haber factores de moderación. De hecho, como Storm et al. (2010) demostraron, si sus estudios se agrupan en dos categorías -aquellos que utilizan participantes seleccionados (por ej. participantes con experiencias previas de psi, que practican disciplinas mentales, que han participado en experimentos previos de psi, que creen en psi, o en una combinación de todo esto) respecto a los que utilizan participantes no seleccionados- la disparidad entre los promedios de acierto es muy alta. En los 14 estudios, la selección del objetivo correcto ocurrió con una frecuencia del 40,1%, y en los 15 estudios seleccionados se produjo una frecuencia de sólo el 27,3%, para una diferencia significativa a p < 0,0001. Cada grupo también fue homogéneo. Esto sugiere que sería preferible usar participantes seleccionados en futuros estudios ganzfeld; suponiendo que el promedio seleccionados de aciertos fuera del 40,1% es posible alcanzar una poder del 80% con sólo 56 ensayos -un requisito del tamaño de la muestra que es exactamente igual a la media de 56 para los 29 estudios en Storm et al. (2010).
Otra pregunta que nos podríamos hacer sobre el poder y la replicación en parapsicología es que encontramos en analogía en otras ciencias. Hasta dónde sabemos, nunca ha habido una comparación de este tipo, pero sería muy necesaria. Por ejemplo, en un exhaustivo meta-análisis de Richard, Bond, y Stokes-Zoota (2003) de 322 meta-análisis en psicología social, se encontró un poder estadístico del 20%, un promedio bastante por debajo del obtenido en la base de datos PRL. La razón de esto es que los ES en psicología social generalmente son pequeños -en torno al r = 0,21 en promedio- y los investigadores tienden a no realizar estudios grandes lo suficiente como para compensar esto. El experimento típico en ciencias sociales, de hecho, requeriría al menos 173 ensayos para lograr el 80% de repetibilidad (p 0.05), que ya es considerablemente superior al normal (Hartshorne y Schachner, 2012). Agreguemos a esto que casi un tercio de los ES obtenidos por Richard et al. (2003) fueron del r = 0,1 o por debajo, lo que requiere un promedio de sólo N = 772 para lograr una potencia del 80% (Hartshorne y Schachner, 2012).
Hartshorne y Schachner (2012) escriben sobre este tema que:
[...] de acuerdo a múltiples meta-análisis, el poder estadístico de un estudio típico en psicología o neurociencia para detectar un efecto de tamaño "mediano" (definido como r= 0,3, r= 0,4, o d= 0,5) es de aproximadamente 0,5 o por debajo (Bezeau y Graves, 2001; Cohen, 1962; Ko?ciulek y Szymanski, 1993; Sedlmeier y Gigerenzer, 1989) (p. 2).
Pero, de hecho, para efectos pequeños (d < 0.3) este poder es mucho menor. Rossi (1990) observó un poder de ES promedio del 17% en 221 artículos, en tres importantes revistas de psicología desde 1982. Recientemente, Button et al. (2013) también analizó la investigación en neurociencia, 730 estudios en 49 meta-análisis, y concluyeron que el poder estadístico para esta disciplina era de aproximadamente el 21%. Posteriormente, observaron que eliminando siete meta-análisis con efectos de magnitud grandes daba una potencia del 18%. Teniendo en cuenta sólo los 30 estudios juntos de ganzfeld, desde 1997 a 2008 (Storm et al., 2010), el poder promedio es mucho mayor en realidad: aproximadamente el 43%. Incluso en todos los estudios de respuesta libre no ganzfeld durante ese período, en el meta-análisis de Storm et al. (2010), el poder promedio es del 19% (excluyendo cuatro estudios de diseño de elección de cuatro imágenes), aun levemente superior a la mayoría de las ciencias antes mencionadas.
Sobre el tema de la repetibilidad, Nosek (2012) escribe:
Hay muy poca evidencia que indique estimaciones de repetibilidad en ciencia, aunque algunas estimaciones empíricas son inquietantes (Ioannidis, 2005). Cuando investigadores independientes trataron de replicar docenas de importantes estudios sobre cáncer, salud de la mujer, y enfermedades cardiovasculares, sólo el 25% de los estudios de replicación confirmó el resultado original (Prinz, Schlange, y Asadullah, 2011). En una investigación similar, Begley y Ellis (2012) obtuvieron un promedio pobre de replicación: el 11%. (p. 657)
En vista de ello creemos que cualquier área de la parapsicología que produzca un promedio replicabilidad del 25% al 30% o al 37% -el porcentaje de resultados significativos de los estudios pos-PRL, y los 30 estudios más recientes, respectivamente (Storm et al., 2010), que claramente pueden ser compatibles con otras ciencias, es bastante notable, teniendo en cuenta que el total de los recursos financieros dedicados a la investigación psi desde 1882 a 1993 (111 años) comprende casi la misma inversión de apenas dos meses en la psicología clásica (Schouten, 1993, p. 316). Esta observación justifica la conclusión de que no sólo la técnica ganzfeld es sólida, sino también el progreso logrado es similar al de otros ámbitos de las ciencias sociales y del comportamiento. Por otra parte, la solidez de los resultados de los experimentos ganzfeld sugiere que la adopción de estrategias para aumentar el poder sería mejorar la repetibilidad y que hacerlo es un riesgo que vale la pena correr.
LA INVESTIGACIóN DEL "EFECTO DEL ARCHIVISTA"
Para que un meta-análisis sea válido, podría decirse que el criterio más importante es que estén todos los datos para ser analizados -o al menos, que no haya ningún sesgo sistemático presente en los estudios que se seleccionan para un meta-ánálisis. Sin embargo, esto es lo que Wiseman (2010a) parece dar a entender en sus comentarios:
De vez en cuando, uno de estos estudios [en parapsicología] produce resultados significativos... juzgar el valor probatorio de estos resultados positivos es problemático porque surgen a partir de una masa de estudios no significativos. Sin embargo, es más probable que los estudios no significativos se presenten en una conferencia o que sean publicados en una revista (p. 37).
Aquí Wiseman plantea el problema que los parapsicólogos reconocen desde hace décadas: el efecto del archivista. Su premisa es que los estudios con resultados positivos tienen más probabilidad de encontrar un espacio en las bases de datos de un meta-analisis que los estudios con resultados negativos, y que esto, en consecuencia, produce una muestra sistemáticamente sesgada. Este efecto está bien documentado (Ahmed, Sutton, y Riley, 2012; Fanelli, 2010; Rothstein, Sutton, y Bornstein, 2005). Fanelli (2010), por ejemplo, observó que el 84% de las publicaciones en varias ciencias tenían resultados positivos -una proporción muy poco probable dadas las estimaciones de poder antes mencionadas- siendo la psicología la ciencia que más publica: el 91,5%. Es una práctica común en las revistas científicas rechazar estudios fallidos o nulos en favor de los positivos o confirmatorios; el resultado es que muchos estudios fallidos nunca se publican, por lo que escapan de los meta-análisis. Este fenómeno es un problema generalizado en ciencia.
 El experimento ganzfeld (del alemán "campo homogéneo") es una técnica empleada en parapsicología para probar la percepción extrasensorial mediante una estimulación sensorial parcial -visual y auditiva). El aislamiento de las entradas sensoriales (sentidos) genera impresiones en el interior del individuo. Estudios recientes ponen de manifiesto que los experimentos ganzfeld ofrecen resultados que se desvían de la aleatoriedad hasta un nivel estadístico significativo.
|
Sin embargo, la explicación del efecto del archivista1 es difícil de aplicar a la parapsicología. Una de las razones es que el concepto del efecto de archivista es muy antiguo en parapsicología: los primeros meta-análisis inter-laboratorios en la historia publicados en Sensory Perception After Sixty Years (Rhine, Pratt, Stuart, Smith, y Greenwood, 1967), formulan un método estadístico para estimar la influencia de los sesgos de publicación. Además, en 1975, la Parapsychological Association (PA) se convirtió en la primera organización en adoptar una política oficial de publicación de resultados nulos (Carter, 2010a). Aparte de minimizar en forma explícita el efecto del archivista, esta decisión incorporó la práctica común en la investigación psi, de medir el sesgo de selección de estudios, por ejemplo, gráficos de embudo, prueba de fallos de Rosenthal, y los métodos recorte y relleno2 (trim-and-fill), los cuales se han utilizado en otras revisiones de investigación parapsicológica para argumentar eficazmente y refutar la explicación del efecto del archivista.
Respecto al Ganzfeld, por ejemplo, Storm et al. (2010) aplicaron la prueba de fallos de Rosenthal (Harris & Rosenthal, 1985, p. 189) y descubrieron que tendría que existir no menos de 2414 estudios no publicados con resultados nulos (es decir, z = 0) para reducir sus 108 estudios ganzfeld exitosos a un nivel de no significación. Otro procedimiento más conservador empleó el método de Darlington y Hayes (2003), que permite a una gran cantidad de estudios no publicados tener puntuaciones z negativas. Aplicando este método, Storm et al. (2010) descubrieron que el número de estudios no publicados necesarios para anular sus 27 estudios con resultados estadísticamente significativos era de 384, y 357 de éstos deberían tener una z < 0 (menor a cero). Tomando en consideración a la política oficial de publicación de resultados nulos de la Parapsychological Association, el pequeño número de científicos que realiza investigaciones en esta área, y el enorme número de estudios negativos, este argumento resulta absolutamente insostenible.
Tal vez lo más persuasivo, como vimos en la primera sección, es el poder promedio de las bases de datos ganzfeld que predicen con exactitud el porcentaje de resultados significativos, lo cual sugiere un pequeño sesgo, o ninguno, en la selección de estudios (Ioannidis y Trikalinos, 2007). Cálculos similares de Rosenthal, y de Darlington y Hayes, así como gráficos de embudo y los algoritmos de recorte y relleno, excluyen categóricamene la interpretación del efecto del archivista en parapsicología, por ejemplo, los experimentos de visión remota (Tressoldi, 2011), psicoquinesis (Radin et al., 2006), estudios de PES de elección forzada (Tressoldi, 2011), y estudios de precognición (Honorton y Ferrari, 1989). Todo esto es una evidencia de que, en conjunto, la información selectiva no es un factor que afecte significativamente a la investigación psi.
Sin embargo, hay una forma todavía más directa de responder a la crítica de Wiseman (2010a), ya que en sus palabras "... sólo un trabajo puso de manifiesto la idea del problema del "efecto del archivista" (p. 37). Este estudio es el de Watt (2007) en la Unidad de Parapsicología Koestler, que encuestó a cada uno de los proyectos de del doctorado en parapsicología llevados a cabo y supervisados por profesores de la Universidad de Edimburgo entre 1987 y 2007. Al respecto, Wiseman (2010a) dice:
"Sólo se han hecho de dominio público siete de los 38 estudios presentados en las conferencias organizadas por la Parapsychological Association... hubo una fuerte tendencia de los parapsicólogos a hacer públicos estudios que han tenido resultados positivos, con algo más del 70% (cinco sobre siete) de los estudios presentados en conferencias que muestran un resultado global significativo, en comparación con sólo el 15% (3 de 20) que no se publicaron (p. 37)."
Sin embargo, Wiseman está mezclando estudios aquí. Su cifras del 70% y 15% son de todos los estudios de la Unidad Koestler de Parapsicología, no importa si son exploratorios o no. Si tomamos sólo un tipo de varios estudios de ganzfeld en Edimburgo, la crítica de Wiseman es bastante débil. De los 38 proyectos de la Unidad Koestler que pusieron a prueba un efecto psi, cinco eran de ganzfeld (el de Colyer y Morris, citado por Watt, 2006; el de Morris, Cunningham, McAlpine y Taylor, 1993; dos de Morris, Summers y Yim, 2003, y uno de Symmons y Morris, 1997). Por otra parte, aunque el estudio no significativo de Colyer y Morris fuera el único estudio presentado en la convención de la PA, el estudio de Morris et al. (1993) se presentó, y resultó no significativo. Esto deja un sólo estudio como víctima del "efecto del archivista", pero las razones por las cuales no se lo incluyó se desconocen. Aun así, su exclusión no basta para decir que se trató de una selección arbitraria del ganzfeld.
Los estudios de ganzfeld del KPU -gracias a la encuesta de Watt- son un ejemplo de una base de datos que podemos inferir que, razonablemente, no posee ninguna selección arbitraria. Si tenemos en cuenta estos cinco estudios, entre ellos el de Colyer y Morris, de un total de 195 ensayos y una tasa de éxito del 33,8%, la probabilidad de obtener resultados según la hipótesis nula es de p = 0,004 (a una cola). La base de datos de los 10 estudios del PRL se sabe que tampoco tienen una selección arbitraria. Bem y Honorton (1994) declararon explícitamente que "los once estudios que acabamos de describir comprenden todas las sesiones llevadas a cabo durante los 6 años y medio del programa. No hay ningún efecto del archivista posible" (p. 10). Esta base de datos tiene una tasa de éxito del 32,2%, 329 ensayos, y una probabilidad binomial de p= 0,002. Teniendo en cuenta que estas tasas de éxito no son significativamente diferentes entre sí, se pueden combinar los dos bases de datos para formar un pool de 15 estudios sin efecto del archivista, 524 ensayos, un promedio de aciertos del 32,8%, y una probabilidad binomial de p = 5,91×10-8. Este promedio de aciertos compuesto (32,8%) es similar al de los otros 90 estudios restantes de la base de datos de Storm et al. (2010). Cuando eliminamos estos 15 estudios, sigue habiendo un total de 3516 ensayos con un promedio de éxito compuesto del 31,8%. Esta convergencia de resultados (del KPU, el PRL, y del resto de las bases de datos de estudios ganzfeld de Storm et al.) sugiere que si hay alguna selección arbitraria en el promedio general de aciertos, es probable que sea no significativa o incluso inexistente. También es un ejemplo de sorprendente solidez en la investigación psi.
En suma, aunque sabemos que no podemos dar cuenta de cuan extensivo se puede hacer esto a otros paradigmas en parapsicología como lo hacemos para con el ganzfeld, en la actualidad creemos que el ganzfeld se ha desempeñado admirablemente en relación con el efecto del archivista. Si este protocolo no se puede considerar representativo de la parapsicología en su conjunto, el informe selectivo de resultados positivos tampoco se puede pensar que haya influido significativamente en la existencia de los fenómenos psi.
PARAPSICOLOGíA Y RESULTADOS NULOS
Una de las principales críticas de Wiseman (2010a) implica variaciones en el procedimiento de los experimentos en parapsicología:
"Si un procedimiento parece producir efectos psi significativos, se llevan a cabo estudios de seguimiento adicionales mediante este procedimiento. Aunque estos estudios adicionales a veces adoptan la forma de repeticiones rigurosas, por lo general, siempre implican algún tipo de variación. Si estos estudios de seguimiento dan resultados significativos, éstos son objeto de debate: los defensores sostienen que estos resultados representan evidencia de psi, y los escépticos examinan el estudio para detectar posibles defectos metodológicos y estadísticos. Sin embargo, cualquier réplica fallida puede atribuirse a alguna modificación en el procedimiento en lugar de argumentar la inexistencia de psi" (p.37).
Uno de los argumentos para la anulación retroactiva de los resultados nulos es un artículo de Kanthamani y Broughton (1994), que intentó replicar el efecto ganzfeld que obtuvo resultados nulos. Wiseman los critica por no hacer mención a la hipótesis nula como una explicación de sus resultados no significativos, en lugar de concluir que "probablemente debemos decir que los objetivos estáticos son la opción menos atractiva para un experimento ganzfeld" (Wiseman, 2010b). Está claro que Wiseman está dando a entender que esa decisión fue arbitraria e injustificada, pero la evidencia del estudio y los análisis previos contradicen su conclusión. Bem y Honorton (1994) dicen, por ejemplo, que en los 28 estudios de PRL, nueve usaron objetivos "dinámicos" en comparación con imágenes estáticas, y en los nueve se encontró un promedio de aciertos significativamente más alto que en los otros 19 (50% vs. 34%, respectivamente, p exacta de Fisher = 0,04, a dos colas). Los estudios del PRL de Honorton (Bem y Honorton, 1994) compararon 164 objetivos dinámicos con 165 objetivos estáticos y también encontraron una diferencia significativa en los promedios de puntuación (37% vs. 27%, respectivamente, p < 0,04). Por lo tanto, cuando KB obtuvo un promedio de aciertos del 27,6% en sus 350 ensayos de objetivos estáticos, sólo habían replicado exitosamente a Bem y Honorton.
 Charles Honorton (1946-1992), parapsicólogo americano, decidió aplicar los métodos de investigación científicos para examinar la transferencia de información anómala (percepción extrasensorial). Durante varias décadas, Honorton incluyó el uso de la técnica Ganzfeld. Su hipótesis era que el mecanismo de transferencia era "débil" y fácilmente diluido o ahogada por la entrada sensorial normal.
|
KB también encontraron que los cuatro grupos de participantes de su base de datos se ajustaban a una de las cuatro mediciones de sujetos "óptimos", según la definición de Honorton (1997), es decir, experiencias previas de psi, experimentos previos de psi, el perfil de personalidad Sensación-Percepción (FP) del Inventario de Personalidad de Myers-Briggs, y la práctica de una disciplina mental, que produjo un promedio de aciertos global de entre el 31% al 36%. Este hallazgo es importante teniendo en cuenta que esta misma subpoblación agregada a las bases de datos del PRL y el FNRM -ésta última es una replicación independiente de los ensayos del PRL (Broughton, Kanthamani, y Khilji, 1989)- era del 31% (Honorton, 1997). Por otra parte, cuando tres de estos predictores "óptimos" de los participantes se combinaban con los estudios de KB formando lo que Honorton (1997) llama el "modelo de los tres predictores", los resultados fueron sorprendentes: la base de datos de KB dió un promedio de aciertos del 41,3% (46 ensayos; p = 0,011, a una cola), mientras que las bases de datos del PRL y la FNRM dió una tasa combinada del 43% (99 ensayos; p = 0,0004, a una cola). Cabe señalar que estos resultados son sorprendentemente consistente, y que no hay ninguna selección de datos post hoc; de hecho, Honorton y Schechter (1987) encontraron originalmente estos predictores en la nueva serie PRL-1 (1997) y los aplicaron a su nueva serie PRL-2, poco antes su fallecimiento.
Honorton (1997) escribió:
En la Convención de la PA de 1986, Honorton y Schechter (1987) presentaron un análisis exploratorio que correlaciona con las dos primeras series del PRL-1 (Serie 101-102), lo que sugiere que el resultado inicial del experimento de PES en ganzfeld fue positivo y estuvo significativamente relacionado con experiencias previas de psi, Sensación/Percepción (FP) del MBTI y la participación previa en otros experimentos psi no ganzfeld. También se encontró una tendencia positiva, pero no significativa, de mejores resultados en aquellos participantes que practicaban otras disciplinas mentales, como la meditación... En este trabajo, los resultados PRL-1 se compararon con los de otros dos del PRL (Serie 103-105; ó PRL-2) y la serie de la FRNM para estimar la magnitud global y la consistencia de los cuatro predictores. (p. 143)
Debemos decir que Honorton produjo un "modelo tripredictor", además del modelo "tetra-predictor"; el primero creado gracias a un pequeño número de participantes que cumplieron con la condición "experimentos previos de psi", pero omitió ese requisito.
Recordemos ahora los resultados que KB encontró para su base de datos tripredictor; si se suman el total de las bases de datos del PRL y la FRNM, hay 145 ensayos que dan un promedio de aciertos global del 42,06% (p exacta binomial = 5,07×10-5, a una cola). En cuanto a la característica omitida, Kanthamani y Broughton (1994) indicaron que los experimentos previos de psi también fueron exitosos, pero debido a la mayor amplitud del modelo tripredictor, se optó por aplicarlo en lugar de éste. Esto confirma muy fuertemente el mejor desempeño de los participantes seleccionados, y es una evidencia confirmatoria en contra de la hipótesis nula -incluso a la luz del hecho de que la base de datos KB es no significativa.
Por eso, sostenemos que Kanthamani y Broughton (1994) se justifican al señalar que sus estudios confirmaron el "modelo éxitoso del PRL" (p. 7) de manera tal que sus conclusiones no pueden ser evaluadas como una anulación retrospectiva. Además, sus resultados no fueron excluídos de ningún meta-análisis (Bem, Palmer, y Broughton, 2001; Milton y Wiseman, 1999; Storm et al., 2010), por lo que incluso si sus conclusiones hubieran sido poco más que un sesgo, esto no habría tenido ningún efecto en la evidencia.
Aunque no dudamos que hay casos de sesgo en la literatura parapsicológica, en el que los investigadores tal vez hayan dado demasiado énfasis a un resultado éxitoso marginando el fracaso, nuestra revisión de las dos situaciones presentadas por Wiseman sugiere la necesidad de ser crítico cuando aparecen estas críticas, como un potencial ejemplo de sesgo en si mismo susceptible a todo sesgo.
EL META-ANáLISIS DE MILTON Y WISEMAN
La siguiente crítica de Wiseman hace alusión al meta-análisis de Milton y Wiseman (MW; 1999), que arrojó resultados nulos de psi en todos los estudios pos-PRL realizados hasta 1997 y que provocó un gran debate acerca de la replicación en la comunidad parapsicología (Schmeidler y Edge, 1999). Sin embargo, antes de empezar a analizar sus conclusiones y su metodología, observemos que, como en el último meta-análisis (Storm et al., 2010), el promedio de aciertos global de los estudios ganzfeld pos-PRL sigue siendo muy significativa. Con esto en mente, podemos medir el impacto del análisis de MW mediante un "paquete" de puntuaciones z de todo el ganzfeld, incluyendo el conjunto de datos de MW.
 Las puntuaciones z del Ganzfeld están dispuestos en períodos de investigación distintos que no se superponen, excepto la base de datos del PRL, es decir, los estudios del laboratorio de Honorton. De izquierda a derecha se divide en dos grupos, pre-PRL (1974-1987), PRL (1983-1988), MW (1988-1997), y post-MW (1997-2008). Se han añadido once estudios a las bases de datos pre-PRL y MW, que se encuentran los períodos de Storm & Ertel (2001).
|
Como podemos ver en la Figura 1, el período 1988-1997, durante el cual se realizó el metanálisis de MW, fue el más preocupante para el ganzfeld. El promedio de aciertos en la base de datos del PRL fue del 32,2% al 27,5% en el período MW. Analizaremos las razones de esto, así como explicar por qué la base de datos de MW no es tan negativa como parecía inicialmente. La posible explicación para el obvia efecto de declinación aparece en el artículo de Bem et al. (2001):
Las puntuaciones z de los estudios de la base de datos Milton-Wiseman son significativamente heterogéneos, y una de las observaciones hechas durante el debate en internet fue que varios de los estudios que obtuvieron puntuaciones z negativas para el análisis habían utilizado procedimientos que se desviaban fuertemente del protocolo ganzfeld estándar... en lugar de llevar a cabo replicaciones exactas, [los investigadores] han ido modificando el procedimiento, extendiéndolo a un territorio desconocido. Como era de esperar, estas desviaciones en la replicación exacta corren mayor riesgo de fracasar. Por ejemplo, en lugar de utilizar estímulos visuales, Willin modificó el procedimiento Ganzfeld para probar si los emisores podían comunicar objetivos musicales a los participantes. Pero no pudo. Cuando este tipo de estudios se insertan en un meta-análisis -sin distinguir la naturaleza de los objetivos- el tamaño del efecto global se reduce, y paradójicamente, el procedimiento ganzfeld se convierte en víctima de su propio éxito. (p. 208)
Para contrabalancar esta información, Willin (1996) comienza su artículo con la oración: "se han llevado a cabo muy pocos experimentos empleando estilos musicales como objetivos de PES" (p. 1), y enumera luego varios pequeños intentos exploratorios de estudiar psi usando estilos musicales, con resultados variables. Esto sugiere que Willin sabía que su estudio era más exploratorio que confirmatorio; buscando tendencias y patrones después del hecho como parte de su diseño, sobre todo teniendo en cuenta que fue el primer experimento a gran escala emplea objetivos musicales (luego Parra y Villanueva, 2004 llevaron a cabo un estudio similar, comparando participantes con objetivos visuales y musicales). Willin incluso colectó gran cantidad de datos previos para este propósito (Willin, 1996), Creemos que los resultados post hoc son esenciales en ciencia, siempre y cuando no se cuenten como confirmatorios (y se apliquen las correcciones apropiadas de análisis múltiple), por lo que no vemos ningún problema con su estrategia.
En lugar de tratar de resolver lo que constituía un procedimiento ganzfeld "estándar", Bem et al. tomó la ruta experimental. Se pidió la cooperación de tres evaluadores a ciegas, estos tres no familiarizados con los resultados del estudio, para evaluar 40 estudios de su base de datos (donde se borraron adrede todos los resultados), y valorarla con una escala de 7 puntos (donde 7 indica alta calificación a la rigurosidad de los protocolos del PRL, y 1 la menor). Como guía para definir la normalidad del estudio, les dieron a los evaluadores los dos estudios originales: el experimento ganzfeld de Bem y Honorton (1994) y el de Honorton et al. (1990).
Sin embargo, Wiseman escribe que Bem et al. añadieron una medida de normalidad que no se encontraba en los artículos enviados a los evaluadores a ciegas: la selección de los participantes. Las puntuaciones para "experiencias de meditación previas", "artístico o creativo", y "práctica de disciplinas mentales," que exigía Wiseman, eran condiciones post hoc basadas en el conocimiento de los resultados experimentales, y por lo tanto ejemplos retrospectivos de selección de datos. Pero curiosamente, Wiseman induce a un error en este punto. Bem y Honorton (1994) dejan claro que las réplicas deberían usar participantes seleccionados, probablemente porque el 100% de los participantes del PRL fue seleccionado en una de las formas antes mencionadas, y de otras, por ejemplo, una fuerte creencia en psi, amigos, o personas biológicamente cercanas.
El resultado final del análisis de BPB estuvo sorprendentemente en línea con las expectativas; el éxito de los estudios correlacionaron significativamente con las medidas utilizadas para evaluar el cumplimiento de los protocolos de PRL. Los estudios que puntúan por encima de 4 en la escala (el punto medio) produjeron resultados significativos con un promedio de aciertos del 31,2% (1.278 ensayos, 29 estudios, p exacta binomial = 0,0002, a una cola), y los que cayeron por debajo dieron un promedio de aciertos del 24% (p = no significativo). Pero más dramáticamente, los estudios que fueron de 6 o superior (974 ensayos, 21 estudios) puntuaron un promedio de aciertos del 33% (p = 1,58×10-8, o una probabilidad al azar en contra de 63 millones a 1) -casi exactamente la del PRL en si mismo. Esto es otro ejemplo de sorprendente coherencia en la investigación psi.
Sin embargo, una posibilidad que pudo haber inducido a error en las conclusiones del meta-análisis del BPB, se refiere a los participantes seleccionados. Debido a que Milton y Wiseman nunca hicieron un análisis de heterogeneidad, no se dieron cuenta que su base de datos era significativamente heterogénea mediante una prueba de chi cuadrado de las puntuaciones z, y significativamente heterogéneas mediante la prueba del chi cuadrado de Honorton en los efectos de magnitud (p = .065, a dos colas; el alfa para las pruebas de chi cuadrado en meta-análisis es de p 0 para compensar el bajo poder estadístico). Esto nos llevó para poner a prueba la hipótesis de que el origen de la heterogeneidad podría haber sido la diferencia en promedios de puntuación entre participantes seleccionados y no seleccionados. Dado que la base de datos del PRL utilizó participantes seleccionados, se podría argumentar que un indicador significativo de replicación sería comparar los promedios de acierto de los estudios de PRL con los estudios de MW que utilizaron participantes seleccionados. De hecho, para los 513 ensayos en la base de datos de MW de estudios que emplearon participantes seleccionados, se obtuvieron 157 aciertos, para un promedio de aciertos global del 30,6% (probabilidad exacta binomial p = 0,002, a una cola), el cual no es significativamente diferente al promedio de aciertos del 32,2% de los estudios del PRL (p exacta de Fisher = 0,65, a dos colas). Por el contrario, los ensayos con 661 participantes no seleccionados producen un promedio general de aciertos del 24,7%, que es significativamente diferente de el de los participantes seleccionados (exacta de Fisher p = 0,014, a una cola) y, también no significativamente diferente del promedio de aciertos del 27,3% de los participantes no seleccionados en el diseño de Storm et al. (2010) con una p = 0,40. Por lo tanto, se puede argumentar que Milton y Wiseman (1999) en realidad replicaron los resultados de PRL si se considera a la población más o menos homogénea -ni siquiera se toma en cuenta la relevancia de los procedimientos homogéneos- aunque la precisión obtenida en la evaluacion del estudio de Bem et al. sugiere que el procedimiento del estudio sigue siendo funcional en la moderación de los resultados.
En cualquier caso, como lo demuestran el meta-análisis de Storm et al. (2010) y el de muchos otros (Bem et al, 2001; Derakhshani, 2014; Radin, 2006; Storm & Ertel, 2001; Storm et al, 2010; Tressoldi, 2011; Utts, Norris, Suess, & Johnson, 2010), el promedio de aciertos global de la base de datos post-PRL sigue siendo muy significativa después del meta-análisis de MW. Dean Radin (2010) señala con acierto que la controversia sobre la replicación del ganzfeld (y de otros paradigmas psi) ha avanzado mucho más allá de la replicabilidad de estudios individuales más que replicar experimentos en grupos. No sólo hay un meta-análisis único que confirma lo que argumentamos que sería un promedio razonable de replicación de grandes series de experimentos llevados a cabo durante períodos de varios años, sino que ahora hay grupos de meta-análisis que confirman la consistencia de miles y miles de ensayos, en más de un centenar de estudios, durante más de cinco décadas.
EL DECLINANTE EFECTO DE DECLINACIóN
En la última sección de su artículo, Wiseman (2010a) dice:
Los supuestos efectos psi asociados a ciertos procedimientos a veces adoptan la curiosa costumbre de hacer desaparecer el curso de la experimentación. Los escépticos argumentan que esto se debe a que los parapsicólogos identifican y minimizan los posibles defectos metodológicos y estadísticos a lo largo del tiempo. Sin embargo, aparecen parapsicólogos explicando creativamente esta amenaza potencial, bajo el argumento según el cual estos efectos de declinación son una propiedad inherente de psi o que la capacidad psíquica realmente existe, pero está inversamente relacionada con el nivel de control experimental empleado en el estudio. (p. 37-38)
Como en el ejemplo de la expectativa del experimentador, creemos que Wiseman ha dejado de lado ciertas observaciones sobre el efecto de declinación. Por otra parte, ya hemos señalado que la hipótesis de la cita anterior según la cual "la capacidad psíquica... está inversamente relacionada con el nivel del control experimental empleado en un estudio" no está confirmada por la evidencia al nivel del meta-análisis en la mayoría de los efectos examinados en la investigación experimental de psi. Además, junto a la expectativa del experimentador, el efecto de declinación está lejos de ser exclusivo en parapsicología.
Por ejemplo, Jonathan Schooler (2011), profesor de ciencias psicológicas y cerebrales de la Universidad de Santa Bárbara, que analizó ejemplos del efecto de declinación en un debate sobre psi en Harvard, demostró que también se producen en la investigación de la esquizofrenia, con medicamentos como la Pravastatina, el Timolol, y la Latonoprost, incluso relaciones ecológicas. El periodista Jonah Lehrer (2010) también escribió acerca del efecto de declinación en un polémico artículo publicado en revista New Yorker, que plantea las curiosidades del fenómeno en el testeo de la droga Zyprexa, o el efecto psicológico de la "eclipsación" verbal (Schooler cita ampliamente su propia investigación), correlaciones biológicas entre asimetría y mutación, entre otros paradigmas.
Una explicación global de los efectos de declinación es el incremento del sesgo de publicación (Lehrer, 2010). De hecho, Harris y Rosenthal (1988) dicen que en su evaluación del meta-análisis ganzfeld de Honorton (1985) predijeron que, teniendo en cuenta las correcciones del sesgo de publicación, junto a correcciones estadísticas y otros errores de información, el éxito real del ganzfeld disminuiría en promedio un 38% (apenas un tercio). Sorprendentemente, el meta-análisis del PRL (Bem y Honorton, 1994) confirmó esta predicción, donde se encontró un promedio de aciertos global del 32% en sus 10 estudios.
La hipótesis escéptica de Wiseman de que la declinación a lo largo del tiempo es correcta para la caída del efecto de magnitud de las primeras bases de datos del ganzfeld a la segunda, ¿pero esto aplica a la declinación del efecto de magnitud en la base de datos del PRL para Milton y Wiseman (1999)? Aunque la declinación puede aparecer por muchas razones, respecto a la base de datos de MW, hay dos posibles explicaciones: una es el tratamiento de la investigación exploratoria como confirmatoria y, la segunda son los cambios en el tiempo de la población que pasó por el experimento. Hay fuerte evidencia que conforman ambas hipótesis. Sin embargo, no hay evidencia de que esta declinación puede ser explicada por un aumento de la calidad de la investigación en la base de datos MW, en comparación con la base de datos del PRL. Esta explicación tampoco tiene en cuenta la posterior inclinación de la base de datos de MW, o la inclinación significativa entre ambos, si se consideran en conjunto: r = 0,27, p = 0,03.
Más allá del ganzfeld, el meta-análisis de los experimentos de elección forzada de percepción extrasensorial que evaluó Storm et al. (2012) encontró un efecto de inclinación positivo y altamente significativo en su homogénea base de datos de 72 estudios entre 1987 a 2010, r = 0,31, p = 0,007, a dos colas, y una correlación positiva y significativa entre años de estudio y alta calificación de la calidad de los estudios en su heterogénea base de datos de 91 estudios, r = 0,25, p = 0,016, a dos colas. También encontró una correlación muy débil, negativa, y no significativa entre la valoración de la calidad y el efecto de magnitud, r = -0.08, p = 0,45, a dos colas. Honorton y Ferrari (1989) evaluaron la literatura de elección forzosa en precognición y de igual modo, encontraron que los efectos de magnitud se habían mantenido relativamente constantes en el período 1936-1987, aunque la calidad había mejorado sustancialmente. En suma, encontramos poca evidencia de ambos experimentos, el ganzfeld o los experimentos no ganzfeld, o problemas en los efectos de declinación. Hay evidencia significativa de psi en los experimentos ganzfeld en todos los estudios post-PRL, y justamente sin inclinación en todos los estudios llevados a cabo después del meta-análisis de MW.
UN PAR DE SUGERENCIAS PARA EL FUTURO
En la sección de Conclusiones, Wiseman (2010a), escribe:
Para avanzar en este campo y lograr cerrar rápidamente el debate acerca de la existencia de psi, los parapsicólogos necesitan hacer cuatro cambios importantes en la manera en que se ven sus resultados nulos. En primer lugar, no deben emplear tantos procedimientos nuevos, en lugar de ello deberían escoger cuidadosamente aquellos que parecen funcionar, e identificar uno o dos que ya hayan dado resultados más prometedores. Luego, en lugar de usar procedimientos variables que parecen exitosos, deberían tener varios laboratorios que lleven a cabo réplicas estrictas, metodológicamente impecables, que incorporen la mayor parte de las condiciones que facilitan los resultados psi. En tercer lugar, deben evitar la tentación de hacer meta-análisis retrospectivos pre-registrando los datos clave de cada uno de los estudios. Y por último, los investigadores no deberían ir saltando de un procedimiento experimental a otro, y tener el valor de aceptar la hipótesis nula si los investigadores que van a la cabeza en estos estudios no producen ninguna evidencia de efectos significativos y replicables (p. 39).
Aunque esperamos haber demostrado que las cargas de los nuevos procedimientos "especialmente escogidos" -en base a los ejemplos examinados- son cuestionables, estamos de acuerdo con Wiseman en que la parapsicología se podría beneficiar si concentrara sus recursos en un menor número de paradigmas de investigación y usara los mejores datos meta-analíticos a estos paradigmas para aumentar al máximo posible los efectos de magnitud y los promedios de replicación. Aquí, nos gustaría hacer humildes sugerencias acerca de cómo se puede hacer esto, de acuerdo a nuestra análisis de la evidencia.
En primer lugar, Derakhshani (2014) aconseja, en base a un modelo predictivo que utiliza los meta-análisis existentes de los estudios ganzfeld, que en lo posible se deberían aumentar las réplicas de futuros estudios ganzfeld en más de un 30% hasta un máximo de 80%, siempre y cuando se mantenga más o menos el mismo tamaño de las muestras de los estudios ganzfeld, con el empleo exclusivo de participantes seleccionados en todos (o tantos como fuera posible) los futuros estudios de ganzfeld. Queremos ser más explícitos: en la base de datos más reciente de Storm et al. (2010), el promedio de aciertos de los participantes seleccionados fue del 40%, lo cual sugiere que existe una receta para un estudio de Ganzfeld con un efecto de magnitud amplificado de manera significativa y posibilidades de éxito (Pérez Navarro & Martínez Guerra, 2012). Pero hay que ser cauto: este promedio es muy diferente al de los participantes seleccionados de bases de datos previas (el 30% para el MW y 32% para el PRL) y por lo tanto no es explicable por ningún proceso de selección.
Aunque no hemos llevado a cabo una revisión exhaustiva de las diferencias entre esta población y otras poblaciones seleccionadas, el éxito de los participantes en el PRL, la FNRM, y las bases de datos KB que se ajustan al modelo tri-predictor de psi (1992) de Honorton -experiencias previas, sensación-percepción (FP) del Inventario de Personalidad Myers-Briggs, y la práctica de disciplinas mentales- excede en mucho el éxito de los participantes que cumplen sólo uno de los cuatro rasgos óptimos de los participantes que Honorton y Schechter (1987) identificaron, de un 42% a un 31%. Este resultado sugiere que las combinaciones de tales rasgos son superiores a uno o dos. De hecho, dado el rendimiento superior del modelo tri-predictor, sugerimos que sería razonable volver a testearlo. Para aquellos participantes que cumplen el modelo tri-predictor -si asumimos el promedio de aciertos en las tres bases de datos: PRL, FNRM, y KB (42% en 143 ensayos)- el tamaño de la muestra necesaria para una potencia del 80% es de sólo 48 ensayos.
De manera similar, usando el promedio de aciertos de Storm et al. (2010) del 40%, el tamaño de la muestra requerido es de sólo 56. Hacemos hincapié en que las características de esta muestra no se han revisado de forma sistemática; sin embargo, identificamos dos estudios potentes en Storm et al. (2010) que proporcionan un modelo para futuros investigadores. Dalton (1997), usando artistas creativos con actitudes positivas hacia las experiencias psi, obtuvo un promedio de aciertos de 47% en 128 ensayos (y también obtuvo la calificación de calidad más alta de 1 en el meta-análisis de Storm et al., 2010). Parra y Villanueva (2006), que utilizaron participantes en su mayoría creyentes en psi, indicaron haber tenido experiencias previas de psi y entrenamiento en meditación, encontraron un promedio de aciertos del 41% en 138 ensayos. Futuras investigadores ganzfeld harían bien en imitar estos estudios. Como consejo final para los estudios ganzfeld, debemos señalar que Derakhshani (2014) calculó el tamaño de muestra necesario para los artístas (en la bases de datos de ganzfeld) para alcanzar el 80% de potencia, y es de aproximadamente 47 ensayos (para el 41%, el promedio de aciertos por azar debería ser 367 ensayos). Por lo tanto las poblaciones artísticas parecen constituir el campo propicio para los estudios ganzfeld.
Si los parapsicólogos logran mantener sus estudios con un estándar de relativa calidad metodológica (dada la correlación positiva entre las calificaciones y el efecto de magnitud de Bem et al., 2001), y alta calidad metodológica (dada la correlación positiva entre la calidad y el efecto de magnitud que encontró Derakhshani), y además utilizan sólo participantes seleccionados, predecimos un aumento en el promedio de replicación de un 80% o aún mayor. Las muestras de gran tamaño también son aconsejables dada la correlación positiva entre el N y el efecto de magnitud encontrado para el estudio con participantes seleccionados.
También sugerimos que los experimentadores hagan uso de herramientas como el Registro de la Unidad de Parapsicología Koestler (http://www.koestler-parapsychology.psy.ed.ac.uk/TrialRegistry.html) para pre-registrar experimentos con el fin de eludir los pocos sesgos de publicación que aún pueden existir en parapsicología. Además, se recomienda un examinar cuidadosamente de todos los procedimientos metodológicos y estadísticos sugeridos por los directores del programa de la 56ta. convención anual de la Parapsychological Association, originalmente propuesto por Utts y Tressoldi (2013). Por último, recomendamos que cualquier futuro estudio prospectivos hagan uso de procedimientos para detectar conductas indebidas del experimentador (propuesto por Kennedy, 2014): el registro de un protocolo del experimentador con copias independientes de los resultados del estudio, a fin de evitar toda forma de manipulación, y proporcionar los datos en bruto para el análisis de otros después que se complete el estudio.
Si los parapsicólogos adoptan estas sugerencias para el ganzfeld y otros estudios de PES produciendo los resultados predichos en base a datos meta-analíticos, creemos que hay un largo camino por recorrer para convencer a la comunidad académica a tomar en serio la posibilidad de la PES, así como invertir recursos para llevar a cabo réplicas a gran escala de estos resultados. Por el contrario, si los resultados previstos fueran groseramente desconfirmados, esto plantearía serias dudas sobre los resultados positivos de todos los experimentos anteriores. Cualquiera sea el resultado, en nuestra opinión, esto constituirá un avance significativo en la investigación científica de la percepción extrasensorial. De hecho, si tenemos la voluntad de mejorar la evidencia en este grado, quizá entonces el debate vaya "más allá de lanzar una moneda" y obtener caras o cecas, o ganar o perder, como deja entrever el título del ensayo de Wiseman (2010a ) y la respuesta de Carter (2010a), en un intento de mayor cooperación recíproca que ayude a resolver el enigma de psi este siglo.
Referencias
Ahmed, I., Sutton, A., & Riley, R. (2012). Assessment of publication bias, selection bias, and unavailable data in meta-analyses using individual participant data: A database survey. British Medical Journal, 344, 7762. doi: 10.1136/bmj.d7762
Baptista, J., & Derakhshani, M. (2014). Beyond the Coin Toss: Examining Wiseman's Criticisms of Parapsychology. Journal of Parapsychology, 78(1), 56-79.
Baptista, J., Derakhshani, M., & Tressoldi, P. (2014). Explicit Anomalous Cognition: A Review of the Best Evidence in Ganzfeld, Forced-choice, Remote Viewing and Dream Studies. En Advanced Handbook of Parapsychology (Vol. 1). Jefferson, NC: McFarland. Manuscript in preparation.
Begley C. G., Ellis L. M. (2012). Raise standards for preclinical cancer research. Nature, 483, 531-533. doi:10.1038/483531a
Bem, D. J., & Honorton, C. (1994). Does psi exist? Replicable evidence for an anomalous process of information transfer. Psychological Bulletin, 115, 4-18. doi: 10.1037//0033-2909.115.1.4
Bem, D. J., Palmer, J., & Broughton, R. S. (2001). Updating the ganzfeld database: A victim of its own success? Journal of Parapsychology, 65, 207-218.
Bezeau, S., & Graves, R. (2001). Statistical power and effect sizes of clinical neuropsychology research. Journal of Clinical and Experimental Neuropsychology (Neuropsychology, Development and Cognition: Section A), 23, 399-406. doi: 10.1076/jcen.23.3.399.1181
Broughton, R. S., Kanthamani, H., & Khilji, A. (1989). Assessing the PRL success model on an independent ganzfeld database. Proceedings of Presented Papers: The Parapsychological Association 32nd Annual Convention, 26-33.
Button, K. S., Ioannidis, J. P., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S., & Munafò, M. R. (2013). Power failure: Why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 14, 365-376. doi: 10.1038/nrn3475
Carter,C. (2010a). Heads I lose, tails you win, or, how Richard Wiseman nullifies positive results and what to do about it. Journal of the Society for Psychical Research, 74, 156-167.
Cohen, J. (1962). The statistical power of abnormal-social psychological research: A review. Journal of Abnormal and Social Psychology, 65, 145-153. doi: 10.1037/h0045186
Cumming, G. (2012). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. New York: Routledge.
Dalton, K. (1997). Exploring the Links: Creativity and Psi in the Ganzfeld (Disertación doctoral no publicada). University of Edinburgh, Escocia.
Darlington, R. B., & Hayes, A. F. (2000). Combining independent p values: Extensions of the Stouffer and binomial methods. Psychological Methods, 5, 496-515. doi: 10.1037//1082-989X.5.4.496
Derakhshani, M. (2014). On the statistical replicability of ganzfeld studies. Manuscrito en preparación.
Fanelli, D. (2010). "Positive" results increase down the hierarchy of the sciences. PLoS One. [Recuperado de http://www.plosone.org/article/info%253Adoi%252F10.1371%252Fjournal.pone.0010068
Harris, M. J., & Rosenthal, R. (1985). Mediation of interpersonal expectancy effects: 31 meta-analyses. Psychological Bulletin, 97, 363-386. doi: 10.1037//0033-2909.97.3.363
Harris, M., & Rosenthal, R. (1988). Interpersonal expectancy effects and human performance research. [Recuperado de http://www.nap.edu/openbook.php?record_id=779&page=1]
Hartshorne, J. K., & Schachner, A. (2012). Tracking replicability as a method of post-publication open evaluation. Frontiers in Computational Neuroscience. [Recuperado de http://journal.frontiersin.org/Journal/10.3389/fncom.2012.00008/abstract. doi: 10.3389/fncom.2012.00008
Honorton, C. H. (1985). Meta-analysis of psi ganzfeld research: A response to Hyman. Journal of Parapsychology, 49, 51-91.
Honorton, C.H. (1993). Rhetoric over substance: The impoverished state of skepticism. Journal of Parapsychology, 57, 191-214.
Honorton, C.H. (1997). The ganzfeld novice: Four predictors of initial ESP performance. Journal of Parapsychology, 61, 143-158.
Honorton, C. H., Berger, R. E., Varvoglis, M. P., Quant, M., Derr, P., Schechter, E. I., & Ferrari, D. C. (1990). Psi communication in the ganzfeld: Experiments with an automated testing system and a comparison with a meta-analysis of earlier studies. Journal of Parapsychology, 54, 99-139.
Honorton, C. H., & Ferrari, D. C. (1989). "Future telling": A meta-analysis of forced-choice precognition experiments, 1935-1987. Journal of Parapsychology, 53, 281-308.
Honorton, C. H.,& Schechter, E. (1987). Ganzfeld target retrieval with an automated testing system: A model for initial success [abstract]. In D. H. Weiner & R. D. Nelson (Eds.), Research in parapsychology 1986 (pp. 36-39). Metuchen, NJ: Scarecrow Press.
Hyman, R.,& Honorton, C. H. (1986). A joint communiqué: The psi ganzfeld controversy.Journal of Parapsychology, 50, 351-164.
Ioannidis, J. P., & Trikalinos, T. A. (2007). An exploratory test for an excess of significant findings. Clinical Trials, 4, 245-253. doi: 10.1177/1740774507079441
Ioannidis J. P. (2005). Why most published research findings are false. PLoS Medicine2, e124. doi:10.1371/journal.pmed.0020124
Kanthamani H., & Broughton R. S. (1994). Institute for Parapsychology ganzfeld-ESP experiments: The manual series. Proceedings of Presented Papers: The Parapsychological Association 37th Annual Convention, 182-189.
Kennedy, J. E. (2014). Experimenter misconduct in parapsychology: Analysis manipulation and fraud. Manuscrito no publicado. [Recuperado de http://jeksite.org/psi/misconduct.htm]
Kosciulek, F., & Szymanski M. (1993). Statistical power analysis of rehabilitation counseling research.Rehabilitation Counseling Bulletin, 36, 212-219.
Lehrer, J. (2010). The decline effect and the scientific method. [Recuperado de http://www.newyorker.com/reporting/2010/12/13/101213fa_fact_lehrer]
Milton, J., & Wiseman, R. (1999). Does psi exist? Lack of replication of an anomalous process of information transfer. Psychological Bulletin, 125, 387-391. doi: 10.1037//0033-2909.125.4.387
Morris, R., Summers, J., & Yim, S. (2003). Evidence of anomalous information transfer with a creative population. Proceedings of Presented Papers: The Parapsychological Association 46th Annual Convention, 116-131.
Morris, R., Cunningham, S., McAlpine, S., & Taylor, R. (1993). Toward replication and extension of autoganzfeld results. Proceedings of Presented Papers: The Parapsychological Association 36th Annual Convention, 177-191.
Nosek, B. (2012). An open, large-scale, collaborative effort to estimate the reproducibility of psychologicalscience. Perspectives on Psychological Science, 7, 657-660. doi: 10.1177/1745691612462588
Parker, A. (2000). A review of the ganzfeld work at Gothenburg University. Journal of the Society for Psychical Research, 64, 1-15.
Parra, A., & Villanueva, J. (2004). Are musical themes better than visual images as ESP-targets? An experimental study using the ganzfeld technique. Australian Journal of Parapsychology, 4, 114-127.
Parra, A., & Villanueva, J. (2006). ESP under the ganzfeld, in contrast with the induction of relaxation as a psi-conducive state. Australian Journal of Parapsychology, 6, 167-185.
Pérez-Navarro, J.M. & Martínez Guerra, X. (2012). An empirical evaluation of a set of recommendations for extrasensory perception experimental research. Europe´s Journal of Psychology, 8, 32-48.
Prinz, F., Schlange, T., & Asadullah, K. (2011). Believe it or not: How much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery, 10(9), 712-712. doi: 10.1038/nrd3439-c1
Radin, D. (2006). Entangled minds: Extrasensory experiences in a quantum reality. New York: Paraview Pocket Books.
Rhine, J. B., Pratt, J. G., Stuart, C. E., Smith, B. M., & Greenwood, J. A. (1967). Extrasensory perception after sixty years. Boston: Bruce Humphries.
Richard, F. D., Bond, C. J., & Stokes-Zoota, J. J. (2003). One hundred years of social psychology quantitatively described. Review of General Psychology, 7, 331-363. doi: 10.1037/1089-2680.7.4.331
Rothstein, H., Sutton, A. J., & Borenstein, M. (2005). Publication bias in meta-analysis: Prevention, assessment and adjustments. Chichester, England: Wiley. doi: 10.1002/0470870168.ch1
Radin, D. (2010). The critic's lament: When the impossible becomes possible. In S. Krippner & H. L. Friedman (Eds.), Debating psychic experience: Human potential or human illusion? (pp. 113-128). Santa Barbara, CA: ABC-CLIO.
Rossi, J. S. (1990). Statistical power of psychological research: What have we gained in 20 Years? Journal of Consulting and Clinical Psychology, 58, 646-656. doi: 10.1037/0022-006X.58.5.646
Schmeidler, G., & Edge, H. (1999). Should ganzfeld research continue to be crucial in the search for a replicable psi effect? Part II. Edited ganzfeld debate. Journal of Parapsychology, 63, 335-388.
Schooler, J. (2011). Reflections on the pursuit of psi. Lecture presented at Harvard University, Cambridge, MA. [Recuperado de http://www.wjh.harvard.edu/~moulton/psi_panel_schooler.ppt]
Schouten, S. (1993). Are we making progress? En L. Coly and J. McMahon (Eds.), Psi research methodology: A re-examination (pp. 295-332). New York: Parapsychology Foundation.
Sedlmeier, P., & Gigerenzer, G. (1989). Do studies of statistical power have an effect on the power of studies? Psychological Bulletin, 105, 309-316. doi: 10.1037//0033-2909.105.2.309
Storm, L., & Ertel, S. (2001). Does psi exist? Comments on Milton and Wiseman's (1999) meta-analysis of ganzfeld research. Psychological Bulletin, 127, 424-433.
Storm, L., Tressoldi, P. E., & DiRisio, L. (2010). Meta-analysis of free-response studies, 1992-2008: Assessing the noise reduction model in parapsychology. Psychological Bulletin, 136, 471-485. doi: 10.1037/a0019457
Storm, L., Tressoldi, P. E., & DiRisio, L. (2012). Meta-analysis of ESP Studies, 1987-2010: Assessing the success of the forced-choice design in parapsychology. Journal of Parapsychology, 76, 243-273.
Symmons, C., & Morris, R. (1997). Drumming at seven hz and automated ganzfeld performance. Proceedings of Presented Papers: The Parapsychological Association 40th Annual Convention, 441-454.
Tressoldi, P. E. (2012). Replication unreliability in psychology: Elusive phenomena or "elusive" statistical power? Frontiers in Psychology. [Recuperado de http://www.frontiersin.org/Psychology/editorialboard]
Tressoldi, P. E. (2011). Extraordinary claims require extraordinary evidence: The case of non-local perception. Frontiers in Quantitative Psychology and Measurement. [Recuperado de http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3114207/] doi: 10.3389/fpsyg.2011.00117
Utts, J. (1991). Replication and meta-analysis in parapsychology. Statistical Science, 6, 363-378. doi: 10.1214/ss/1177011577
Utts, J., Norris, M., Suess, E., & Johnson, W. (2010). The strength of evidence versus the power of belief: Are we all Bayesians? En C. Reading (Ed.), Data and context in statistics education: Towards an evidence-based society. Voorburg, The Netherlands: International Statistical Institute.
Utts, J., & Tressoldi, P. (2013). Methodological and statistical guidelines. Parapsychological Association. [Recuperado de http://www.parapsych.org/blogs/patrizio/entry/49/2013/2/
methodological_and_statistical.aspx]
Watt, C. (2007). Research assistants or budding scientists? A review of 96 undergraduate student projects at the Koestler Parapsychology Unit. Proceedings of Presented Papers: The Parapsychological Association 50th Annual Convention, 130-141.
Willin, M. J. (1996). A ganzfeld experiment using musical targets. Journal of the Society for Psychical Research, 61, 1-17.
Wiseman, R. (2010a)."Heads I win, tails you lose": How parapsychologists nullify null results. Skeptical Inquirer, 34(1), 36-39. [Recuperado de http://www.csicop.org/si/show/
heads_i_win_tails_you_loser_how_parapsychologists_nullify_null_results/]
Wiseman, R. (2010b, March 16). Heads I win, tails you lose: How parapsychologists nullify null results. Lecture presented at Goldsmith University, London. Retrieved from http://vimeo.com/11653478
* Traducido del inglés por Alejandro Parra. Revisión técnica del primer autor.
** Johann Baptista es estudiante de física en la Universidad de Willamette en Salem, Oregon, y miembro de la Parapsychological Association. Su interesésa está centrado en la metodología y los problemas estadísticos en parapsicología, así como las implicaciones teóricas que sus fenómenos podrían tener para las leyes de la física y el campo de la experiencia humana. Otras actividades incluyen física, estadística, programación, filosofía, escepticismo, y metodología experimental, así como también la múica (flauta irlandesa) y la lectura en sentido amplio.
*** Max Derakhshani es actualmente estudiante del doctorado en física teórica en la Universidad de Nebraska, en Lincoln. Tiene una maestría en física de la Universidad de Clemson y una licenciatura en física de la Universidad de Stony Brook. Su interés en física es la intersección de los fundamentos cuánticos y la gravedad cuántica. Se interesa por la parapsicología principalmente por sus aspectos metodológicos y estadísticos, así como por sus implicaciones para los estándares metodológicos y estadísticos utilizados por la ciencia en general. Max también está interesado en las implicaciones teóricas de los fenómenos psi para nuestra comprensión de las leyes de la física, aunque mantiene su postura escéptica respecto a la realidad de psi.
1 En lunfardo argentino, se emplea la expresión "cajonear", que significa esconder un archivo en un cajón de escritorio, o documento, para demorar su trámite o que permanezca desconocido, pero no destruído (Nota del Traductor).
2 Para evitar el sesgo de publicaciones, entre otras técnicas para minimizarlo, es posible que se necesite una búsqueda exhaustiva de estudios no publicados. Para ello se utilizan herramientas analíticas como el Gráfico en Embudo de Begg o el método de Recorte y Relleno para cuantificar la posible presencia de sesgos en la publicación. El sesgo de publicación está basado en la teoría de que estudios pequeños, con pocos participantes en la muestra (y gran varianza), tenderán a no ser publicados, mientras que los estudios a gran escala son más valorados por los investigadores y tienen más probabilidades de ser publicados por la significación de sus resultados. Otra forma de sesgo de publicación consiste en publicar estudios sólo con resultados positivos, en tanto que si son negativos, no se publican. Por lo tanto, en un meta-análisis, cuando se presentan estimaciones globales frente a la varianza (tamaño de muestra), se forma un embudo simétrico en ausencia de un sesgo de publicación, mientras que se observa un embudo asimétrico sesgado en presencia de un potencial sesgo. El método "recorte y relleno" también es un método para inferir la existencia de estudios no publicados ocultos determinado a partir de un gráfico en embudo, y posteriormente se corrige el meta-análisis estimando cuantos nuevos estudios serían necesarios para producir un resultado significativo (Nota del Traductor).
|
|
|