Un metaanálisis exhaustivo de la prueba

Charles R. Honts

Steven Thurber

Mark Handler

Abstract

Llevamos a cabo un metaanálisis sobre la prueba poligráfica forense más comúnmente utilizada, la Prueba de Preguntas de Comparación. Captamos tantos estudios como nos fue posible utilizando amplios criterios de inclusión. Los datos y los posibles moderadores se codificaron a partir de 138 conjuntos de datos. El tamaño de efecto meta analítico, incluyendo los resultados inconclusos, fue de 0.69 [0.66, 0.79]. Encontramos efectos moderadores significativos. De manera especial, el nivel de motivación tuvo una relación lineal positiva en nuestras mediciones resultantes. El análisis de Ganancia de Información de los resultados del CQT representando la precisión media, mostró un incremento de información significativo en comparación con la detección del engaño interpersonal, en casi toda la gama de tasas base. Nuestros resultados sugieren que el CQT puede ser preciso, que los estudios experimentales son generalizables y que no se detectó ningún sesgo de publicación. Discutimos las limitaciones de la literatura en la investigación de campo y los problemas que disminuyen la precisión dentro de la profesión poligráfica en campo. Sugerimos algunas posibles soluciones.

Palabras clave

Prueba de preguntas de comparación, detección del engaño, polígrafo, detección psicofisiológica del engaño 1- Department of Psychological Science, Boise State University, Boise, Idaho, USA 2- Child and Adolescent Behavioral Health Services, Minnesota Department of Human Services, Saint Paul, Minnesota, USA 3- Converus, Inc., Lehi, Utah, USA

Correspondencia

Charles R. Honts, Department of Psychological Science, Boise State University, 1910

University Drive MS-1715, Boise, ID 83725-1715, EE. UU.

Correo electrónico: chonts@boisestate.edu

Este es un artículo de acceso abierto bajo los términos de la Licencia “Creative Commons”

Atribución-NoComercial-SinObraDerivada, que permite su uso y distribución en cualquier medio, siempre que se

cite correctamente la obra original, el uso no sea comercial y no se realicen modificaciones ni adaptaciones.

Introducción

La mentira es un comportamiento humano omnipresente. En un estudio ya clásico, DePaulo et al. (1996) informaron de que los estudiantes universitarios mentían dos veces al día en sus interacciones (conversaciones que duraban más de 10 minutos) con otras personas, es decir, en aproximadamente un tercio de sus interacciones diarias. DePaulo et al. (1996) también reportaron que los estudiantes universitarios mentían al 38% de las personas con las que interactuaban. Sistemáticamente, investigaciones posteriores han demostrado la alta frecuencia y ubicuidad de la mentira (Hartwig y Bond, 2014). Aunque muchas de estas mentiras son triviales, es evidente que muchas no lo son, y si tienen éxito, las mentiras pueden tener efectos devastadores en relaciones, sociedades, empleos, justicia penal, política, salud pública y seguridad nacional (Granhag & Strömwall, 2004) .

El hábito de mentir no sería tan grave si la gente pudiera detectar las mentiras interpersonalmente. Desgraciadamente, numerosas investigaciones indican que la gente promedio tiene un sesgo hacia la veracidad (es decir, tienden a juzgar a las personas como veraces) y sólo tienen una precisión del 54%. Además, los profesionales (por ejemplo, los agentes de policía) encargados de realizar juicios de credibilidad no son más precisos, y muestran aproximadamente la misma precisión, pero con un sesgo hacia la mentira (tienden a juzgar a las personas como mentirosas). Los hallazgos en las investigaciones que indican una precisión deficiente en la detección del engaño interpersonal parecen ser ciencia establecida y se remite a los lectores interesados a Vrij, Mann, et al. (2008) para una visión general y a Hartwig y Bond (2011, 2014) para un metaanálisis.

En respuesta a la escasa precisión en la detección del engaño interpersonal se buscar una solución en la tecnología. Una de las propuestas tecnológicas más antiguas para la evaluación de la credibilidad es el uso de mediciones fisiológicas para hacer inferencias sobre la credibilidad de las declaraciones de las personas (Munsterberg, 1908). En Estados Unidos, estas pruebas se conocen como pruebas poligráficas. Para ver la historia del desarrollo de las pruebas poligráficas, léase Trovillo (1939a, 1939b). Raskin (1986) y Raskin y Honts (2002) que proporcionan descripciones del desarrollo de la investigación científica moderna sobre la prueba poligráfica forense más comúnmente utilizada, la Prueba de Preguntas de Comparación (CQT).

* Partes de estos hallazgos se presentaron como ponencia (Honts & Thurber, 2019a) en la reunión anual de la American Psychology Law Society, Portland, Oregón, Estados Unidos. Los autores desean agradecer a Adela Anderson su ayuda en la edición del manuscrito final.

Las pruebas poligráficas son pruebas psicológicas que se utilizan en todo el mundo como herramienta de selección para las fuerzas del orden, la seguridad nacional y empleos privados. Las pruebas poligráficas también se emplean ampliamente como pruebas forenses en investigaciones y procedimientos judiciales. La mayor asociación profesional de examinadores poligráficos, la American Polygraph Association (APA), cuenta con más de 2800 miembros de 58 países (APA, 2019a). Las estimaciones indican que hay más de 8000 examinadores poligráficos operando solo en China (Zhang, 2011). Aunque los críticos del polígrafo (por ejemplo, Iacono & Ben-Shakhar, 2019) reconocen que el polígrafo se utiliza en algunos países fuera de los Estados Unidos, a menudo no reconocen su amplio uso internacional. Una breve serie de búsquedas en línea reveló examinadores de polígrafo residentes en 65 países, con 24 escuelas de formación reconocidas profesionalmente y 12 organizaciones profesionales, todas con membresías internacionales. Hemos proporcionado documentación del uso internacional del polígrafo en nuestra información suplementaria Archivo A (Datos S1).

Existe una gran variabilidad con respecto al uso de los resultados de las pruebas poligráficas en los tribunales de justicia. En los Estados Unidos, las pruebas poligráficas son admisibles en los tribunales de justicia de aproximadamente la mitad de los estados bajo estipulación (Iacono & Ben-Shakhar, 2019). Desde 1975, el Estado de Nuevo México ha permitido la admisión general, sin estipulación, de los resultados de las pruebas poligráficas bajo la Regla de Evidencia de Nuevo México 11-707 (Raskin, 1986, también ver, Lee et al., v. Martínez et al., 2004 para una reafirmación de la admisibilidad bajo el estándar Daubert). Los tribunales federales de EE.UU. también pueden admitir los resultados de las pruebas poligráficas a discreción del juez (EE.UU. contra Scheffer, 1998) en virtud de las normas del caso Daubert contra Merrell Dow Pharmaceuticuals (1993). Más allá de la cuestión de la admisibilidad de las pruebas poligráficas en los juicios, en términos prácticos, se utilizan en todos los sistemas de justicia penal de muchos países para influir en las decisiones relacionadas con proseguir con la investigación de posibles sospechosos, de interrogar a los sospechosos, de imputar delitos y en las audiencias de sentencia. Además, las pruebas poligráficas se utilizan en unos pocos países para tomar decisiones acerca de continuar o modificar las condiciones de tratamiento, libertad condicional o libertad vigilada de personas condenadas por delitos sexuales (Grubin et al., 2019).

Al igual que en Estados Unidos, la situación del polígrafo en los tribunales internacionales es variada. Parece que en la mayoría de los países las pruebas poligráficas se utilizan principalmente como una herramienta de investigación forense y de seguridad. Sin embargo, hay varios países que permiten la admisión de los resultados de la prueba poligráfica como prueba en sus tribunales de justicia. Más recientemente, Bélgica (Philippe, 2020) determinó que los resultados de los exámenes poligráficos CQT pueden utilizarse como prueba en casos penales. Los resultados de las pruebas poligráficas son admisibles en Polonia desde 1976 (Widacki, 2007). En Europa, también se observa que en unos pocos casos los resultados del polígrafo se presentaron en los tribunales de Finlandia, Noruega, Suecia (Meijer & Von Koppen, 2008) y Lituania (Kraujalis et al., 2007).

En Asia, los resultados de las pruebas poligráficas son admisibles en casos civiles en China, pero no en penales (Guodong, 2020). En Sudamérica, los resultados de las pruebas poligráficas son admisibles en Colombia (Bermúdez y Arias, 2011).

A pesar de la amplia aplicación de las pruebas poligráficas y del importante papel que desempeñan en la seguridad nacional, lo forense y la justicia penal en todo el mundo, las pruebas poligráficas han recibido relativamente poca atención en la psicología académica y a menudo, esa atención ha sido en forma de comentarios negativos. La mayor parte de la investigación poligráfica publicada se ha centrado en los usos forenses de las diversas técnicas poligráficas. Hay dos familias cualitativamente diferentes de pruebas poligráficas usadas en la aplicación forense. La primera familia de pruebas está diseñada para detectar información oculta. Estas pruebas se conocen como Pruebas de Conocimiento Culpable o Pruebas de Información Oculta. Aunque estas pruebas tienen buenas cualidades psicométricas y han demostrado ser precisas en contextos experimentales, su precisión nunca se ha establecido en contextos de campo en los que raramente se dan las condiciones previas necesarias (Podlesny, 1993), y en los que hay una abyecta falta de teoría sobre qué detalles de una escena del crimen es probable que se recuerden (Honts, 2004). Además, los datos de campo existentes indican altas tasas de falsos negativos (Elaad et al., 1992; y revisiones de Honts, Raskin, et al., 2008 y Vrij, 2008). Japón es el único país donde el CIT se aplica ampliamente en investigaciones criminales (Matsuda et al., 2019).

En Japón, entre 80 y 100 examinadores realizan unas 5000 pruebas al año (Hira & Furumitsu, 2002; Matsuda et al., 2019). Aunque 5000 pruebas podrían parecer un número relativamente grande de pruebas, eso debería contrastarse con el número de actos delictivos investigados. En 2018 se investigaron 817,338 actos delictivos (Osumi, 2019). Por lo tanto, suponiendo que se administraron 5000 exámenes CIT, entonces el CIT se utilizó en solo el 0.6% de los casos criminales en Japón en 2018. Esto indica que el uso del CIT es extremadamente raro incluso en el único país que se centra en el uso forense en las pruebas de información en investigaciones criminales. La prueba poligráfica más utilizada en todo el mundo, la Prueba de Preguntas de Comparación (CQT), adopta un enfoque directo para la evaluación forense de la credibilidad mediante la formulación de preguntas acusatorias sencillas. Honts y Thurber (2019b) señalaron recientemente que el CQT se presenta en diversas variantes con características generalmente comunes. Durante la prueba, se monitorea la fisiología autónoma del sujeto (normalmente la respiración, la actividad electro dérmica, la presión arterial relativa, y a menudo, la actividad vasomotora periférica) mientras el sujeto responde a una serie de preguntas. En las series hay dos categorías de preguntas críticas (normalmente tres de cada una). Las preguntas relevantes son preguntas semánticamente sencillas que abordan directamente los asuntos bajo investigación. Las preguntas de comparación se diseñan y presentan manera que todos los sujetos mientan, o al menos duden de su veracidad al responderlas durante la prueba. Se espera que las respuestas fisiológicas de los sujetos muestren una completa interacción cruzada entre su estatus de culpabilidad y el tipo de pregunta crítica. Es decir, se espera que los sujetos con engaño muestren mayores respuestas fisiológicas ante las preguntas relevantes en comparación con las preguntas de comparación. Se espera que los sujetos inocentes que dicen la verdad en las preguntas relevantes muestren un patrón opuesto, con mayores respuestas fisiológicas en las preguntas de comparación que en las preguntas relevantes. A lo largo de los años, la investigación bibliográfica acerca del CQT ha sido objeto de varias revisiones. Revisiones importantes son: Kircher et al. (1988), Raskin et al. (1997), Iacono y Lykken (1997), National Research Council of the National Academy of Sciences (NRC) (2003), Honts (2004), Vrij, Mann, et al. (2008); APA (2011); y Raskin et al. (2014). Hay diferencias entre las revisiones, pero en general se obtuvieron estimaciones de precisión superiores al 85%. Sin embargo, sólo una de esas revisiones utilizó técnicas meta analíticas para examinar las variables moderadoras (Kircher et al., 1988). Kircher et al. (1988) sólo muestrearon experimentos y analizaron 14 estudios. El número reducido de estudios considerados por Kircher et al. (1988) reflejaba el tamaño de la literatura experimental y sus criterios de inclusión en aquel momento. Encontraron efectos moderadores significativos en los Sujetos (Estudiantes vs Otros), los Incentivos (Mínimos vs Fuertes) y la Política de Decisión (Campo Estándar vs Otro). Las tres variables resultaron ser predictoras de precisión, y las tres mostraron altas covariaciones dentro de los estudios y no se reportaron los análisis que examinaron su asociación relativa con la precisión. Así pues, los efectos moderadores de Kircher et al. (1988) son confusos y difíciles de interpretar. Lamentablemente, todas las revisiones previas pueden criticarse por su elección selectiva de estudio y, con la única excepción de Kircher et al. (1988), por la falta de escrutinio meta analítico. No obstante, los revisores llegaron a veces a conclusiones que hipotetizaban o incluso suponían potentes efectos moduladores. La reciente publicación de Iacono y Ben-Shakhar (2019) es particularmente atroz en ese sentido. Iacono y Ben-Shakhar (2019) centran su revisión en la revisión del National Research Council of the National Academy of Sciences (NRC) (2003) sobre las pruebas poligráficas y finalmente concluyeron: “En 2003, la National Academy of Sciences concluyó que las pruebas poligráficas tenían una débil base científica y una tasa de error desconocida. El análisis de las investigaciones realizadas en los últimos 15 años indica que estas conclusiones siguen siendo válidas” (p. 86). Iacono y Ben-Shakhar (2019) basan su conclusión en las siguientes líneas de argumentación: (1) Muchos autores han tergiversado el análisis de la NRC como indicador de una alta precisión para el CQT. (2) Un experimento mental, que Iacono y Ben-Shakhar (2019) tratan como evidencia, que muestra un posible conjunto de factores que podrían dar lugar a que una prueba al azar produjera una alta precisión en un estudio. (3) Un ataque a los lugares donde se publicó la investigación poligráfica en lugar de la calidad de la investigación. (4) Un amplio rechazo de los estudios experimentales que proporcionan un índice de utilidad de la aplicación del CQT. (5) Una suposición implícita de que la contingencia asociada al resultado de un examen CQT es un moderador poderoso de la exactitud de la prueba. Por último, (6) una afirmación de que existe una falta de teoría subyacente de la prueba. Iacono y Ben-Shakhar (2019) afirman que estos argumentos son un hecho, pero la mayoría son especulaciones sin fundamento, y merecen un examen crítico y empírico. Esos argumentos se han analizado en otro lugar y se ha determinado que carecen de mérito (Honts & Thurber, 2019a, 2019b). Los argumentos 3, 4 y 5 de Iacono y Ben-Shakhar (2019) afirman que la precisión y el lugar de publicación están correlacionados y en general descartan la investigación experimental como no generalizable al CQT aplicado en campo. Estos argumentos se presentan como si fueran afirmaciones de condiciones fácticas, pero se presentaron sin evidencia empírica. Sin embargo, estas cuestiones de validez eterna representan variables moderadoras potenciales para el metaanálisis. Curiosamente, los argumentos 3, 4 y 5 de Iacono y Ben-Shakhar (2019) son algunos de los mismos argumentos de las críticas a la detección interpersonal del engaño, que fue el factor motivante para uno de los metaanálisis publicados por Hartwig y Bond (2014). Hartwig y Bond (2014) revisaron las preocupaciones acerca de la validez externa en la investigación sobre la detección del engaño interpersonal. Esa revisión contenía muchas sorprendentes similitudes a las críticas contra la detección psicofisiológica del engaño, con preocupaciones acerca de los fuertes efectos moderadores del lugar experimental, población de sujetos y la fuerza de la contingencia de los resultados y la inadecuación de la teoría. Hartwig y Bond realizaron un meta-análisis de la detección del engaño interpersonal para abordar las preocupaciones sobre la limitada validez externa de la investigación de la detección del engaño. En concreto, abordaron las siguientes variables moderadoras potenciales: Antecedentes Demográficos del Mentiroso (estudiante, otro), Motivación para Mentir (Ninguna, Moderada, Alta), Entorno Social (Monólogo, Entrevista, Interacción), Medio de Engaño (Cara a cara, Otro), Estado Afectivo (Emoción Fuerte, Sin Emoción) y Contenido de la Mentira (Sentimientos, Hechos). Hartwig y Bond (2014) reportaron resultados no significativos para todas las posibles variables moderadoras. Hartwig y Bond (2014) concluyen: “El principal hallazgo de nuestro análisis es que la detectabilidad de la mentira se mantiene estable en todos los contextos. En particular, el hallazgo sobre la validez externa refleja los de los metaanálisis que compararon la investigación de laboratorio con la investigación de campo en otros dominios” (p. 667). 2. Objetivos del Presente Estudio Al igual que Hartwig y Bond (2014), nuestro objetivo principal fue abordar las preocupaciones sobre la validez externa de la investigación sobre la detección psicofisiológica del engaño. Un interés secundario era proporcionar una evaluación meta-analítica de la capacidad del CQT para detectar el engaño. También nos motivó el hecho de que hubo un aumento dramático en investigaciones acerca del CQT desde la publicación del informe del NRC (2003). Nuestro enfoque consistió en hacer que nuestros criterios de inclusión fueran lo más amplios posible para poder evaluar todo el rango de efectos potenciales de una serie de variables moderadoras que los críticos han dicho que son importantes y también evitar cualquier sugerencia de sesgo en nuestro muestreo de casos. Nuestros amplios criterios de selección se adoptaron a sabiendas de que incluiríamos estudios que, según revisores anteriores, tenían métodos subestándar. Nos dimos cuenta de que esta decisión probablemente tendría un impacto en nuestra estimación del tamaño del efecto. Sin embargo, nos centramos en la inclusión del mayor número posible de estudios para poder examinar la más amplia gama posible de nuestras variables moderadoras prospectadas en nuestra evaluación de la validez externa. Como en el caso de Hartwig y Bond (2014), este metaanálisis podía tener dos resultados. En primer lugar, puede que los críticos tengan razón y que haya moderadores que estén fuertemente asociados con la precisión de las pruebas poligráficas CQT. Puede ser que en el mundo real las pruebas CQT sean más o menos precisas que en el laboratorio. Alternativamente, puede ser que la detección psicofisiológica del engaño es estable frente a una serie de variables moderadoras posibles, de forma similar a los resultados de Hartwig y Bond (2014). Como señalaron Hartwig y Bond (2014), las implicaciones de estos dos resultados son muy diferentes en la investigación y la práctica. Si se identificaran moderadores significativos, los usuarios finales en ambientes de aplicación tendrían mejor información en la que basar sus juicios del peso que se debe dar a los resultados de las pruebas CQT en sus diversas aplicaciones. La existencia de moderadores significativos también proporcionaría una guía para las personas que realizan investigaciones sobre cómo aumentar la validez externa de sus paradigmas experimentales. Sin embargo, si se encuentra que la precisión del CQT es estable a través de un rango de variables moderadoras, o que sólo se ve débilmente impactada por ellas, entonces las críticas a la investigación experimental acerca del CQT por su débil validez externa parecerían infundadas y puestas en duda. Este último hallazgo sugeriría que los resultados de la investigación experimental sobre el CQT no deberían descartarse como un artefacto de laboratorio y que debería darse a esos resultados un peso serio en la estimación de la validez del CQT. 3. Accediendo a la Precisión del CQT La práctica habitual del CQT plantea un problema inusual para el análisis tradicional del tamaño del efecto, en el que la atención suele centrarse en una variable con resultado binario. En un CQT, el resultado estándar no es binario, sino que tiene tres niveles basados en un continuo subyacente de puntajes. Los resultados estándar en un CQT son Veraz, Inconcluso o Engaño. Este continuo de decisión de tres niveles suele seguir una escala de intervalo subyacente de puntuaciones numéricas, del mismo modo que los términos frío, templado y caliente siguen escalas de intervalo o relación subyacente de temperatura. En las revisiones se han adoptado varios enfoques para cuantificar la precisión del CQT. El NRC (2003) utilizó el área bajo la curva (AUC) como índice de precisión e ignoró los resultados inconclusos. Honts y Schweinle (2009) utilizaron la ganancia de información (Wells & Olson, 2002) y proporcionaron tres curvas de ganancia de información para resultados veraces, inconclusos y engaño. Otros estudios de se han limitado a calcular medias ponderadas a partir de una tabla de contingencia de 2 (inocente o culpable) por 3 (veraz, inconcluso y con engaño) (Raskin et al., 1997) o alguna variación de esta (Iacono y Lykken, 1997). El uso de tres resultados aumenta así la complejidad de la interpretación de los datos agregados. En respuesta a este problema, Kircher et al. (1988) desarrollaron y utilizaron una única medida de precisión que denominaron Coeficiente de Eficacia de Detección (rdec). El rdec es simplemente una correlación entre el estado binario de la realidad, Culpable o Inocente, codificado -1 y 1 respectivamente, y los resultados de la prueba, con Engaño, Inconcluso o Veraz, codificados -1, 0 y 1 respectivamente. Así pues, la rdec es sensible al impacto de los resultados inconclusos, ya que su aparición reduce el valor de la rdec, pero no como un error. En nuestros análisis adoptamos la rdec como medida principal de la precisión del CQT. Sin embargo, también planeamos examinar los análisis más tradicionales de sensibilidad, especificidad y AUC. Una vez que se conocieron los efectos de los moderadores y se obtuvo una estimación de la precisión del CQT a partir del metaanálisis, planeamos evaluar el valor añadido de disponer de un resultado de la prueba CQT en comparación con la información de la que disponen fácilmente las personas que intentan evaluar la credibilidad en un entorno interpersonal. Para que en la práctica sea útil, una prueba diagnóstica debe proporcionar información más allá de la disponible sin la prueba. En la evaluación de la credibilidad, hay dos fuentes disponibles de información antes de realizar la prueba. Una de ellas es la decisión de credibilidad interpersonal basada en el comportamiento manifiesto del individuo durante una interacción o un interrogatorio formal. Por desgracia, se calcula que las evaluaciones de credibilidad interpersonales tienen una precisión del 54% (Vrij, 2008). Una fuente de información importante, y a menudo ignorada en la toma de decisiones forenses es la tasa base subyacente de la condición objetivo (Honts & Schweinle, 2009). En los entornos en los que se utiliza la prueba poligráfica, la tasa base de culpabilidad puede variar drásticamente. Por ejemplo, en el ámbito de la seguridad nacional, la tasa base de culpabilidad (es decir, la probabilidad de que un sujeto determinado sea un agente de un gobierno extranjero o de una organización terrorista) probablemente sea muy baja. En algunas situaciones forenses, la tasa base puede ser relativamente baja, por ejemplo, cuando hay un varios sospechosos y el polígrafo se utiliza para reducir el tamaño del grupo de sospechosos. En otras situaciones poligráficas forenses la tasa base de culpabilidad puede ser alto, por ejemplo, después de que un largo proceso de investigación haya reducido el grupo de sospechosos a uno o dos individuos, o cuando un individuo ha sido acusado formalmente de un crimen. Lo que se necesita es un método para evaluar la utilidad de una prueba en toda la gama de tasas base, de modo que los usuarios finales de la información puedan estimar cuánto peso dar al resultado de una prueba y juzgar cuándo puede ser útil. Afortunadamente, existe dicho método. Descrito por primera vez por Wells y Lindsay (1980) y ampliado por Wells y Olson (2002), el análisis de la ganancia de información (GI) utiliza un enfoque Bayesiano para describir el impacto de las tasas base en la información proporcionada por los procedimientos de identificación ocular de testigos. Honts y Schweinle (2009) adaptaron los procedimientos de IG de Wells y Olson para utilizarlos con el CQT y sus tres niveles de resultados. Utilizamos el análisis IG para evaluar el valor aplicado del CQT basándonos en las estimaciones meta analíticas de la precisión del CQT en comparación con la detección del engaño interpersonal.

4. Método 4.1 Procedimientos de búsqueda bibliográfica Para nuestra base de datos intentamos encontrar todos los estudios disponibles en inglés sobre la exactitud del CQT realizados en entornos o paradigmas forenses. Comenzamos nuestra búsqueda con la biblioteca personal del primer autor. El primer autor ha estado involucrado en la realización de investigaciones sobre el CQT desde 1980. A continuación, se realizaron búsquedas informáticas en Criminal Justice Abstracts, Defense Technical Information Center (DTIC), Google Scholar, JSTOR, ProQuest Theses and Dissertations Global, PsychINFO y Psy- chARTICLES. Se realizaron búsquedas con los términos Comparison Question Test, CQT, Polygraph, Psychophysiological Deception Detection, Psychophysiological Detection of Deception, y PDD. También revisamos el volumen completo de la revista Polygraph, ahora conocida como Polygraph & Forensic Credibility Assessment: A Journal of Science and Field Practice. Se realizaron búsquedas en las secciones de referencias de los artículos a medida que se iban obteniendo y se cruzaron con los estudios que ya figuraban en la base de datos. Se obtuvieron y añadieron a la base de datos las referencias que no estaban en la base de datos. La búsqueda de estudios adicionales se cerró el 1 de julio de 2018. 4.2 Criterios de inclusión de los estudios Nuestro objetivo para este estudio era incluir todos los informes en lengua inglesa con información suficiente para el análisis. Se incluyeron los estudios que cumplían los siguientes criterios: (1) El estudio abordaba la validez del CQT en un entorno o paradigma que abordaba asunto o asuntos específicos (no se incluyeron pruebas exploratorias preempleo). (2) Se disponía de información suficiente para determinar las frecuencias de los distintos resultados de las pruebas. (3) En los estudios de campo, había una descripción del criterio utilizado para clasificar los casos como Inocente o Culpable. (4) Había información suficiente para determinar el método utilizado para la evaluación de los datos y la generación de un resultado. (5) Se utilizaron al menos dos de las medidas fisiológicas estándar (respiración, actividad electrodérmica, presión arterial relativa o actividad vasomotora) en la recolección de datos. (6) El estudio no duplicó datos y análisis ya existentes en la base de datos. (Por ejemplo, los mismos datos en el reporte de subvención y en una publicación estarían representados en la base de datos sólo por la publicación). (7) Los datos del estudio se recogieron de sujetos reales y no se basaron en métodos de bootstrapping, Monte Carlo u otros métodos de estimación estadística. 4.3 Muestras de interés Nuestra unidad de análisis fue una muestra de datos de sujetos mentirosos (Culpables) y de sujetos veraces (Inocentes) analizados con la misma técnica de puntuación. En algunos informes, la misma muestra de sujetos fue evaluada por varios evaluadores. En algunos de esos informes, sólo se reportaban los promedios. En ese caso, se utilizaron los datos promediados para nuestro análisis. Cuando se utilizaron promedios, se mantuvo como N el número de pruebas promediadas y no el número de puntuaciones. En algunos informes se facilitaron datos de diferentes puntuaciones de los mismos datos. En esos estudios se seleccionaron al azar los datos de un evaluador y en el análisis sólo se utilizaron los datos de ese evaluador. En algunos informes, los datos se puntuaron con diferentes métodos de puntuación. En los datos de este estudio se incluyó un ejemplo de cada método de puntuación.