Sensibilidad y especificidad en una prueba de diagnóstico (II)
Vinicio Barrientos Carles | Para no extinguirnos / EPISTEME
El diagnóstico reduce la complejidad del sufrir y del vivir la enfermedad.
Juan Gérvas
La primera parte de este artículo refrescó los conceptos de sensibilidad y especificidad de una prueba de diagnóstico. Anteriormente habíamos tratado el tema de la realidad versus el mundo de las apariencias, que se manifiesta de diversas formas. Sin embargo, la regularidad estadística de los mismos fenómenos nos permite obtener conclusiones con cierto grado de certeza, es decir, con determinada probabilidad, partiendo de lo que alcanzamos a percibir. Se trata de la relación estrecha entre una variable desconocida, pero fuertemente vinculada con otra variable que sí podemos conocer, a la que consideramos un indicador, o estimador (predictivo), de la variable que estamos estimando o que pretendemos predecir. En este sentido, en la Estadística, los hechos empíricos se consideran parcialmente conocidos, con un determinado grado de verosimilitud, pero nunca con absoluta certidumbre, porque siempre existe una posibilidad, aunque sea virtualmente nula, de que las cosas sean diferentes a como las consideramos. Este enfoque de la incertidumbre de nuestras percepciones es de una inmensa utilidad en el mundo práctico, en el cual tomamos decisiones continuamente, basados en nuestras experiencias, ciertamente finitas y bastante limitadas. Nuestro mismo lenguaje posee los dos componentes básicas, uno teórico-deductivo, ideal, y otro factual-inductivo, más cercano a la realidad.
Hagamos un ejemplo para comprender mejor a qué nos estamos refiriendo. Digamos que observamos un animal a la distancia y creemos que se trata de un rinoceronte. De hecho, en nuestro lenguaje usaremos la palabra «rinoceronte» cuando creamos que en la realidad estamos frente a este animal. Hay dos opciones básicas mínimas: es un rinoceronte o no lo es. Pero una cosa es la palabra que le asignamos, que es lo que decimos o pensamos que es, y otra es si verdaderamente se trata de este animal o no. El asignar una palabra se basa en una decisión, pero debemos estar siempre conscientes de que digamos que sí o digamos que no, en cualquiera de los dos casos existe la posibilidad de una equivocación.
En el caso de las pruebas de diagnóstico, que consideramos las evidencias, siempre es posible obtener una información errónea, de manera que estos indicadores hagan una predicción o estimación equivocada. Únicamente el pensamiento ingenuo podría conducirnos a obviar esta situación, y aunque la mayoría de las veces perseguimos que no exista sesgo o error, este siempre estará presente. El diagnóstico clínico de una enfermedad no es la excepción, y aunque se realiza con respecto a las evidencias que unos indicadores, o variables predictivas, pueden darnos al respecto de la enfermedad, los indicadores podrían arrojar información errónea. La Estadística estudia los sesgos, persiguiendo que estos sean suficientemente pequeños para despreciarlos en la práctica. Un sesgo de una parte en cien es generalmente aceptable, aunque a veces es necesario aceptar un sesgo de uno en diez.
La sistematización proveniente del método científico permite un conocimiento aproximado, pero progresivo y creciente. Este enfoque de ir mejorando nuestras percepciones conforme se van verificando determinadas conjeturas al respecto de las cosas es la base de la perspectiva bayesiana de la probabilidad, la cual ha adquirido mucho auge con el tema del aprendizaje automático que las máquinas, en contextos limitados, pueden realizar.
La contrastación entre lo que se piensa y lo que es produce cuatro grupos lógicos. Pensemos en términos del COVID-19. Está la variable predictora, o indicador, que es la prueba diagnóstica. O sale positiva o sale negativa. Por otro lado está la variable predecida, o estimada, que es la enfermedad. El indicador es observable, medible, mientras que la enfermedad no lo es, siendo únicamente estimable, predecible, a través de los signos o indicadores. Los cuatro grupos lógicos resultantes son:
a) los verdaderos positivos (VP), que son los enfermos a los cuales la prueba les sale positiva,
b) los falsos positivos (FP), que no estando enfermos obtienen una prueba positiva,
c) los falsos negativos (FN), que serían aquellos que estando enfermos salen con una prueba negativa,
d) los verdaderos negativos (VN), que son los sanos a quienes la prueba da negativo.
El siguiente cuadro básico incluye estos cuatro grupos y presenta los dos tipos de sesgo estadístico, los errores α–ALFA y β–BETA, que miden los falsos positivos y negativos, con relación a los subuniversos de sanos y enfermos, respectivamente.
La sensibilidad y el error β–BETA son complementarios, pues ambos parámetros refieren a la subpoblación de enfermos. En la prueba diagnóstico molecular del RT-PCR la sensibilidad es de 99 %, lo que implica un β = 1 %. Esto significa que en una población de enfermos, el 99 % saldrá positivo en la prueba, pero habrá un 1 % que no será detectado, por lo que la prueba no será sensible en el 1 % de los enfermos (error tipo II: β–BETA). Existe un acrónimo mnemotéctino para recordar esta interpretación: SENDES. Cuando la prueba posee una alta SEnsibilidad (> 95 %), la obtención de un Negativo DEscarta el diagnóstico. Es el caso del RT-PCR. Cuando alguien sale negativo, puedo enviarlo a casa, con la seguridad de que me equivoco poco, esto es, en menos de uno de cada cien casos (β = 1 %). La sensibilidad alta ayuda a descartar. En la prueba de antígeno la sensibilidad baja a un promedio de 75 %, por lo que no permite descartar, puesto que β > 25 % indicaría que envías a casa a muchos realmente enfermos.
De manera similar, la especificidad y el error α–ALFA están relacionados, siendo complementarios, puesto que ambos parámetros refieren a la subpoblación de sanos. En la prueba de diagnóstico molecular del RT-PCR la especificidad es de 90 %, lo que implica un α = 10 %. Esto significa que en una población de sanos, el 90 % saldrá negativo en la prueba, pero habrá un 10 % que será mal detectado, por lo que la prueba no será específica en el 10 % de los enfermos (error tipo I: α–ALFA). El mnemotéctino es ESPIN, porque cuando la prueba posee una alta ESpecificidad (> 90 %), la obtención de un Positivo INdica (especifica) el diagnóstico. En el RT-PCR, cuando alguien sale positivo, debo ponerlo en cuarentena, con la seguridad de que me equivoco moderadamente poco, esto es en menos de uno de cada diez casos (β = 10 %). La especificidad alta ayuda como indicador.
Podríamos continuar hablando de otros parámetros que es posible obtener del análisis de la tabla 2×2 que hemos presentado, tales como los valores predictivos y las razones de verosimilitud, los cuales proporcionan gran ayuda en el proceso diagnóstico, al hacer explícito el cambio entre la probabilidad pre y post prueba, sin recurrir al cálculo bayesiano explícito, que generalmente depende de la prevalencia y de otros datos que son desconocidos ante la evolución de una determinada enfermedad nueva, como es el caso de este nuevo coronavirus que ahora nos preocupa. Hasta entonces, como primer paso, será conveniente comprender la diferencia entre sensibilidad y especificidad de una prueba, y valorar su enorme utilidad.
Imágenes principales tomadas de diversos medios, editadas por Vinicio Barrientos Carles.
Vinicio Barrientos Carles
Guatemalteco de corazón, científico de profesión, humanista de vocación, navegante multirrumbos… viajero del espacio interior. Apasionado por los problemas de la educación y los retos que la juventud del siglo XXI deberá confrontar. Defensor inalienable de la paz y del desarrollo de los Pueblos. Amante de la Matemática.
Correo: [email protected]