Você já ouviu falar em Curva ROC (Receiver Operating Characteristic), sensibilidade e especificidade? Nesta série de artigos da Lean Saúde, vamos explicar alguns conceitos e ferramentas fundamentais para a análise preditiva em saúde.
(Advertência: os exemplos mencionados neste artigo são meramente ilustrativos. Não os considere indicativos de referência técnica para diagnóstico de doenças na prática clínica.)
Os conceitos de sensibilidade e especificidade não são exclusivos do machine learning, mas permeiam diversos ramos da análise estatística, dentro e fora da área da saúde. Médicos e outros profissionais de saúde que interpretam exames laboratoriais provavelmente já de depararam com essas métricas, uma vez que elas são fundamentais para a correta interpretação dos exames e para a formulação de hipóteses diagnósticas.
Sensibilidade
Sensibilidade é a capacidade de o teste detectar corretamente resultados positivos. Suponhamos que um grupo de indivíduos sabidamente portadores de diabetes, realize um exame de glicemia de jejum. De acordo com o valor de corte (cut off) estabelecido, os indivíduos podem ser classificados como portadores de diabetes ou não. A porcentagem de acerto nesta classificação como diabético é a sensibilidade do teste de glicemia de jejum, para o respectivo valor de corte definido.
Por exemplo, considerando como diabetes valores de glicemia de jejum maiores ou iguais a 126 mg/dl, e supondo que a sensibilidade do teste seja de 80%, isso significa dizer que 80% das pessoas sabidamente diabéticas com valor de glicemia igual ou acima de 126 mg/dl seriam corretamente detectadas pelo exame. A sensibilidade também pode ser entendida como a taxa de “verdadeiros positivos”. “Recall” é outro termo comumente utilizado como sinônimo.
Especificidade
Especificidade, por sua vez, é a capacidade de o teste detectar corretamente resultados negativos. Usando novamente o exemplo da glicemia, se tivermos uma população sabidamente não-diabética e que se submeta ao exame de glicemia de jejum, considerando 126 mg/dl como valor de corte, aquelas pessoas que obtiverem resultados menores que 126 mg/dl seriam classificadas como não-diabéticas. Assim, a especificidade ou taxa de “verdadeiros negativos” seria o percentual de indivíduos corretamente classificados como não-diabéticos.
Curva ROC
Em análise preditiva em saúde, sensibilidade e especificidade são fundamentais para se aferir a acurácia dos modelos. Em artigos subsequentes, vamos definir melhor o cálculo da acurácia, do valor preditivo positivo e negativo, da AUC (Area Under Curve – Área Sob a Curva), dentre outros.
Um método bastante útil para visualizar de maneira conjunta a acurácia de determinado teste é a chamada Curva ROC:
No eixo X (horizontal), temos a taxa de falsos positivos (o oposto da especificidade: 1 – especificidade); no eixo Y (vertical), temos a taxa de verdadeiros positivos (a sensibilidade). Quanto maiores os valores de sensibilidade e de especificidade (mais próximos de 100%), maior a acurácia do teste. A curva ROC ilustra como varia a sensibilidade e a especificade do teste, conforme se consideram diferentes valores de corte. Ela ajuda a definir o valor de corte ideal, para as finalidades do exame.
Muitas vezes, ao calibrarmos determinado modelo preditivo, precisamos ajustar o valor de corte de modo a favorecer maior sensibilidade em detrimento da especificidade, ou vice-versa. A escolha de tal valor de corte pode ser guiada por vários critérios — clínicos, práticos, econômicos, etc. Existem várias ferramentas utilizadas para a escolha do valor ideal, de acordo com o objetivo considerado.
Foge ao escopo deste artigo um maior aprofundamento técnico no tema, porém, esperamos ter clarificado alguns conceitos importantes para a análise preditiva em saúde, um dos focos de atuação da Lean Saúde. Se você tem dúvidas sobre como a análise preditiva pode auxiliar sua empresa, corretora, operadora ou seguradora de saúde, entre em contato conosco!