Capítulo 8. Análise do risco de viés de Estudos de Acurácia Diagnóstica com a ferramenta QUADAS 2
CAPÍTULO 8
Análise do Risco de Viés de Estudos de Acurácia Diagnóstica com a Ferramenta QUADAS-2
Eliete Neves Silva Guerra, Juliana Amorim dos Santos, Graziela De Luca Canto
1. Introdução
Revisões Sistemáticas (RS) de diagnóstico são importantes ferramentas de estudo para identificar as aplicações de novos testes e métodos usados por profissionais de saúde a fim de discriminar se um indivíduo tem determinada doença ou condição em populações consideradas suspeitas para aquela doença.1 Os estudos primários incluídos em uma RS de diagnóstico têm como principal objetivo determinar a acurácia de testes índices, utilizando um padrão de referência (antigo “padrão-ouro”) como comparador.
Duas são as medidas principais para avaliar a acurácia: a sensibilidade e a especificidade. Sensibilidade é a razão do número de avaliações positivas verdadeiras pelo número de todas as avaliações positivas, o que significa a capacidade de discriminar, entre os suspeitos, aqueles que estão efetivamente doentes. A especificidade é a razão do número de avaliações negativas verdadeiras por número de todas as avaliações negativas, ou seja, a capacidade de um mesmo teste ser negativo em pacientes não doentes.2
Assim, a RS de estudos de acurácia diagnóstica permite investigar a validade e a consistência do desempenho de um teste índice entre diferentes delineamentos de estudos diagnósticos e em perfis populacionais distintos.3 No entanto, esse tipo de RS é frequentemente caracterizado por resultados, marcadamente heterogêneos, originados de diferenças no desenho e condução dos estudos incluídos, o que torna essencial a avaliação criteriosa da qualidade dos estudos primários incluídos.
A ferramenta QUADAS, do inglês Quality Assessment of Studies of Diagnostic Accuracy Included in Systematic Reviews, com tradução livre para o português Avaliação da Qualidade dos Estudos de Precisão Diagnóstica Incluídos em Revisões Sistemáticas, foi desenvolvida em 2003, por meio de um projeto colaborativo entre o Centro de Revisões e Divulgação da Universidade de York e o Centro Médico Acadêmico da Universidade de Amsterdã. O grupo foi composto por cinco pesquisadores, sendo Whiting e Kleijnen oriundos da Universidade de York (Inglaterra) e Rutjes, Reitsma e Bossuyt, da Universidade de Amsterdã (Holanda). O desenvolvimento da ferramenta foi financiado pelo programa NHS R&D Health Technology Assessment (HTA).
Whiting et al.4 organizaram um procedimento Delphi para desenvolver a ferramenta de avaliação de qualidade refinando uma lista inicial de potenciais itens para o checklist do QUADAS, obtendo-a com os resultados de três Revisões Sistemáticas de diagnóstico conduzidas anteriormente. Na primeira versão, um total de nove especialistas na área de diagnóstico participaram do procedimento Delphi, que consistiu em quatro rodadas, após as quais se chegou a um acordo sobre os itens a serem incluídos na ferramenta. A lista inicial de 28 itens foi reduzida para 14, no instrumento final, estes avaliam o risco de viés, fontes de variação (aplicabilidade) e qualidade dos relatórios, sendo cada item classificado como “Sim”, “Não” ou “Incerto”. Assim, o primeiro projeto do QUADAS produziu uma ferramenta de avaliação da qualidade baseada em evidências para ser usada em Revisões Sistemáticas de estudos de diagnóstico.
Posteriormente, em 2011, o feedback de usuários e da Colaboração Cochrane sugeriram melhorias no documento original. Os usuários relataram problemas de classificação de certos itens (particularmente, aqueles no espectro do paciente, resultados de testes não interpretáveis ou intermediários e desistência dos participantes), possível sobreposição entre eles (por exemplo, viés de verificação parcial e desistência dos participantes) e situações em que o QUADAS é difícil de ser aplicado (por exemplo, tópicos para os quais o padrão de referência envolve acompanhamento). A ferramenta foi aprimorada e redesenhada, dando origem à criação do QUADAS-2, que se baseia tanto na experiência com o uso da ferramenta original, quanto em novas evidências sobre fontes de viés e variação em estudos de precisão diagnóstica.5
Nessa atualização, o grupo foi composto por nove pesquisadores, especialistas na área de pesquisa diagnóstica, a maioria participou do desenvolvimento da ferramenta QUADAS original. O grupo concordou com as características-chave do escopo desejado do QUADAS-25 e a principal decisão foi de separar “qualidade” em “risco de viés” e “preocupações com relação à aplicabilidade”.
Na nova versão, qualidade foi definida tanto como o risco de viés quanto a aplicabilidade de um estudo. O risco de viés pode ocorrer se falhas sistemáticas ou limitações no desenho ou condução de um estudo distorcem os resultados. A evidência de um estudo primário pode ter aplicabilidade limitada para a revisão se, em comparação com a questão da revisão, o estudo tenha sido conduzido em um grupo de pacientes com características demográficas e clínicas diferentes, o teste índice aplicado e interpretado de forma diferente ou se a definição da condição alvo era diferente.
Outras decisões incluíram limitar o QUADAS-2 a um pequeno número de domínios-chave com sobreposição mínima e com o objetivo de estender o QUADAS-2 para avaliar estudos comparando múltiplos testes índice e aqueles envolvendo padrões de referência com base no acompanhamento, mas não estudos abordando questões de prognóstico. Além disso, foi proposto alterar a classificação de “Sim”, “Não” ou “Incerto”, usada na ferramenta QUADAS original, para “baixo risco de viés” ou “alto risco de viés”, conforme utilizado para avaliar o risco de viés nas revisões da Cochrane de estudos de intervenções.6
O uso do QUADAS e do QUADAS-2 pode ser consultado em diferentes RS escritas pelos autores deste capítulo.7-13
2. Aplicação
A ferramenta QUADAS-2 compreende quatro domínios: 1) Seleção de paciente; 2) Teste índice; 3) Padrão/teste de referência e; 4) Fluxo dos pacientes e tempo dos testes índice e de referência. Todos eles são avaliados em termos de risco de viés e os três primeiros domínios também são avaliados em termos de preocupações em relação à aplicabilidade. É importante destacar que essa ferramenta foi projetada para avaliar a qualidade dos estudos primários de precisão diagnóstica; não se destina a substituir o processo de extração de dados da revisão e deve ser aplicado além deste (por exemplo, desenho do estudo e resultados) para uso na revisão. Perguntas sinalizadoras foram incluídas para ajudar a julgar o risco de viés; elas sinalizam aspectos do desenho do estudo relacionados ao potencial de viés e visam ajudar os revisores a julgarem o risco de viés.
2.1. Risco de viés
A primeira parte de cada domínio diz respeito ao viés e compreende três seções: informações usadas para apoiar o julgamento de risco de viés, questões de sinalização e julgamento de risco de viés. Ao registrar as informações usadas para chegar ao julgamento (suporte para o julgamento), pretende-se tornar a classificação transparente e facilitar a discussão entre os autores da revisão que completam as avaliações de forma independente.6 As perguntas de sinalização adicionais são incluídas para auxiliar nos julgamentos, sendo respondidas como “Sim”, “Não” ou “Incerto”. A resposta “Sim” indica baixo risco de viés.
O risco de viés é julgado como “Baixo”, “Alto” ou “Incerto”. Se as respostas a todas as perguntas de sinalização para um domínio forem “Sim”, o risco de viés será considerado baixo. Se pelo menos uma pergunta de sinalização for respondida “Não”, existe potencial para viés, considerando o estudo com alto risco de viés. A categoria “Incerto” deve ser usada somente quando são relatados dados insuficientes para permitir um julgamento.
2.2. Aplicabilidade
As seções de aplicabilidade são estruturadas de maneira semelhante às seções de risco de viés, mas não incluem as perguntas sinalizadoras. Os autores da revisão registram as informações sobre as quais o julgamento de aplicabilidade é feito e, em seguida, classificam sua preocupação de que o estudo não corresponda à questão da revisão.
As preocupações sobre a aplicabilidade são classificadas como “Baixa”, “Alta” ou “Incerta”. Os julgamentos de aplicabilidade referem-se à fase 1, onde a questão da revisão foi registrada. Novamente, a categoria “Incerta” deve ser usada somente quando dados insuficientes são relatados.
As seções a seguir explicam resumidamente as questões de sinalização e risco de parcialidade ou preocupações sobre questões de aplicabilidade para cada domínio.
A ferramenta na versão mais atual e idioma original (inglês), conforme apresentada por Whiting et al.5, está representada no Quadro 1 e será aprofundada posteriormente (em português).
Quadro 1. Ferramenta QUADAS-2 no idioma original (inglês)
Domains | Prompting items | Ratings |
Patient Selection | ||
Could the selection of patients have introduced bias? | a. Was a consecutive or random sample of patients enrolled?
b. Was a case–control design avoided? c. Did the study avoid inappropriate exclusions?
|
Yes: The study ideally enrolled a consecutive or random sample of eligible patients with suspected disease.
No: The study made inappropriate exclusions (for example, not including “difficult-to-diagnose” patients), resulting in overestimation of diagnostic accuracy. Unclear: There is not enough data to permit a judgment. |
Risk of bias | Low bias: The answer to all signaling questions for a domain is “YES”.
High bias: The answers to any signaling questions for a domain are “NO”. Unclear bias: There is not enough data to permit a judgment. |
|
Applicability: are there concerns that the included patients and setting do not match the review question? | Low bias: The patients included in the study do not differ from those targeted by the review question in terms of severity of the target condition, demographic features, presence of differential diagnosis or comorbid conditions, setting of the study, and previous testing protocols.
High bias: The patients included in the study differ from those targeted by the review question in terms of severity of the target condition, demographic features, presence of differential diagnosis or comorbid conditions, setting of the study, and previous testing protocols. Unclear: There is not enough data to permit a judgment. |
|
Index Test | ||
Could the conduct or interpretation of the index test have introduced bias? | a. Were the index test results interpreted without knowledge of the results of the reference standard? | Yes: The index test is always conducted and interpreted before the reference standard.
No: There is subjectivity of interpreting index test, and the order of testing is inadequate. Unclear: There is not enough data to permit a judgment. |
b. If a threshold was used, was it prespecified? | Yes: The study selects a threshold.
No: The study does not select a threshold. Unclear: There is not enough data to permit a judgment. |
|
Risk of Bias | Low bias: The answer to all signaling questions for a domain is “YES”.
High bias: The answers to any signaling questions for a domain are “NO”. Unclear bias: There is not enough data to permit a judgment. |
|
Applicability: are there concerns that the index test, its conduct, or its interpretation differ from the review question? | Low bias: There are no concerns in this regard.
High bias: The index test methods vary from those specified in the review question. Unclear: There is not enough data to permit a judgment. |
|
Reference Standard | ||
Could the reference standard, its conduct, or its interpretation have introduced bias? | a. Is the reference standard likely to correctly classify the target condition? | Yes: Estimates of test accuracy are based on the assumptions that the reference standard is 100% sensitive and that specific disagreements between the reference standard and index test result from incorrect classification by the index test.
No: Estimates of test accuracy are not based on the assumptions that the reference standard is 100% sensitive and that specific disagreements between the reference standard and index test result from incorrect classification by the index test. Unclear: There is not enough data to permit a judgment. |
b. Were the reference standard results interpreted without knowledge of the results of the index test? | Yes: The reference standard test is always conducted and interpreted blindly from the index test.
No: There is a potential influence of previous knowledge of index test results. Unclear: There is not enough data to permit a judgment. |
|
Risk of bias | Low bias: The answer to all signaling questions for a domain is “YES”.
High bias: The answers to any signaling questions for a domain are “NO”. Unclear bias: There is not enough data to permit a judgment. |
|
Applicability: are there concerns that the target condition as defined by the reference standard does not match the question? | Low bias: There are no concerns in this regard.
High bias: The target condition that the reference standard test defines may differ from the target condition specified in the review question. Unclear: There is not enough data to permit a judgment. |
|
Flow and Timing | ||
Could the patient flow have introduced bias? | a. Was there an appropriate interval between the index test and reference standard?
|
Yes: The index test and reference standard are ideally collected on the same patients at the same time.
No: A delay occurs, or treatment begins between the index test and the reference standard. Unclear: There is not enough data to permit a judgment. |
b. Did all patients receive the same reference standard?
|
Yes: All patients receive the same reference standard.
No: Only a proportion of the study group receives confirmation of the diagnosis by the reference standard, or some patients receive a different reference standard. Unclear: There is not enough data to permit a judgment. |
|
c. Were all patients included in the analysis? | Yes: All participants recruited into the study are included in the analysis.
No: The number of patients enrolled differs from the number of patients included in the 2×2 table of results, because patients lost to follow-up differ systematically from those who remain. Unclear: There is not enough data to permit a judgment. |
|
Risk of Bias | Low bias: The answer to all signaling questions for a domain is “YES”.
High bias: The answers to any signaling questions for a domain are “NO”. Unclear bias: There is not enough data to permit a judgment. |
Fonte: adaptado de Whiting et al.5
2.3. Domínios
2.3.1. Domínio 1: Seleção de Paciente
Risco de viés: A seleção de pacientes poderia ter introduzido viés?
Possibilidade de respostas: “Baixo”, “Alto” e “Incerto”.
Interpretação: A avaliação será classificada como baixo risco de viés quando a resposta a todas as perguntas sinalizadoras para o domínio forem “Sim”. Por outro lado, será considerada como alto risco de viés quando a resposta a pelo menos uma pergunta sinalizadora for “Não” e “Incerto” quando não houver dados suficientes para permitir um julgamento.
Pergunta sinalizadora 1: Foi uma amostra consecutiva ou aleatória de pacientes selecionados?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Para receber a resposta “Sim”, o estudo deve ser composto por amostra consecutiva ou aleatória de pacientes elegíveis com suspeita de doença, o que evitará potencial de viés. Estudos que fazem exclusões inadequadas podem resultar em superestimação ou subestimação da precisão do diagnóstico, por exemplo, quando não incluem pacientes de difícil diagnóstico ou excluem aqueles considerados “bandeira vermelha” para a condição-alvo. Dessa forma, a pergunta sinalizadora resultará em “Não”. A resposta “Incerto” será aplicada quando não houver dados suficientes em relação a seleção da amostra.
Pergunta sinalizadora 2: O desenho de caso-controle foi evitado?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Para receber a resposta “Sim”, o estudo deverá incluir amostra com diagnóstico ainda desconhecido, em que serão aplicados tanto o teste índice quanto o padrão de referência. Quando um estudo apresenta desenho do tipo caso-controle, ou seja, a inclusão dos participantes é feita com conhecimento prévio dos seus diagnósticos, dividindo-os em dois grupos (um grupo de doentes e o outro de não doentes), a resposta para essa pergunta será “Não”, uma vez que estudos envolvendo participantes com doença conhecida e um grupo de controle sem a doença podem superestimar a precisão do diagnóstico. A pergunta receberá resposta “Incerto” quando não houver dados suficientes para determinar se esse desenho de estudo foi evitado.
Pergunta sinalizadora 3: O estudo evitou exclusões inadequadas?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Como mencionado na interpretação da pergunta sinalizadora dois, estudos com exclusões inadequadas podem resultar em superestimação ou subestimação do teste diagnóstico. Dessa forma, a pergunta sinalizadora receberá resposta “Sim” quando os pacientes não são excluídos do estudo sem justificativas pautadas em critérios de inclusão bem definidos. Caso a exclusão aconteça, é necessário apresentar a explicação. Portanto, receberá “Não”, se o estudo não apresentar critérios de inclusão/exclusão bem definidos ou quando fizer exclusões inadequadas e sem justificativas. Além disso, poderá receber “Incerto” quando não houver dados suficientes para julgar se as exclusões foram realizadas de forma adequada.
Preocupações com relação à aplicabilidade: Há dúvidas de que os pacientes incluídos e os parâmetros não correspondem à pergunta de revisão?
Possibilidade de respostas: “Baixo”, “Alto” e “Incerto”.
Interpretação: A seleção dos participantes pode apresentar preocupações quanto à aplicabilidade quando os pacientes incluídos não corresponderem ao direcionamento da pergunta de pesquisa da revisão, considerando a gravidade da condição alvo, as características demográficas, a presença de diagnóstico diferencial ou comorbidades, o cenário do estudo e os protocolos de testes anteriores, uma vez que pacientes com condições mais fáceis de detectar podem elevar a estimativa de sensibilidade inadequadamente. Dessa forma, a preocupação quanto à aplicabilidade receberá julgamento “Baixo” quando os pacientes incluídos no estudo não diferirem daqueles inicialmente almejados pela pergunta da revisão. O julgamento será “Alto” quando a amostra não corresponder ao direcionamento da pergunta e “Incerto” quando houver dados insuficientes para definir a preocupação em relação a esse tópico.
2.3.2. Domínio 2: Teste Índice
Exemplos de teste índice: busca por novos biomarcadores, exames novos de imagens ou testes diagnósticos experimentais em geral.
Risco de viés: A conduta ou interpretação do teste índice pode ter introduzido viés?
Possibilidade de respostas: “Baixo”, “Alto” e “Incerto”.
Interpretação: O risco de viés será classificado como “Baixo” quando a resposta a todas as perguntas sinalizadoras para o domínio forem “Sim”. Por outro lado, será considerado “Alto” quando a resposta a pelo menos uma pergunta sinalizadora for “Não” e “Incerto” quando não houver dados suficientes para permitir um julgamento.
Pergunta sinalizadora 1: Os resultados do teste índice foram interpretados sem o conhecimento dos resultados do padrão de referência?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Esse tópico pode ser comparado ao “cegamento” de estudos de intervenção, sendo que, nesse caso, o conhecimento dos resultados do teste padrão de referência pode influenciar na interpretação do teste índice. Portanto, a pergunta sinalizadora receberá classificação “Sim” quando o estudo mencionar que o teste índice foi sempre conduzido e interpretado antes do teste padrão de referência ou cegado em relação aos resultados. Caso a condução e interpretação do teste índice seja realizada quando já se tem conhecimento dos resultados do teste padrão de referência, a pergunta receberá julgamento “Não”. Se o estudo não mencionar e/ou explicar como esse processo ocorreu, será julgada como “Incerto”.
Pergunta sinalizadora 2: Se um limite de magnitude (cut-off) foi usado, ele foi pré-especificado?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: O cut-off pode aumentar o risco de viés quando o limite é definido para otimizar a sensibilidade e/ou especificidade, levando a uma superestimativa dos resultados. Portanto, é importante que esse limite seja pré-especificado utilizando o mesmo parâmetro em amostras independentes. Quando for relatado que o cut-off foi preestabelecido, a resposta para a pergunta sinalizadora será “Sim”, entretanto, quando isso não ocorrer, a resposta será “Não”.
Muitas vezes, os estudos não relatam se definem ou não os limites dos exames, gerando “Incerto” como resposta.
Preocupações com relação à aplicabilidade: Há preocupações de que o teste índice, sua conduta ou interpretação difere da questão da revisão?
Possibilidade de respostas: “Baixo”, “Alto” e “Incerto”.
Interpretação: Quando os métodos do teste índice diferem daqueles definidos pela pergunta de pesquisa da revisão, a aplicabilidade pode gerar preocupações, porque as variações na tecnologia, execução e interpretação do teste podem alterar a estimativa de precisão do diagnóstico. No geral, a preocupação quanto à aplicabilidade receberá resposta “Baixo” quando os critérios de inclusão e exclusão da RS forem bem aplicados em relação ao teste em análise. Mas, se os métodos de teste de índice diferirem daqueles especificados na pergunta da revisão, o estudo receberá julgamento “Alto” em relação a esse tópico. Se o estudo não especificar esse padrão, será julgado como “Incerto”.
2.3.3. Domínio 3: Padrão de referência
Exemplos de padrão de referência: biópsia e exame histopatológico, exames de sangue, radiografia, entre outros exames já padronizados e bem conhecidos.
Risco de viés: O padrão de referência, sua conduta ou sua interpretação poderiam ter introduzido viés?
Possibilidade de respostas: “Baixo”, “Alto” e “Incerto”.
Interpretação: O risco de viés será classificado como “Baixo” quando a resposta a todas as perguntas sinalizadoras para o domínio forem “Sim”. Por outro lado, será considerado “Alto risco de viés” quando a resposta a pelo menos uma pergunta sinalizadora for “Não” e “Incerto” quando não houver dados suficientes para permitir um julgamento.
Pergunta sinalizadora 1: É provável que o padrão de referência classifique corretamente a condição-alvo?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: As estimativas da precisão do teste são baseadas nas suposições de que o padrão de referência é 100% sensível, sendo as divergências entre o padrão e o teste índice resultado da imprecisão do teste em análise. Dessa forma, a resposta a essa pergunta sinalizadora será “Sim” quando o padrão de referência, como o histológico, for um teste obrigatório para confirmação do diagnóstico. Por outro lado, poderá receber “Não” quando o teste padrão de referência não for estabelecido como adequado para classificar corretamente a condição-alvo. Quando não houver dados suficientes para permitir um julgamento, a resposta será “Incerto”.
Pergunta sinalizadora 2: Os resultados do padrão de referência foram interpretados sem o conhecimento dos resultados do teste de índice?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Assim como mencionado para a avaliação do teste índice, esse tópico pode ser comparado ao cegamento de estudos de intervenção, sendo que, nesse caso, o conhecimento dos resultados do teste índice pode influenciar na interpretação do teste padrão de referência. Portanto, a pergunta sinalizadora receberá classificação “Sim” quando o estudo mencionar que os testes foram conduzidos e interpretados de forma cega, em relação aos resultados. Caso a condução e interpretação seja realizada quando já se tem conhecimento dos resultados do teste índice, a pergunta receberá julgamento “Não”. No geral, os estudos não mencionam se foi realizado cegamento e/ou não explicam como esse processo ocorreu, recebendo “Incerto”.
Preocupações com relação à aplicabilidade: Há preocupação de que a condição-alvo definida pelo padrão de referência não corresponda à pergunta da revisão?
Possibilidade de respostas: “Baixo”, “Alto” e “Incerto”.
Interpretação: O padrão de referência pode estar livre de viés quando define a condição-alvo correspondente àquela especificada na pergunta de pesquisa da revisão. Na maioria das vezes, a resposta será “Baixo”, não havendo problema em o profissional saber se o paciente é doente ou controle. Entretanto, quando a condição-alvo a ser diagnosticada for diferente da condição-alvo especificada na questão da revisão, a preocupação quanto à aplicabilidade receberá “Alto” como classificação. Quando não houver dados suficientes para permitir um julgamento, a resposta será “Incerto”.
2.3.4. Domínio 4: Fluxo e Tempo
Risco de viés: O fluxo do paciente poderia ter introduzido viés?
Possibilidade de respostas: “Baixo”, “Alto” e “Incerto”.
Interpretação: O risco será classificado como “Baixo” quando a resposta a todas as perguntas sinalizadoras para o domínio forem “Sim”. Por outro lado, será considerado “Alto” quando a resposta a pelo menos uma pergunta sinalizadora for “Não” e “Incerto” quando não houver dados suficientes para permitir um julgamento.
Pergunta sinalizadora 1: Houve um intervalo apropriado entre o(s) teste(s) de índice e o padrão de referência?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Idealmente, os testes índice e padrão de referência devem ser realizados para coletar resultados nos mesmos pacientes, ao mesmo tempo. O intervalo entre as coletas pode resultar em classificação incorreta, considerando a possibilidade de recuperação ou deterioração da condição em estudo. Entretanto, a preocupação sobre esse intervalo é variável de uma condição para outra, uma vez que o atraso de alguns dias pode não interferir no diagnóstico de doenças crônicas, mas alterar o resultado para doenças infecciosas agudas, por exemplo. Além disso, um padrão de referência que envolve acompanhamento pode exigir um período mínimo para avaliar se a condição-alvo está presente.
Dessa forma, a interpretação torna-se subjetiva de acordo com a condição em estudo. A pergunta sinalizadora receberá “Sim” como resposta quando os exames forem coletados ao mesmo tempo ou quando o intervalo não representar preocupação significativa para a condição. Por outro lado, receberá “Não” quando o intervalo entre as coletas puder, de alguma forma, resultar em alterações de diagnóstico pelo tempo de atraso. Quando não houver dados suficientes sobre o intervalo de coleta para permitir um julgamento, a resposta será “Incerto”.
Pergunta sinalizadora 2: Todos os pacientes receberam o mesmo padrão de referência?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Esse tópico diz respeito à padronização do teste padrão de referência para todos os pacientes. O viés ocorre quando apenas uma parcela do grupo de estudo recebe a confirmação do diagnóstico pelo padrão de referência ou se padrões de referência diferentes são aplicados entre os pacientes, o que poderia resultar em alterações das estimativas de sensibilidade e especificidade. Assim, a pergunta sinalizadora receberá “Sim” quando o mesmo padrão for aplicado para todos os participantes do estudo. Como esse critério costuma ser estabelecido na pergunta de pesquisa da RS, essa é a classificação mais comum. Entretanto, quando o padrão diferir entre os pacientes ou não for aplicado para todos, a resposta será “Não”. Quando não houver dados suficientes sobre essa padronização para permitir um julgamento, a resposta será “Incerto”.
Pergunta sinalizadora 3: Todos os pacientes foram incluídos na análise?
Possibilidade de respostas: “Sim”, “Não” e “Incerto”.
Interpretação: Todos os participantes recrutados para o estudo devem ser incluídos na análise. Existe um potencial para viés se o número de pacientes considerados diferir do número de pacientes incluídos na tabela de resultados 2×2, porque os pacientes perdidos no acompanhamento diferem sistematicamente daqueles que permanecem. Quando não houver exclusão de pacientes, a resposta para a pergunta sinalizadora será “Sim”. Porém, quando se observa que alguns pacientes foram desconsiderados para a análise, a resposta será “Não”. Quase sempre a resposta é “Sim”, pois, no geral, não há exclusão de pacientes. Se não houver dados suficientes para permitir um julgamento, a resposta será “Incerto”.
A aplicação da ferramenta QUADAS-2 segue o passo a passo disposto no Capítulo 1 deste livro.
3. Interpretação
Ao final da avaliação, se um estudo for classificado como “Baixo” em todos os domínios relacionados a viés ou aplicabilidade, considera-se apropriado o julgamento geral de “baixo risco de viés” ou “pouca preocupação com relação à aplicabilidade” para esse estudo. Se um estudo for considerado “Alto” ou “Incerto” em um ou mais domínios, ele pode ser julgado em “alto risco de viés” ou como tendo “preocupações em relação à aplicabilidade”.
O site do QUADAS (www.quadas.org) contém a ferramenta QUADAS-2, informações sobre treinamento, um banco de perguntas adicionais de sinalização, orientação mais detalhada para cada domínio, exemplos de avaliações QUADAS-2 concluídas e recursos para download, incluindo um banco de dados para extração de dados, uma planilha do Excel (Microsoft Office, Microsoft® Corporation, Redmond, Washington, EUA) para produzir exibições gráficas dos resultados e modelos para tabelas do Word para resumir os resultados.
4. Apresentação dos resultados
Os resultados da avaliação QUADAS-2, para todos os estudos incluídos, devem ser reportados no artigo de Revisão Sistemática, o que pode resumir o número de estudos que tiveram um risco baixo, alto ou incerto de viés ou preocupações sobre a aplicabilidade de cada domínio. Os autores podem escolher destacar questões de sinalização específicas, nas quais, os estudos consistentemente classificam bem ou mal. As exibições tabulares (Tabela 1) e gráficas (Figura 1) ajudam a resumir as avaliações do QUADAS-2.
Os resultados da análise do QUADAS-2 podem ser apresentados por meio de tabelas e/ou figuras, conforme exemplo abaixo. O Quadro 2 traz um exemplo de como resumir as avaliações do QUADAS-2.
Quadro 2. Exemplo de apresentação do resultado da avaliação do risco de viés com a ferramenta QUADAS-2
Item | Achalli et al. 2017 | Almadori et al. 2007 | Asai et al. 2018 | Bahar et al. 2007 | Chen et al. 2018 | Garcia et al. 2018 | Ishikawa et al. 2016 | Ishikawa et al. 2017 | |
Domain 1:
Patient Selection |
Was a consecutive or random sample of patients enrolled? | U | Y | U | U | U | U | U | U |
Was a case-control design avoided? | N | N | N | N | N | N | N | N | |
Did the study avoid inappropriate exclusions? | Y | N | N | N | Y | N | N | N | |
Could the selection of patients have introduced bias? | H | H | H | H | H | H | H | H | |
Concerns regarding applicability: Is there concern that the included patients do not match the review question? | L | L | L | L | L | L | L | L | |
Domain 2:
Index Test |
Were the index test results interpreted without knowledge of the results of the reference standard? | U | U | U | U | U | U | U | U |
If a threshold was used, was it pre-specified? | N | N | N | N | N | N | N | N | |
Could the conduct or interpretation of the index test have introduced bias? | H | H | H | H | H | H | H | H | |
Concerns regarding applicability: Is there concern that the index test, its conduct, or interpretation differ from the review question? | L | L | L | L | L | L | L | L | |
Domain 3:
Reference Standard |
Is the reference standard likely to correctly classify the target condition? | Y | Y | Y | U | U | U | Y | Y |
Were the reference standard results interpreted without knowledge of the results of the index test? | Y | Y | Y | U | U | U | U | U | |
Could the reference standard, its conduct, or its interpretation have introduced bias? | L | L | L | U | U | U | U | U | |
Concerns regarding applicability: Is there concern that the target condition as defined by the reference standard does not match the review question? | L | L | L | U | U | U | U | U | |
Domain 4:
Flow and Timing |
Was there an appropriate interval between index test(s) and reference standard? | U | U | U | U | U | U | U | U |
Did patients receive the same reference standard? | Y | Y | Y | U | U | U | U | U | |
Were all patients included in the analysis? | Y | Y | Y | Y | Y | Y | N | Y | |
Could the patient flow have introduced bias? | U | U | U | U | U | U | H | U |
Fonte: adaptado de Assad et al.8
No entanto, também é possível apresentar os resultados por meio de gráfico com julgamento domínio a domínio para cada estudo incluído com o sumário dos resultados do QUADAS-2, que podem ser gerados acessando o site do QUADAS (http://www.bristol.ac.uk/population-health-sciences/projects/quadas/resources/), onde há também um modelo para exibição gráfica por uma planilha do Excel disponível para download.
A planilha pode ser editada para incluir os resultados de suas avaliações QUADAS-2, produzindo um resumo gráfico dos resultados. O passo a passo para o desenvolvimento dessa representação gráfica é apresentado a seguir:
Passo 1: Acessar o site
http://www.bristol.ac.uk/population-health-sciences/projects/quadas/resources.
Passo 2: Identificar as opções de download na tela principal do site e baixar o arquivo do tópico “Template for graphical display”:
Passo 3: Abrir o arquivo baixado, onde constam tabelas preenchidas e gráficos construídos. Identificar a tabela numérica no canto esquerdo inferior na planilha de dados. Essa tabela está programada para alterar os gráficos de acordo com o preenchimento.
Passo 4: Substituir os dados da tabela pelos resultados da análise de risco de viés com a ferramenta QUADAS-2.
Passo 5: De forma semelhante, substituir os dados da tabela numérica inferior. Deve-se preencher o número de respostas “Yes”, “No” ou “Unclear”. Assim, os gráficos à direita serão automaticamente alterados.
Passo 6: Abrir a planilha “Applicability” e repetir os passos supracitados com as informações do julgamento final para essa seção do QUADAS-2. Dessa forma, o gráfico modelo estará pronto de acordo com os dados de risco de viés.
Gráficos para representação da análise do risco de viés com o QUADAS-2 também podem ser gerados no programa Review Manager (RevMan)14, cujo passo a passo segue abaixo.
Passo 1: Acessar o site https://training.cochrane.org/online-learning/core-software-cochrane-reviews/revman e baixar o programa, conforme descrito no Capítulo 15.
Passo 2: Após o download, abrir o programa. Nessa fase, é possível acessar uma Revisão Sistemática já desenvolvida no programa ou iniciar uma nova. Para iniciar uma nova, clicar em “File”.
Passo 3: Na sequência, clicar em “New”.
Passo 4: Inserir as informações sobre a revisão que está em desenvolvimento. Para isso: 1. Apertar “Next”; 2. Selecionar “Diagnostic test accuracy review” e “Next”; 3. Preencher as informações da Revisão Sistemática e apertar “Next”; 4. Selecionar “Full review” e apertar “Finish”.
Passo 5: Na barra de ferramentas à esquerda, selecionar “Studies and references” para listar os estudos incluídos na revisão.
Passo 6: Localizar o tópico “Characteristics of studies” e clicar ao lado, com o botão direito do mouse.
Passo 7: Selecionar “Add study”.
Passo 8: Listar todos os estudos incluídos na revisão. Para isso: 1. Selecionar “Included studies”; 2. Inserir a identificação do estudo e clicar quatro vezes em “Next”; 3. Selecionar “Add another study to the same section” para adicionar os demais estudos; 4. Repetir os passos até listar todos os estudos e, depois, clicar em “Finish”.
Passo 9: Todos os estudos aparecerão listados com tabelas pré-definidas. Essas tabelas correspondem à ferramenta QUADAS-2 para risco de viés e deverão ser preenchidas de acordo com o julgamento final dos autores. Ao lado de cada pergunta, haverá uma caixa de seleção para a resposta (seleção em vermelho).
Passo 10: Preencher todos os domínios para cada um dos estudos incluídos.
Passo 11: Após preencher as tabelas para todos os estudos, localizar a barra de ferramentas à esquerda e clicar em “Figures”.
Passo 12: Localizar o tópico “Figures”, na tela principal, e clicar ao lado, com o botão direito do mouse. Em seguida, selecionar “Add Figure” para criar a figura do risco de viés.
Passo 13: O programa oferece duas opções de figura para risco de viés. 1. Selecionar a opção que preferir (“Graph” ou “Summary”). 2. Apertar “Finish”.
Passo 14: Ao apertar “Finish”, de acordo com o passo anterior, a figura selecionada aparecerá automaticamente (Modelo Graph para risco de viés).
Passo 15: Para salvar a figura como arquivo, clicar duas vezes em cima da figura, com o botão esquerdo do mouse (Modelo summary para risco de viés).
Passo 16: Clicar no disquete, no canto superior direito, para salvar a figura.
Passo 17: Selecionar a opção de arquivo mais adequada. Editar o nome da forma que desejar e salvar.
Alternativamente, o Capítulo 15 disponibiliza o passo a passo para a construção de gráficos de “semáforo” e “barras ponderadas” utilizando a ferramenta online robvis (visualization tool for risk of bias assessments in a systematic review)15, que possui um template específico para a ferramenta QUADAS-2.
6. Considerações finais
Apesar da multiplicidade de desenhos metodológicos possíveis em estudos de diagnóstico, independentemente do desenho dos estudos incluídos na Revisão Sistemática, o QUADAS-2 deverá ser a ferramenta adotada para a análise do risco de viés
A avaliação cuidadosa da qualidade dos estudos incluídos é essencial para Revisões Sistemáticas de estudos de precisão diagnóstica. Um processo rigoroso e baseado em evidências foi usado para desenvolver o QUADAS-2 a partir do QUADAS. Portanto, a ferramenta oferece recursos adicionais e foi aprimorada, incluindo a distinção entre viés e aplicabilidade, identificando quatro domínios principais apoiados por questões de sinalização para auxiliar o julgamento sobre risco de viés, classificação de risco de viés e preocupações sobre aplicabilidade como “Alto”, “Baixo” ou “Incerto”, e estudos de manuseio, nos quais o padrão de referência consiste em acompanhamento.
O QUADAS-2 teve uma melhoria considerável em relação à ferramenta original. Seria desejável estender o QUADAS-2 para permitir a avaliação de estudos comparando múltiplos testes índices, mas concluiu-se que a base de evidências para tais critérios é, atualmente, insuficiente, por isso, planejam-se trabalhos futuros sobre esse tópico. O grupo QUADAS está desenvolvendo uma nova extensão do QUADAS-2 para avaliar estudos comparativos de precisão (ou seja, estudos que comparam a precisão de dois ou mais testes índices).
Tendo isso posto, cabe destacar que o uso do QUADAS-2 na análise do risco de viés das Revisões Sistemáticas de diagnóstico contribui para compor uma base de evidências robusta para RS de testes e procedimentos diagnósticos.
Referências
- Macaskill P, Gatsonis C, Deeks JJ, Harbord RM, Takwoingi Y. Analysing and Presenting Results. In: Deeks JJ, Bossuyt PM, Gatsonis C editors. Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy [Internet]. Version 1.0. London: The Cochrane Collaboration, 2010. [cited 2021 Aug 01]. Chapter 10. Available from: http://srdta.cochrane.org/
- Zhu W, Zeng N, Wang N. Sensitivity, specificity, accuracy, associated confidence interval and roc analysis with practical SAS® implementations [Internet]. In: 23rd Annual Conference of the Northeast SAS Users Group;2010 Nov 14-17; Baltimore, MD: Lex Jansen; 2010 [cited 2021 Aug 02]. p. 1-9. Available from: http://www.cpdm.ufpr.br/documentos/ROC.pdf
- Ministério da Saúde (BR). Diretrizes metodológicas: elaboração de revisão sistemática e metanálise de estudos de acurácia diagnóstica [Internet]. Brasília (DF): O Ministério; 2014 [cited 2021 Aug 03]. 118 p. Available from: https://rebrats.saude.gov.br/diretrizes-metodologicas?download=57:diretrizes-metodologicas-elaboracao-de-revisao-sistematica-e-metanalise-de-estudos-de-acuracia-diagnostica-1-edicao
- Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol [Internet]. 2003 Nov [cited 2021 Aug 03];3:25. Available from: https://doi.org/10.1186/1471-2288-3-25
- Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, et al. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med [Internet]. 2011 Oct [cited 2021 Jul 29];155(8):529-36. Available from: https://doi.org/10.7326/0003-4819-155-8-201110180-00009.
- Higgins JP, Altman DG, Gøtzsche PC, Jüni P, Moher D, Oxman AD, et al. The Cochrane Collaboration’s tool for assessing risk of bias in randomised trials. BMJ [Internet]. 2011 Oct [cited 2021 Aug 03]; 343:d5928. Available from: https://doi.org/10.1136/bmj.d5928
- Guerra EN, Acevedo AC, Leite AF, Gozal D, Chardin H, De Luca Canto G. Diagnostic capability of salivary biomarkers in the assessment of head and neck cancer: A systematic review and meta-analysis. Oral Oncol [Internet]. 2015 Sep [cited 2021 Aug 04];51(9):805-18. Available from: https://doi.org/10.1016/j.oraloncology.2015.06.010
- Assad DX, Mascarenhas ECP, de Lima CL, de Toledo IP, Chardin H, Combes A, et al. Salivary metabolites to detect patients with cancer: a systematic review. Int J Clin Oncol [Internet]. 2020 Jun [cited 2021 Aug 04];25(6):1016-1036. Available from: https://doi.org/10.1007/s10147-020-01660-7
- Guerra EN, Rêgo DF, Elias ST, Coletta RD, Mezzomo LA, Gozal D, et al. Diagnostic accuracy of serum biomarkers for head and neck cancer: a systematic review and meta-analysis. Crit Rev Oncol Hematol [Internet]. 2016 May [cited 2021 Aug 04];101:93-118. Available from: https://doi.org/10.1016/j.critrevonc.2016.03.002
- Guerra ENS, Almeida FT, Bezerra FV, Figueiredo PTDS, Silva MAG, De Luca Canto G, et al. Capability of CBCT to identify patients with low bone mineral density: a systematic review. Dentomaxillofac Radiol [Internet]. 2017 Dec [cited 2021 Aug 04];46(8):20160475. Available from: https://doi.org/10.1259/dmfr.20160475
- de Lima CL, Acevedo AC, Grisi DC, Taba M Jr, Guerra E, De Luca Canto G. Host-derived salivary biomarkers in diagnosing periodontal disease: systematic review and meta-analysis. J Clin Periodontol [Internet]. 2016 Jun [cited 2021 Aug 04];43(6):492-502. Available from: https://doi.org/10.1111/jcpe.12538
- Pachêco-Pereira C, Almeida FT, Chavda S, Major PW, Leite A, Guerra ENS. Dental imaging of trabecular bone structure for systemic disorder screening: A systematic review. Oral Dis [Internet]. 2019 May [cited 2021 Aug 04];25(4):1009-1026. Available from: https://doi.org/10.1111/odi.12950
- Porto-Mascarenhas EC, Assad DX, Chardin H, Gozal D, De Luca Canto G, Acevedo AC, et al. Salivary biomarkers in the diagnosis of breast cancer: a Crit Rev Oncol Hematol [Internet]. 2017 Feb [cited 2021 Aug 04];110:62-73. Available from: https://doi.org/10.1016/j.critrevonc.2016.12.009
- RevMan (Review Manager). Version 5.4 [Software]. The Cochrane Collaboration. 2020 [cited 2021 Aug 04]. Available from: https://training.cochrane.org/online-learning/core-software-cochrane-reviews/revman
- McGuinness, LA, Higgins, JPT. Risk-of-bias VISualization (robvis): An R package and Shiny web app for visualizing risk-of-bias assessments. Res Syn Meth [Internet]. 2021 Jan [cited 2021 Aug 04]; 1-7. Available from: https://doi.org/10.1002/jrsm.1411.