Capítulo 5. Análise do risco de viés de Ensaios Clínicos Randomizados (ECR) com a ferramenta da Colaboração Cochrane RoB 2.0
CAPÍTULO 5
Análise do Risco de Viés em Ensaios Clínicos Randomizados (ECR) com a Ferramenta da Colaboração Cochrane RoB 2.0
Alessandra Reis, Alessandro Loguercio
1. Introdução
As Revisões Sistemáticas de Ensaios Clínicos Controlados e Randomizados (ECR) requerem a avaliação do risco de viés dos estudos incluídos para minimizar o impacto de erros sistemáticos nos resultados obtidos.
Vieses são desvios da “verdade” e podem levar a estimativas de efeito superestimadas ou subestimadas. Tais desvios podem ser de pequena magnitude, comparados com o efeito verdadeiro, ou substanciais, levando, inclusive, à mudança na direção do efeito desejado.1 Por exemplo, ao investigar um medicamento para tratamento de uma doença, a inclusão equivocada e não balanceada de pessoas com maior severidade da doença no grupo placebo superestimará o efeito do tratamento, já que as pessoas com doenças mais graves têm pior prognóstico. De forma análoga, a estimativa de efeito de um tratamento poderá ser subestimada, caso os doentes mais graves sejam incluídos no grupo experimental.
É importante distinguir viés de imprecisão. Enquanto o viés se refere a erros sistemáticos, a imprecisão compreende erro aleatório, devido à variabilidade amostral. A precisão de um estudo depende do número de participantes e do número de eventos (desfechos dicotômicos), o que reflete no intervalo de confiança ao redor da estimativa de efeito.1 Um estudo pode ser de baixo risco de viés, ou seja, conduzido de forma a minimizar erros sistemáticos, e, ainda assim, ser impreciso, por empregar um pequeno tamanho amostral. De forma semelhante, porém no sentido oposto, um estudo bem preciso com grande tamanho amostral pode ser de alto risco de viés por conter erros sistemáticos sérios.
Ademais, cabe destacar que o risco de viés não tem relação com a qualidade de relato do estudo. Um ECR pode ser muito bem relatado seguindo estritamente as normativas do CONSORT (CONsolidate Standards of Reporting Trials)2, mas, ainda sim, ser de alto risco de viés, se, por exemplo, não fizer uma geração da sequência aleatória randomizada e imprevisível para alocação dos participantes.
Dessa forma, atentar aos possíveis vieses dos ECR é de fundamental importância para a decisão se o estudo deve ou não ser incluído na síntese de resultados de uma Revisão Sistemática. A ferramenta da Colaboração Cochrane para análise do risco de viés 1.0 (RoB 1.0) tem sido extensivamente empregada desde sua publicação inicial e representou um marco importante na análise do risco de viés de ECR, já que os outros instrumentos, até então existentes, valiam-se de escalas de qualidade que misturavam diferentes conceitos, tais como os vieses (erros sistemáticos), imprecisão, relevância, aplicabilidade, aspectos éticos e a completude do relato do estudo. Além disso, esses itens representavam escores que, somados, produziam um valor geral de difícil interpretação.
O instrumento RoB 1.0 se mostrou superior aos métodos existentes, pois 1) focava em um único conceito (risco de viés); 2) baseava-se em domínios que identificavam diferentes tipos de vieses e que eram avaliados separadamente, com igual peso, sem emprego de um sistema de escores e pontuação; e por último, 3) o julgamento do avaliador deveria ser suportado por razões claras, tornando, assim, o processo bem mais transparente.
No entanto, assim como qualquer outro instrumento, algumas limitações e desvantagens foram apontadas por autores, metodologistas e epidemiologistas, ao longo dos anos de uso do instrumento RoB 1.03-5, dentre as quais estão:
- O uso do instrumento RoB 1.0 foi empregado de forma muito simplista, na qual domínios eram removidos e adicionados de forma bastante inconsistente e que, nem sempre, estavam relacionados com o risco de viés. Não foi incomum a inclusão de um domínio relacionado ao tamanho de amostra, aspecto esse que está ligado à precisão e não ao viés metodológico.
- A concordância entre examinadores era usualmente moderada.
- O uso excessivo do julgamento “risco de viés indefinido”, resultando em um pequeno percentual de estudos com baixo risco de viés.
- A dificuldade de interpretação de alguns domínios, como o de desfechos incompletos e relato seletivo de desfechos, chamando a atenção para o desenvolvimento de um guia mais elaborado.
- O RoB 1.0 não se aplicava bem em estudos de cross-over ou com designs por conglomerados (cluster-randomized).
- Não havia uma clara definição da avaliação global do risco de viés para um desfecho específico.
Todas essas questões motivaram a revisão do instrumento de avaliação do RoB 1.0 e culminaram no desenvolvimento do RoB 2.0, que será detalhado neste capítulo.
1.1. Principais mudanças realizadas e introduzidas no RoB 2.0
Embora o RoB 2.0 guarde diversas semelhanças com o RoB 1.0, muitas mudanças foram realizadas, por razões já especificadas anteriormente. Inicialmente, será apresentada uma análise global do instrumento, a fim de facilitar a compreensão da ferramenta RoB 2.0. As principais alterações podem ser visualizadas na sequência e no Quadro 1.
1.1.1. Enfoque no resultado
Uma das principais modificações é que cada domínio foi desenvolvido para ser avaliado com enfoque no resultado do estudo e não para o estudo como um todo. Isso porque, o mesmo estudo pode ser considerado com diferentes riscos de viés, a depender do desfecho a ser analisado.6 Por exemplo, a falta de cegamento para desfechos subjetivos (dor, grau de satisfação, qualidade de vida) colocam o resultado em alto risco de viés, porém, se o desfecho for objetivo (mortalidade por todas as causas), a falta de cegamento não representa um problema sério e, dessa forma, o resultado pode ser considerado de baixo risco de viés. Por isso, antes de iniciar a análise do risco de viés de qualquer estudo com o instrumento RoB 2.0, deve-se descrever o resultado para o qual a análise será destinada.
Considerando que não é incomum que um estudo possa contribuir com múltiplos resultados, é fundamental ter em mente que cada um deles deverá ter sua avaliação do risco de viés de forma individual. Portanto, é muito importante a seleção a priori (e não depois de fazer o julgamento do risco de viés) do resultado, que trará a resposta adequada para a pergunta de pesquisa da Revisão Sistemática.6
Outro aspecto importante é que resultado não é sinônimo de desfecho, embora os termos estejam intrinsecamente relacionados. Um desfecho pode ser apresentado em diferentes resultados e cada um deles pode ter um risco de viés diferente. Para exemplificar, é possível usar o desfecho de dor pós-operatória, que pode ser descrita como um desfecho dicotômico na forma de risco de dor (presença ou ausência) ou ser descrita de forma contínua como intensidade de dor. Além disso, há a possibilidade desse mesmo desfecho contínuo de intensidade de dor ser expresso em diferentes tipos de escala que podem ser mais ou menos suscetíveis a erros sistemáticos.
1.1.2. Uso de cinco domínios fixos e um item formal de avaliação global do resultado
O domínio “outro risco de viés”, que compunha o RoB 1.0, não está mais presente na versão 2.0. Além disso, os domínios geração da sequência aleatória e sigilo da alocação da versão RoB 1.0 foram unidos em um único domínio na versão RoB 2.0. Dessa forma, o RoB 2.0 possui cinco domínios fixos que são suficientemente abrangentes para cobrir todas as fontes principais de vieses que podem afetar um ECR (Figura 1). Todos os domínios devem ser obrigatoriamente avaliados e não podem ser modificados. Por fim, a versão do RoB 2.0 contém um item adicional que corresponde à avaliação global do risco de viés (overall risk of bias).
Figura 1. Representação dos diferentes domínios do RoB 2.0 em relação à fase do experimento
Fonte: elaborada pelos autores.
1.1.3. Emprego de questões sinalizadoras e um algoritmo para o processo decisório
Foram adicionadas questões sinalizadoras que permitem fazer o mapeamento das respostas através de um algoritmo, conduzindo facilmente para o risco de viés do domínio. Essas questões foram adicionadas para facilitar o julgamento do risco de viés. As opções de respostas para essas questões também foram modificadas. Nesse novo instrumento, a opção de risco de viés indefinido foi eliminada e substituída por outra resposta, que será analisada na sequência. Adicionalmente, uma proposta mais objetiva e formal para análise do risco de viés global do estudo foi incluída nessa nova versão.
1.1.4. Especificação da natureza do efeito de interesse
A análise do risco de viés depende da especificação a priori da natureza do efeito de interesse. Um dos domínios de análise do RoB 2.0 (vieses decorrentes de desvios das intervenções pretendidas) difere de acordo com o que os autores da Revisão Sistemática desejam quantificar. O interesse pode ser:
- No efeito da atribuição das intervenções, independentemente de as intervenções terem sido executadas como pretendidas (efeito de intenção de tratar – intention-to-treat); ou
- No efeito da aderência às intervenções como especificado no protocolo do estudo (efeito por protocolo – per protocol).6,7
A razão para essa distinção se deve à existência de dois diferentes domínios para cada um desses efeitos de interesse, a qual ocorre no domínio vieses decorrentes de desvios das intervenções pretendidas, que mais adiante serão apresentados.
Importante ressaltar que a grande maioria das revisões Cochrane e dos autores de ensaios clínicos se concentram no efeito da atribuição das intervenções, portanto, este será o foco deste capítulo. Para mais informações sobre a análise de viés quando o interesse está no efeito da aderência às intervenções, o documento detalhado completo do RoB 2.0 disponível no site www.riskofbias.info deve ser consultado.
1.1.5. Outras modificações
Há um site todo dedicado ao instrumento RoB 2.0 (www.riskofbias.info), onde pode ser encontrado o documento completo8 detalhado e um resumo do instrumento, um modelo para realização da avaliação do risco de viés e uma ferramenta em Excel com macros para download, que permite a resposta das questões sinalizadoras e, automaticamente, gera o risco de viés do estudo. Essa ferramenta em Excel ainda possui outras funcionalidades, como gerar os gráficos de imagem do risco de viés.
O RoB 2.0 também inclui um julgamento opcional da direção do risco de viés para cada domínio e para a análise global. Cada viés pode indicar se a estimativa está mais longe ou mais perto da hipótese nula. Por exemplo, a falta de aderência de pacientes em um grupo experimental pode resultar em uma estimativa mais próxima da nulidade, em comparação ao caso de todos os pacientes terem aderido à terapia experimental. Esse julgamento opcional somente deve ser empregado se os autores tiverem sólida evidência de sua presença. Em hipótese nenhuma, os autores devem tentar “adivinhar” a direção do viés.
Embora o presente capítulo tenha como foco a análise do risco de viés para ECR com desenho paralelo, há um documento explicativo para avaliação do risco de viés para estudos randomizados por conglomerados (cluster-randomized) e outro para estudos de delineamento cruzado (cross-over). Esses documentos podem ser encontrados no site www.riskofbias.com.
Quadro 1. Comparação das principais diferenças entre os instrumentos de avaliação do risco de viés da Colaboração Cochrane
RoB 1.0 | RoB 2.0 | |
Foco da avaliação | No estudo | No resultado do desfecho |
Estrutura | 7 domínios | Especificação da natureza do desfecho de interesse
5 domínios Análise do risco global do resultado |
Domínios | Geração da sequência aleatória
Sigilo da alocação Cegamento de participantes e equipe Cegamento do avaliador Dados Incompletos Relato seletivo de desfechos Outros vieses |
Vieses decorrentes do processo de randomização
Vieses decorrentes de desvios das intervenções pretendidas Vieses decorrentes de dados incompletos Vieses decorrentes da mensuração do desfecho Vieses na descrição dos resultados Análise global do risco de viés |
Julgamento | Definido pelo autor | Através de questões sinalizadoras com respostas: ‘sim’, ‘provavelmente sim’, ‘não’, ‘provavelmente não’ e ‘nenhuma informação’.
Sugestão de um algoritmo para julgamento do risco de viés |
Opções de julgamento | Baixo risco de viés
Risco indefinido Alto risco de viés |
Baixo risco de viés
Algumas suspeições Alto risco de viés Opcional de indicação da direção do viés |
— | Outros vieses | — |
Resumo | — | Viés global |
Fonte: elaborado pelos autores a partir de Higgins et al.6
1.2. Questões sinalizadoras e julgamento do risco de viés.
Questões sinalizadoras foram introduzidas no RoB 2.0 para auxiliar o instrumento e tornar sua aplicação mais fácil e um pouco mais transparente. Cada um dos domínios especificados no Quadro 1 tem suas próprias questões sinalizadoras, com cinco opções de resposta:
- Sim
- Provavelmente sim
- Não
- Provavelmente não
- Nenhuma informação
Embora não seja necessário, caso os autores desejem realizar alguma medida de concordância entre avaliadores, sugere-se que as respostas “Sim” e “Provavelmente sim”, assim como “Não” e “Provavelmente não”, sejam combinadas como uma única resposta.6
A resposta “Nenhuma informação” deverá ser usada quando poucos detalhes existem para permitir responder com uma das outras quatro possibilidades. Deve-se ter em mente que, mesmo na ausência de alguns detalhes, uma resposta de “Provavelmente sim” ou “Provavelmente não” pode ser emitida, dada as circunstâncias do estudo. Por exemplo, em um estudo pequeno, com uma série de informações contraditórias, com pobre detalhamento do método de randomização e nenhuma informação sobre o sigilo de alocação, classificar a resposta à pergunta relativa ao sigilo de alocação como “Provavelmente não” é bastante razoável.6
Diferentemente do RoB 1.0, as questões sinalizadoras do RoB 2.0 foram estruturadas de forma que uma resposta “Sim” não esteja necessariamente associada a um alto ou baixo risco de viés. Exemplifica-se com a resposta “Nenhuma informação”, que tem diferentes implicações a depender do propósito da pergunta. Se a pergunta busca encontrar evidência para a existência de um problema, “Nenhuma informação” corresponderá à ausência desse problema, ou seja, um baixo risco de viés. Por outro lado, se a pergunta busca encontrar a resposta para um item que se espera estar presente, a resposta “Nenhuma informação” sugere que a ausência de informação indica um problema metodológico, levando à possibilidade de alto risco de viés.
Essa mudança foi feita para que as questões sinalizadoras fossem estruturadas de modo a representar a forma mais natural de se fazer a pergunta. As respostas “Sim” e “Provavelmente sim” possuem as mesmas implicações no risco de viés, assim como “Não” e “Provavelmente não”. As respostas “Sim” e “Não” demonstram que há evidência sólida para a decisão, enquanto que “Provavelmente sim” e “Provavelmente não” implica que um julgamento foi realizado.
Por meio da resposta a cada uma dessas questões, um mapeamento é realizado através de um algoritmo que conduz ao julgamento do risco de viés. Embora esses julgamentos sugeridos pela Colaboração Cochrane possam ser substituídos pelos avaliadores, eles produzem um guia genérico que pode ser seguido na grande maioria das situações.
Após responder às questões sinalizadoras, o próximo passo é o julgamento do risco de viés. Cada um dos domínios do instrumento RoB 2.0 pode ser julgado como:
- Baixo risco de viés
- Algumas suspeições
- Alto risco de viés
Aqui, a opção “algumas suspeições” substitui a opção de “risco indefinido” usado na versão RoB 1.0. Essa modificação teve a intenção de estimular os autores de Revisões Sistemáticas a serem mais assertivos no processo de avaliação. A opção de “algumas suspeições” sinaliza que há alguns problemas metodológicos que impedem os autores de colocar o estudo em “baixo risco de viés”, mas que também não são suficientes para considerá-lo como de alto risco de viés.6
Com a avaliação de todos os dos domínios, passa-se para a avaliação do risco de viés global. Para que a análise global seja de baixo risco, é necessário que todos os domínios recebam esse mesmo julgamento. A presença de apenas um domínio com julgamento de “algumas suspeições” coloca o risco de viés global como tendo “algumas suspeições”. A presença de apenas um domínio com “alto risco de viés” já coloca a avaliação global no mesmo nível. Entretanto, vários julgamentos de “algumas suspeições” em diferentes domínios também são suficientes para classificar o risco de viés global como sendo de alto risco (Quadro 2).
Quadro 2. Avaliação do risco de viés global com base nos domínios do RoB 2.0
Julgamento do risco de viés global | Critério |
Baixo risco de viés | Todos os domínios são julgados como sendo de baixo risco de viés. |
Algumas suspeições | Um dos domínios é julgado como tendo algumas suspeições, sem haver domínios classificados como alto risco de viés. |
Alto risco de viés | Um ou mais domínios classificados como alto risco de viés; ou
Presença de múltiplos domínios classificados como tendo algumas suspeições. |
Fonte: adaptado de Higgins et al.6
2. Aplicação e interpretação do instrumento RoB 2.0
A organização da equipe para aplicação do instrumento RoB 2.0 deve seguir o proposto no Capítulo 1 deste livro e o documento completo explanatório8 do instrumento, encontrado no site www.riskofbias.info, deve ser lido atentamente.
Antes de iniciar a análise do risco de viés propriamente dita, é importante que os avaliadores documentem algumas características do estudo: 1) o desenho do estudo (paralelo, por aglomerados, cruzado, pareado); 2) o resultado que será avaliado, já que múltiplos resultados para um mesmo desfecho podem existir no ECR; 3) se o foco de interesse é na atribuição das intervenções (intenção de tratar) ou na aderência às intervenções (por protocolo). Além disso, deve-se registrar todas as fontes associadas ao artigo publicado para análise do risco de viés.
No site www.riskofbias.info pode ser realizado o download de uma planilha Excel com macros que contribuem para o processo de julgamento do risco de viés dos estudos incluídos, aplicando o algoritmo proposto pelos desenvolvedores de acordo com as respostas às questões sinalizadoras para cada domínio. A mesma planilha permite a resolução de discrepâncias entre avaliadores, sendo uma ferramenta útil durante a aplicação do instrumento RoB 2.0.
2.1. Vieses decorrentes do processo de randomização
Um dos fatores que podem induzir vieses em um ensaio clínico randomizado é a presença de grupos com diferentes características prognósticas no baseline. Uma randomização feita adequadamente garante que fatores prognósticos conhecidos e desconhecidos estejam balanceados entre os grupos de estudo, evitando, dessa forma, uma alocação seletiva para um dos grupos de estudo com base nessas características, no conhecido viés de seleção.
Uma randomização adequada necessita da geração de uma sequência aleatória para determinar o grupo em que cada participante será alocado. Além disso, é importante que haja ocultação dessa sequência, pois o conhecimento da próxima atribuição pode permitir a alocação seletiva de participantes de forma consciente ou inconsciente pelos pesquisadores ou profissionais de saúde. Portanto, para evitar essa seletividade, um adequado sigilo da sequência de alocação é parte essencial do processo de randomização.9
Os métodos de geração de sequência aleatória e de sigilo de alocação não são totalmente relatados nas publicações, porém, se estiverem relatados nos protocolos, pode ser que sua ausência nos artigos publicados se deva a restrições do número de palavras no texto. Contudo, se nem o protocolo descreve esses processos, é provável que os mesmos não tenham sido feitos adequadamente. Assim, destaca-se a importância de olhar para diversas fontes de informação de um mesmo artigo que está sendo avaliado.
Uma maneira de verificar se os grupos de estudos são equiparáveis em suas características prognósticas é através da análise da tabela de características dos participantes, que deve estar presentes em ECR de acordo com a recomendação do CONSORT2. O RoB 2.0 inclui uma questão sinalizadora que demanda avaliação das características iniciais dos participantes (baseline), potencialmente sugestivas de problemas na randomização.
2.1.1 Aplicação do instrumento RoB 2.0 para vieses decorrentes da randomização.
A avaliação do risco de viés propriamente dito envolve: 1) a análise do método empregado para gerar a sequência aleatória; 2) o sigilo da alocação; e 3) as características dos pacientes no baseline (Quadros 3 e 4). Sendo que existem questões sinalizadoras nesse novo instrumento do RoB 2.0 para cada um dos aspectos mencionados anteriormente (Quadro 3), cuja combinação de respostas conduzem a análise do risco de viés (Quadro 4).
Quadro 3. Questões sinalizadoras para análise do risco de viés decorrente do processo de randomização (mantidas na versão original)
Signalling Questions | Elaboration | Response options |
1.1 Was the allocation sequence random? | Answer ‘Yes’ if a random component was used in the sequence generation process. Examples include computer-generated random numbers; reference to a random number table; coin tossing; shuffling cards or envelopes; throwing dice; or drawing lots. Minimization is generally implemented with a random element (at least when the scores are equal), so an allocation sequence that is generated using minimization should generally be considered to be random.
Answer ‘No’ if no random element was used in generating the allocation sequence or the sequence is predictable. Examples include alternation; methods based on dates (of birth or admission); patient record numbers; allocation decisions made by clinicians or participants; allocation based on the availability of the intervention; or any other systematic or haphazard method. Answer ‘No information’ if the only information about randomization methods is a statement that the study is randomized. In some situations, a judgement may be made to answer ‘Probably no’ or ‘Probably yes’. For example, in the context of a large trial run by an experienced clinical trials unit, absence of specific information about generation of the randomization sequence, in a paper published in a journal with rigorously enforced word count limits, is likely to result in a response of ‘Probably yes’ rather than ‘No information’. Alternatively, if other (contemporary) trials by the same investigator team have clearly used non-random sequences, it might be reasonable to assume that the current study was done using similar methods. |
Y/PY/PN/N/NI |
1.2 Was the allocation sequence concealed until participants were enrolled and assigned to interventions? | Answer ‘Yes’ if the trial used any form of remote or centrally administered method to allocate interventions to participants, where the process of allocation is controlled by an external unit or organization, independent of the enrolment personnel (e.g. independent central pharmacy, telephone or internet-based randomization service providers).
Answer ‘Yes’ if envelopes or drug containers were used appropriately. Envelopes should be opaque, sequentially numbered, sealed with a tamper-proof seal and opened only after the envelope has been irreversibly assigned to the participant. Drug containers should be sequentially numbered and of identical appearance and dispensed or administered only after they have been irreversibly assigned to the participant. This level of detail is rarely provided in reports, and a judgement may be required to justify an answer of ‘Probably yes’ or ‘Probably no’. Answer ‘No’ if there is reason to suspect that the enrolling investigator or the participant had knowledge of the forthcoming allocation. |
Y/PY/PN/N/NI |
1.3 Did baseline differences between intervention groups suggest a problem with the randomization process? | Note that differences that are compatible with chance do not lead to a risk of bias. A small number of differences identified as ‘statistically significant’ at the conventional 0.05 threshold should usually be considered to be compatible with chance.
Answer ‘No’ if no imbalances are apparent or if any observed imbalances are compatible with chance. Answer ‘Yes’ if there are imbalances that indicate problems with the randomization process, including: (1) substantial differences between intervention group sizes, compared with the intended allocation ratio; or (2) a substantial excess in statistically significant differences in baseline characteristics between intervention groups, beyond that expected by chance; or (3) imbalance in one or more key prognostic factors, or baseline measures of outcome variables, that is very unlikely to be due to chance and for which the between-group difference is big enough to result in bias in the intervention effect estimate.
Also answer ‘Yes’ if there are other reasons to suspect that the randomization process was problematic: (4) excessive similarity in baseline characteristics that is not compatible with chance.
Answer ‘No information’ when there is no useful baseline information available (e.g. abstracts, or studies that reported only baseline characteristics of participants in the final analysis). The answer to this question should not influence answers to questions 1.1 or 1.2. For example, if the trial has large baseline imbalances, but authors report adequate randomization methods, questions 1.1 and 1.2 should still be answered on the basis of the reported adequate methods, and any concerns about the imbalance should be raised in the answer to the question 1.3 and reflected in the domain-level risk-of-bias judgement. Trialists may undertake analyses that attempt to deal with flawed randomization by controlling for imbalances in prognostic factors at baseline. To remove the risk of bias caused by problems in the randomization process, it would be necessary to know, and measure, all the prognostic factors that were imbalanced at baseline. It is unlikely that all important prognostic factors are known and measured, so such analyses will at best reduce the risk of bias. If review authors wish to assess the risk of bias in a trial that controlled for baseline imbalances in order to mitigate failures of randomization, the study should be assessed using the ROBINS-I tool. |
Y/PY/PN/N/NI |
Risk-of-bias judgement | Low/High/Some concerns | |
Optional: What is the predicted direction of bias arising from the randomization process? | If the likely direction of bias can be predicted, it is helpful to state this. The direction might be characterized either as being towards (or away from) the null, or as being in favour of one of the interventions. |
Not applicable Favours experimental Favours comparator Towards null Away from null Unpredictable |
Fonte: adaptado de Sterne et al.8
Quadro 4. Julgamento do risco de viés decorrente do processo de randomização (mantido na versão original)
Low risk of bias | The allocation sequence was adequately concealed
AND Any baseline differences observed between intervention groups appear to be compatible with chance OR There is no information about baseline imbalances AND The allocation sequence was random OR There is no information about whether the allocation sequence was random |
Some concerns | The allocation sequence was adequately concealed
AND The allocation sequence was not random OR Baseline differences between intervention groups suggest a problem with the randomization process OR There is no information about concealment of the allocation sequence AND Any baseline differences observed between intervention groups appear to be compatible with chance OR There is no information to answer any of the signalling questions |
High risk of bias | The allocation sequence was not adequately concealed
OR There is no information about concealment of the allocation sequence AND Baseline differences between intervention groups suggest a problem with the randomization process |
Fonte: adaptado de Sterne et al.8
Uma das perguntas sinalizadoras se refere ao sigilo da alocação, inclusive, é a primeira no algoritmo da Figura 2, pois de nada adianta o método de geração da sequência randomizada ter um componente aleatório, se esse método não permitir sigilo de alocação. Existem métodos que, embora sejam sistemáticos e aleatórios por natureza, não permitem sigilo de alocação e, portanto, são considerados inadequados e de alto risco de viés. À guisa de exemplo, podem ser citadas algumas regras de atribuições determinísticas, como alternância, data de nascimento ou dia de admissão. Mesmo se tratando de processos aleatórios, permitem seu conhecimento antes da implementação do tratamento, o que pode induzir viés de seleção. A postagem aberta de uma sequência aleatória, por mais que tenha componente aleatório, também impede o sigilo da alocação colocando, assim, o estudo em alto risco de viés.
Na análise do método de geração da sequência aleatória, deve-se avaliar se o método empregado contém, de fato, um componente aleatório. A randomização simples pode ser alcançada usando métodos como sorteio repetido, lançamento de dados, distribuição de cartas previamente embaralhadas ou se referindo a uma lista publicada de números aleatórios. Mais comumente, uma lista de sequência aleatória é gerada por softwares estatísticos ou de gerenciamento de dados. E quando se tratar de medicação, o seu preparo por uma farmácia independente, através de identificação numerada, abertura sequencial, com aparência, peso e gosto idênticos impedem a violação do sigilo da alocação.
A melhor maneira de manter o sigilo da alocação é através de uma randomização central, terceirizada e distante do centro de implementação. O uso de envelopes numerados sequencialmente, opacos, lacrados e abertos na ordem é uma forma muito empregada para manter sigilosa a sequência aleatória, porém, não há como negar que ele é mais passível de ser manipulado. Portanto, o fato de o envelope ser aberto imediatamente antes da atribuição do tratamento ao paciente minimiza violações da randomização.
A minimização também pode permitir o conhecimento antecipado do grupo a que alguns participantes serão alocados, principalmente, quando se trata de estudos pequenos com desequilíbrios substanciais nas características prognósticas. A associação da minimização com a randomização simples (na qual 80% ocorrem por minimização e 20% por randomização simples) é uma estratégia empregada para manter o sigilo da alocação, impedindo, assim, o conhecimento antecipado do tratamento a ser implementado no paciente.
Randomizações em blocos não permutados e de tamanhos conhecidos também permitem antever a que grupo alguns participantes serão alocados, principalmente, quando a pessoa que está recrutando os participantes souber o início e o fim de cada bloco e as alocações forem reveladas após a atribuição. Em tais situações, uma resposta de “Não” ou “Provavelmente não” deve ser fornecida para a pergunta de sinalização sobre a ocultação das alocações. Assim, idealmente, as randomizações em bloco devem ser feitas sem que os provedores de saúde saibam do tamanho dos blocos e estes devem ser sempre permutados aleatoriamente.
Descrições simples como “grupos foram aleatoriamente distribuídos” não bastam para saber se a sequência foi genuinamente aleatória. É comum ver estudos descritos como randomizados quando, de fato, empregaram apenas métodos sistemáticos. Por isso, uma alternativa é buscar essa informação no protocolo do estudo, em especial, quando o artigo está publicado em um periódico com limites ao número de palavras. Se descrito no protocolo, o julgamento desse estudo será de “Provavelmente sim” ao invés de “Nenhuma informação”. Por outro lado, se um determinado autor não explicita o método de sequência aleatória empregada, mas em outros estudos anteriores costuma empregar métodos não aleatórios, um julgamento de “Provavelmente não” é razoável em vez de “Nenhuma informação”.
A verificação de desequilíbrios nas características do baseline entre os grupos do estudo pode indicar se algo ocorreu de errado com a randomização. Para que essa análise seja possível, é necessário que o estudo forneça os dados de todos os pacientes que foram randomizados e não apenas daqueles que completaram o estudo. Assim, identificar situações que podem sinalizar falhas no processo de randomização são importantes, entre as quais:
- Diferenças substanciais entre os tamanhos dos grupos de intervenção, em comparação com a proporção de alocação pretendida, quando diferenças muito maiores do que as que ocorreriam pelo simples acaso podem levantar suspeita de que os investigadores manipularam a alocação para um dos grupos.
- Muitas características do baseline relatadas como estatisticamente significantes, estando além do que seria esperado pelo acaso. Na randomização, espera-se que um em cada 20 fatores prognósticos seja estatisticamente significativo a um nível de 5%. Porém, deve-se ficar atento, porque os autores podem selecionar quais fatores prognósticos serão ou não apresentados com base nas diferenças presentes. Além disso, há fatores prognósticos que podem estar correlacionados (exemplo, maior idade e maior gravidade da doença), o que pode levar a um número maior de desequilíbrios entre as características prognósticas do grupo sem que, necessariamente, seja um viés.
- Desequilíbrio muito expressivo nos principais fatores prognósticos ou medidas de baseline de variáveis de resultado que são improváveis de terem ocorrido pelo acaso e que possuem influência direta nos resultados coletados.
- Similaridade excessiva nas características basais que não é compatível com o acaso. De forma semelhante, o excesso de similaridade pode sugerir falseabilidade de dados, já que o simples acaso dificilmente explica similaridade excessiva.
O algoritmo abaixo (Figura 2) auxilia no julgamento do risco de viés. Embora seja disponibilizado pela Cochrane, é apenas um guia e pode ser substituído pelos autores de Revisões Sistemáticas, desde que haja uma racionalidade metodológica para a decisão.
Figura 2: Algoritmo sugerido para o julgamento de risco de viés decorrente do processo de randomização (mantido na versão original)
Fonte: adaptado de Sterne et al.8
2.2. Vieses decorrentes dos desvios das intervenções pretendidas
Esse domínio, antes denominado de vieses de desempenho, na ferramenta de RoB 1.0, está relacionado a vieses que surgem quando há desvios das intervenções pretendidas, os quais podem ser devidos à: 1) implementação de intervenções adicionais inconsistentes com o protocolo do estudo; 2) falha da equipe de saúde em implementar as intervenções do protocolo; e 3) baixa adesão dos participantes do estudo às suas intervenções.
Esses desvios são exemplificados em um estudo de vacina, em que o participante pode receber a vacina e ser aconselhado pelo provedor de saúde a se expor o máximo possível, para testar a eficácia da mesma, ou, de forma contrária, restringir ao máximo o contato com pessoas ou áreas endêmicas da doença. Outra possibilidade é que, por alguma razão, o participante que foi randomizado para o grupo da vacina não recebe o tratamento proposto, ou seja, não é vacinado. A falta de aderência do participante à intervenção em si também é algo que pode ocorrer e ser considerado um desvio da intervenção pretendida. Ainda, pode ocorrer de o paciente, depois de randomizado, recusar-se a tomar a vacina, utilizar medicamentos adicionais por conta própria ou se recusar a receber uma eventual segunda dose da vacina.
Importante atentar para mudanças da intervenção que fazem parte do plano de tratamento, que não devem ser consideradas como vieses. Por exemplo, pode-se fazer necessária a inclusão de medicamentos adicionais ou exclusão de alguns medicamentos em casos de pacientes mais graves. Pode haver necessidade de migração de pacientes de um grupo para o outro, como em comparações de tratamentos medicamentosos e cirúrgicos. Ou seja, nem todas as alterações devem ser consideradas vieses, pois há casos em que se espera que a intervenção mude com o passar do tempo, dependendo da condição e resposta do paciente.
Um outro exemplo seria um estudo cujos pacientes estão sendo randomizados para uma droga experimental vs. uma droga já disponível no mercado. Sabe-se, de antemão, que a droga experimental pode causar uma toxicidade severa em alguns pacientes e que, depois de algum tempo, estes tenham que deixar de tomar o medicamento experimental e migrar para medicamentos menos tóxicos ou tratamentos alternativos. Essa mudança faz parte do pacote de cuidado ao paciente, portanto, não é considerada como um viés, mesmo que não esteja explicitada claramente no protocolo do estudo.
Idealmente, todas essas mudanças, que são parte do pacote do cuidado do paciente, devem estar especificadas no protocolo de pesquisa, assim como aquelas que não podem ocorrer, porém, nem sempre essas alterações (desvios da intervenção inicial) estão claramente definidas. Um problema muito frequente em protocolos de ensaios clínicos ocorre quando os autores definem que o tratamento será adicional ao “cuidado usual” do paciente, sem especificar que cuidado é esse.
Todas essas variações nos ECR demandam que os autores de Revisões Sistemáticas estejam atentos para mudanças não especificadas no protocolo e que, possivelmente, afetam o desfecho de interesse. De forma semelhante ao exigido para os autores de ensaios clínicos, os autores de Revisões Sistemáticas devem registrar a priori que tipos de mudanças podem afetar o desfecho de interesse e que seriam julgadas como um viés. Essas mudanças podem ser identificadas em revisões de escopo, por experts no assunto ou após discussão com profissionais da saúde.
2.2.1 O papel do cegamento no viés de desempenho
O cegamento de participantes e provedores de saúde objetiva evitar contaminação da pesquisa, ou seja, aplicação de uma intervenção diferente daquela que os participantes deveriam receber, além de impedir cuidados adicionais ou sua omissão, caso os provedores de saúde tenham o conhecimento da intervenção que foi implementada no paciente. Por último, o cegamento tem como objetivo impedir a falta de aderência dos participantes ao estudo clínico. É claro que, ao longo de um estudo clínico, alguns participantes podem deixar de tomar o medicamento prescrito ou realizar a conduta recomendada, o que, se ocorrer pelo acaso, não é considerado um viés, mas se for pelo conhecimento do grupo para o qual o participante foi alocado, pode enviesar os resultados apresentados.
Cabe ressaltar que o cegamento não é apropriado em ensaios clínicos pragmáticos, já que nesses casos o conhecimento do tratamento que será oferecido e recebido pelo paciente é parte do processo de avaliação. Porém, é essencial em ensaios clínicos que querem eliminar o efeito placebo e isolar aspectos específicos das intervenções preconizadas no protocolo do estudo. Além disso, o cegamento é muito importante durante a avaliação do desfecho, para impedir que o conhecimento do grupo em que o participante foi alocado afete as mensurações dos resultados pelos avaliadores ou pelo próprio paciente. No entanto, esse assunto será discutido mais adiante, pois faz parte de outro domínio dentro do instrumento RoB 2.0, no qual a falta de cegamento não coloca, necessariamente, o estudo em alto risco de viés.
2.2.2. Determinação do efeito de interesse
Determinação do efeito de interesse é um conceito introduzido no RoB 2.0. Nessa versão do instrumento, faz-se necessário determinar qual é o efeito de interesse na intervenção que será estimada e para o qual o risco de viés será avaliado. Para entender melhor esses efeitos de interesse, deve-se imaginar um cenário em que um grande ensaio clínico está avaliando um medicamento experimental que pode ser capaz de matar o vírus da Covid-19, quando administrado em uma fase inicial da doença. Mas, apesar de muito promissor, o medicamento produz sérios eventos adversos, como náuseas, vômitos, diarreias por várias horas após sua ingestão. Nesse estudo hipotético, apenas 60% dos pacientes que foram randomizados para o tratamento apresentam boa aderência ao tratamento e finalizam seu uso por 7 dias, conforme prescrito. Os outros 40% desistem da terapia antes do terceiro dia de tratamento.
Para um gestor de saúde que vai implementar esse tratamento em uma população, o que importa é a eficácia do tratamento considerando os 100% que foram randomizados para receber o tratamento. Isso porque, os gastos para implementação serão os mesmos, independentemente de quantos tenham uma boa adesão ao tratamento. Por outro lado, para um paciente ou para um profissional de saúde que atende em ambulatório, a resposta desse estudo que importa é a eficácia do tratamento nos 60% dos participantes que de fato receberam o tratamento proposto. Ou seja, são perguntas distintas e que empregam abordagens estatísticas diferentes.
No primeiro caso, o interesse está na atribuição da intervenção, já no segundo, na aderência à intervenção. Quando o interesse está na atribuição da intervenção, o método estatístico deve ser o padrão de ensaios clínicos randomizados, ou seja, análise por intenção de tratar (análise dos dados de todos os pacientes que foram randomizados independentemente da intervenção recebida). Por outro lado, o tratamento estatístico empregado na aderência à intervenção deve ser por protocolo (análise dos dados dos pacientes que completaram adequadamente o tratamento). Pode ainda haver o interesse nos dois efeitos de tratamento, situação essa que requer ambas as análises de dados. Importa ressaltar que a grande maioria dos ensaios clínicos conduzidos empregam a análise de intenção de tratar, porque ela não fere os princípios de randomização.
Apesar da escolha sobre o efeito de interesse ser uma decisão dos autores de Revisões Sistemáticas, é também preciso que os Ensaios Clínicos Randomizados que avaliaram a pergunta de pesquisa de interesse tenham tido a mesma intenção de análise de efeito. A maioria das Revisões Sistemáticas da Cochrane avalia o efeito da atribuição da intervenção em que os estudos primários fizeram análise de intenção de tratar e, por essa razão, este capítulo dá ênfase ao efeito da atribuição da intervenção. Para mais detalhes sobre o efeito da aderência ao tratamento, recomenda-se a leitura de literatura adicional do documento completo disponível no site www.riskofbias.info.
2.2.3. Análise do risco de viés decorrente de desvios das intervenções pretendidas
Em estudos em que os participantes ou a equipe não estão cegos, cointervenções realizadas pelos próprios participantes ou pelos provedores de saúde podem prejudicar as comparações do estudo, tanto de forma ativa, ou seja, implementando intervenções não protocolares, como de forma passiva, deixando de implementar as intervenções protocolares. Isso pode ocorrer de forma inconsciente (tentativa de equiparar os pacientes que estão no grupo placebo aos do grupo experimental) ou processos conscientes (decorrentes de conflito de interesses).
No RoB 2.0, os únicos desvios da intervenção pretendida que são abordados em relação ao efeito da atribuição à intervenção são aqueles que surgiram devido ao contexto do ensaio clínico. Haverá alto risco de viés se esses desvios que aconteceram foram inconsistentes com o protocolo do estudo, sejam capazes de afetar a estimativa de efeito e não sejam balanceados entre os grupos.
Ao ter conhecimento do grupo ao qual foram alocados, os participantes podem se comportar de forma diferente, bem como provedores de saúde também podem realizar ou deixar de realizar cointervenções. Todas essas situações mascaram o efeito verdadeiro do tratamento estimado quando se pode observar alguns desbalanceamentos no ECR, tais como:
- A ocorrência de um grande número de participantes que não foram tratados de acordo com o protocolo randomizado;
- Um grande percentual de cruzamento (cross-over) do grupo comparador para o grupo experimental;
- A inclusão de cointervenções, não definidas no protocolo, que não são balanceadas entre os grupos, e que, muito provavelmente, afetam o desfecho; e
- Uma falha na implementação das intervenções.
De forma semelhante ao domínio do RoB 2.0 de randomização, esse domínio apresenta questões sinalizadoras que auxiliam no julgamento do risco de viés e elas são diferentes dependendo do efeito de interesse (atribuição da intervenção ou aderência à intervenção), por isso, deve-se escolher as questões sinalizadoras correspondentes ao tipo de interesse da Revisão Sistemática (Quadro 5).
Neste capítulo apenas serão apresentadas questões sinalizadoras referente ao interesse na atribuição da intervenção, pois é o método mais empregado por autores de ensaios clínicos e por autores de Revisões Sistemáticas da Cochrane.
Quadro 5. Tipo de questões sinalizadoras em função do efeito de interesse
Efeito da atribuição da intervenção | Se os participantes e provedores da saúde que realizaram as intervenções eram cegos;
Caso algum desses grupos não foi cegado, se os desvios da intervenção pretendida surgiram por causa do contexto do ensaio e eram susceptíveis de influenciar o efeito da intervenção; Se uma análise apropriada foi usada para estimar o efeito da atribuição à intervenção. |
Efeito da aderência à intervenção | Se os participantes e provedores da saúde que realizaram as intervenções eram cegos;
Caso não fossem cegos, se as cointervenções importantes foram equilibradas entre os grupos de intervenção; Se a intervenção foi implementada com sucesso e se os participantes do estudo aderiram à intervenção atribuída; Caso tenham ocorrido desvios da intervenção pretendida decorrentes dos pontos 2 e 3 acima, se foi utilizada uma análise apropriada. |
Fonte: elaborado pelos autores.
As questões sinalizadoras para quando o interesse está na atribuição da intervenção estão apresentadas no Quadro 6 e envolvem cegamento, desvios das intenções pretendidas e análise apropriada dos dados. A combinação das respostas permite chegar ao julgamento do risco de viés de determinado desfecho do estudo (Quadro 7; Figura 3).
Quadro 6. Questões sinalizadoras para análise do risco de viés decorrente de desvios das intervenções pretendidas (efeito da atribuição à intervenção) (mantidas na versão original)
Signalling questions | Elaboration | Response options | |
B
L I N D I N G |
2.1. Were participants aware of their assigned intervention during the trial? | If participants are aware of their assigned intervention, it is more likely that health-related behaviours will differ between the intervention groups. Blinding participants, most commonly through use of a placebo or sham intervention, may prevent such differences. If participants experienced side effects or toxicities that they knew to be specific to one of the interventions, answer this question ‘Yes’ or ‘Probably yes’. | Y/PY/PN/N/NI |
2.2. Were carers and people delivering the interventions aware of participants’ assigned intervention during the trial? | If carers or people delivering the interventions are aware of the assigned intervention then its implementation, or administration of non-protocol interventions, may differ between the intervention groups. Blinding may prevent such differences. If participants experienced side effects or toxicities that carers or people delivering the interventions knew to be specific to one of the interventions, answer question ‘Yes’ or ‘Probably yes’. If randomized allocation was not concealed, then it is likely that carers and people delivering the interventions were aware of participants’ assigned intervention during the trial. | Y/PY/PN/N/NI | |
D
E V I A T I O N S |
2.3. If Y/PY/NI to 2.1 or 2.2: Were there deviations from the intended intervention that arose because of the trial context? | For the effect of assignment to intervention, this domain assesses problems that arise when changes from assigned intervention that are inconsistent with the trial protocol arose because of the trial context. We use the term trial context to refer to effects of recruitment and engagement activities on trial participants and when trial personnel (carers or people delivering the interventions) undermine the implementation of the trial protocol in ways that would not happen outside the trial. For example, the process of securing informed consent may lead participants subsequently assigned to the comparator group to feel unlucky and therefore seek the experimental intervention, or other interventions that improve their prognosis.
Answer ‘Yes’ or ‘Probably yes’ only if there is evidence, or strong reason to believe, that the trial context led to failure to implement the protocol interventions or to implementation of interventions not allowed by the protocol. Answer ‘No’ or ‘Probably no’ if there were changes from assigned intervention that are inconsistent with the trial protocol, such as non-adherence to intervention, but these are consistent with what could occur outside the trial context. Answer ‘No’ or ‘Probably no’ for changes to intervention that are consistent with the trial protocol, for example cessation of a drug intervention because of acute toxicity or use of additional interventions whose aim is to treat consequences of one of the intended interventions. If blinding is compromised because participants report side effects or toxicities that are specific to one of the interventions, answer ‘Yes’ or ‘Probably yes’ only if there were changes from assigned intervention that are inconsistent with the trial protocol and arose because of the trial context. The answer ‘No information’ may be appropriate, because trialists do not always report whether deviations arose because of the trial context. |
NA/Y/PY/PN/N/NI |
2.4 If Y/PY to 2.3: Were these deviations likely to have affected the outcome? | Changes from assigned intervention that are inconsistent with the trial protocol and arose because of the trial context will impact on the intervention effect estimate if they affect the outcome, but not otherwise. | NA/Y/PY/PN/N/NI | |
2.5. If Y/PY/NI to 2.4: Were these deviations from intended intervention balanced between groups? | Changes from assigned intervention that are inconsistent with the trial protocol and arose because of the trial context are more likely to impact on intervention effect estimate if they are not balanced between the intervention groups. | NA/Y/PY/PN/N/NI | |
A
P R O P R I A T E
A N A L Y S I S |
2.6 Was an appropriate analysis used to estimate the effect of assignment to intervention? | Both intention-to-treat (ITT) analyses and modified intention-to-treat (mITT) analyses excluding participants with missing outcome data should be considered appropriate. Both naïve ‘per-protocol’ analyses (excluding trial participants who did not receive their assigned intervention) and ‘as treated’ analyses (in which trial participants are grouped according to the intervention that they received, rather than according to their assigned intervention) should be considered inappropriate. Analyses excluding eligible trial participants post-randomization should also be considered inappropriate, but post-randomization exclusions of ineligible participants (when eligibility was not confirmed until after randomization and could not have been influenced by intervention group assignment) can be considered appropriate. | Y/PY/PN/N/NI |
2.7 If N/PN/NI to 2.6: Was there potential for a substantial impact (on the result) of the failure to analyse participants in the group to which they were randomized? | This question addresses whether the number of participants who were analysed in the wrong intervention group, or excluded from the analysis, was sufficient that there could have been a substantial impact on the result. It is not possible to specify a precise rule: there may be potential for substantial impact even if fewer than 5% of participants were analysed in the wrong group or excluded, if the outcome is rare or if exclusions are strongly related to prognostic factors. | NA/Y/PY/PN/N/NI | |
Risk-of-bias judgement | Low/High/Some concerns | ||
Optional: What is the predicted direction of bias due to deviations from intended interventions? | If the likely direction of bias can be predicted, it is helpful to state this. The direction might be characterized either as being towards (or away from) the null, or as being in favour of one of the interventions. |
Not applicable Favours experimental Favours comparator Towards null Away from the null Unpredictable |
Fonte: adaptado de Sterne et al.8
Quadro 7. Julgamento do risco de viés decorrente de desvios das intervenções pretendidas (mantido na versão original)
Part 1: criteria for questions 2.1 to 2.5 | Part 2: criteria for questions 2.6 and 2.7 | Criteria for the domain | |
Low risk of bias | Participants, carers and people delivering the interventions were unaware of intervention groups during the trial
OR Participants, carers or people delivering the interventions were aware of intervention groups during the trial AND No deviations from intended intervention arose because of the trial context. |
An appropriate analysis was used to estimate the effect of assignment to intervention | Low risk of bias for part 1
AND Low risk of bias for Part 2 |
Some concerns | Participants, carers or people delivering the interventions were aware of intervention groups during the trial
AND There is no information on whether there were deviations from intended intervention because of the trial context OR There were deviations from intended interventions that arose because of the trial context AND These deviations were not likely to have affected the outcome OR These deviations were balanced between the intervention groups |
An appropriate analysis was not used to estimate the effect of assignment to intervention
AND The potential impact (on the estimated effect of intervention) of the failure to analyze participants in the group to which they were randomized was not substantial |
Some concerns for Part 1
OR Some concerns for Part 2 AND Part 1 not ‘High risk of bias’ AND Part 2 not ‘High risk of bias’ |
High risk of bias | Participants, carers or people delivering the interventions were aware of intervention groups during the trial
AND There were deviations from intended interventions that arose because of the trial context AND These deviations were likely to have affected the outcome AND These deviations were unbalanced between the intervention groups |
An appropriate analysis was not used to estimate the effect of assignment to intervention
AND The potential impact (on the estimated effect of intervention) of the failure to analyze participants in the group to which they were randomized was substantial |
High risk of bias for Part 1
AND High risk of bias for Part 2. |
Fonte: adaptado de Sterne et al.8
Como pode ser observado, há um total de sete perguntas sinalizadoras (Quadro 6). As de número 2.3, 2.4 e 2.5 somente devem ser respondidas caso haja falta de cegamento. Se o cegamento foi implementado e não foi quebrado durante o ensaio, assume-se que não ocorreram desvios das intervenções pretendidas, razões pelas quais não se faz necessária a resposta dessas três perguntas. Caso o cegamento seja apenas descrito como ‘duplo cego’, sem detalhes adicionais que permitam avaliar se ele de fato foi implementado com sucesso, pode-se considerar responder com “nenhuma informação” às perguntas que se aplicam.
A análise do cegamento ainda tem um papel essencial dentro do novo instrumento RoB 2.0, porém, a falta de cegamento não significa que o estudo, necessariamente, deva ser julgado como alto risco de viés. Na falta de cegamento, há perguntas que são feitas para indicar se a falta deste levou a desvios das intervenções pretendidas (perguntas 2.3, 2.4 e 2.5), sendo as perguntas de 2.1 a 2.5 referentes à parte 1 desse instrumento.
A parte 2 (questões 2.6 e 2.8) avalia se a análise dos dados foi apropriada. A análise de intenção de tratar é abordada em dois domínios do RoB 2.0. No domínio de vieses decorrentes de desvios das atribuições pretendidas, o que mais importa é se os pacientes foram mantidos nos grupos para os quais eles foram randomizados. No entanto, o impacto e o manejo de dados incompletos (que também fazem parte de uma análise de intenção de tratar) serão discutidos e analisados em outro domínio desse instrumento (vieses decorrentes de dados incompletos). A análise combinada das perguntas da parte 1 e da parte 2 desse domínio permitem realizar o julgamento do risco de viés relativo aos desvios das intervenções pretendidas (Figura 3).
2.2.4. Quais resultados devem ser selecionados nos estudos clínicos
É bem comum que autores de ensaios clínicos façam apresentações de múltiplos resultados, ocasionando dúvidas sobre qual deles devem ser coletados por autores de Revisões Sistemáticas. Quando o interesse é no efeito da atribuição da intervenção, deve-se dar preferência à análise dos resultados provenientes de uma análise de intenção de tratar completa. Nesse caso, todos os dados de todos os participantes serão incluídos no grupo para o qual o participante foi alocado, independentemente de ele ter recebido ou dado prosseguimento ao tratamento.
No entanto, autores de ensaios clínicos podem não ter conseguido mensurar os desfechos em todos os participantes, assim sendo, a segunda melhor opção de dados a serem analisados é a que adere aos princípios de intenção de tratar, exceto pelo fato de excluir os pacientes com dados faltantes. Esse tipo de análise é, por vezes, chamada de análise de intenção de tratar modificada, a qual não previne vieses resultantes de dados incompletos, mas esse aspecto é foco de análise em outro domínio do instrumento RoB 2.0.
A terceira opção é realizar a análise dos resultados correspondentes a uma análise por protocolo ou análise como tratado (as-treated), em que os participantes são analisados no grupo do tratamento recebido e dados faltantes são excluídos. Não é de se surpreender que essa análise seja de maior risco de viés nesse domínio.
Figura 3. Algoritmo sugerido para o julgamento de risco de viés decorrente de desvios das intervenções pretendidas (mantido na versão original)
Fonte: adaptado de Sterne et al.8
2.3. Vieses decorrentes de dados incompletos
A randomização fornece uma comparação justa entre dois ou mais grupos de intervenção, equilibrando, em média, a distribuição de fatores prognósticos conhecidos e desconhecidos no baseline entre os grupos de intervenção. A falta de mensuração do resultado, por exemplo, devido ao abandono durante o estudo, pode levar a um viés na estimativa do efeito da intervenção, já que quebra esse equilíbrio alcançado pela randomização nas fases iniciais do protocolo. Nesse domínio, é bastante importante distinguir dois tipos de dados faltantes:
- Dados genuinamente perdidos: são aqueles que os autores gostariam de mensurar, mas não conseguem por razões diversas.
- Dados excluídos: são dados coletados e que, propositadamente, não são utilizados na análise.
A situação de dados excluídos de forma intencional foi abordada no domínio 2 do RoB 2.0, que trata dos vieses decorrentes de desvios das intervenções pretendidas. Essa é uma mudança notável em relação à ferramenta RoB 1.0, já que o domínio que avaliava vieses decorrentes de dados incompletos abordava tanto dados genuinamente perdidos quanto dados deliberadamente excluídos pelos investigadores do estudo. Nesse domínio do RoB 2.0, trataremos do primeiro tipo de dados incompletos, ou seja, aqueles em que a coleta não foi possível.
Dados incompletos ocorrem por diferentes razões em um ECR: os participantes podem abandonar o estudo, não ser localizados ou não comparecer em consultas para análise do desfecho. Além dos casos em que eles, às vezes, comparecem, mas não fornecem o resultado do desfecho por perderem uma ficha de avaliação. Os resultados ou registros podem ter sido perdidos ou ficar indisponíveis, ou, ainda, ocorrer a inviabilidade de mensurar o desfecho porque os pacientes morreram ou não têm mais o elemento em análise.
Seria extremamente fácil realizar o julgamento do risco de viés de dados incompletos, se existisse um percentual mínimo e aceitável de dados faltantes, além do qual, o viés estaria presente. Infelizmente, esse número mágico não existe. A análise do percentual de dados faltantes pode levar a vieses na estimativa do efeito da intervenção a depender de alguns fatores, como 1) o número de participantes com dados incompletos, 2) o tipo do desfecho (dados contínuos, dicotômicos ou tempo de sobrevida), e 3) o risco do evento (para dados dicotômicos).
A falta de dados para desfechos contínuos geralmente tem um impacto menor, já que dados contínuos são mais robustos a essas perdas. Já para dados dicotômicos, principalmente quando se estuda eventos raros, um percentual de perda muito pequeno, como de 5%, pode ser suficientemente alto para ter um impacto dramático na estimativa do efeito da intervenção, o que coloca o estudo em alto risco de viés.
2.3.1. Quando dados faltantes podem colocar os resultados em alto risco de viés?
Ao se deparar com estudos clínicos com dados incompletos, deve-se avaliar qual seria o desfecho verdadeiro nos pacientes cuja mensuração do resultado não foi possível. Se a razão responsável pela impossibilidade de coleta não estiver relacionada com a intervenção em si, pode-se supor que o valor verdadeiro do desfecho nos pacientes com dados ausentes é igual ao efeito observado nos pacientes cujos dados foram coletados (Figura 4A). Situações como essa podem ocorrer, por exemplo, por falha técnica de algum tipo de aparelho que mensura o desfecho, o que, muito provavelmente, não coloca o resultado do estudo em alto risco de viés.
Figura 4. Desenho esquemático mostrando a distribuição dos resultados nos pacientes observados e naqueles com dados incompletos (mantido no idioma original)
Fonte: extraída de Page et al.10
A Figura 4 acima evidencia que, em (A), provavelmente não há risco de viés, pois a distribuição e percentual de dados perdidos nos participantes com dados incompletos é semelhante à dos pacientes que foram observados. Mas em (B), o risco de viés é alto, já que o valor da estimativa é diferente nos participantes que foram observados e nos pacientes cujos dados estão ausentes, além de variação no percentual de dados perdidos entre os dois grupos de estudo. Já em (C), o risco de viés é baixo, pois, embora o valor verdadeiro dos pacientes com dados incompletos seja diferente daqueles com dados mensurados, o mesmo padrão é observado no grupo controle.
Por outro lado, pode haver situações em que a razão da não coleta de dados está diretamente relacionada com os desfechos. Por exemplo, em um estudo que compara a terapia cognitivo-comportamental vs. um tratamento medicamentoso para depressão, é bem plausível pensar que os pacientes que não comparecem às consultas para reavaliação dos desfechos devem ser aqueles que possuem maior grau de depressão e cujo tratamento não foi efetivo (valor verdadeiro do desfecho). A ausência desses dados no grupo experimental favorece o efeito da intervenção, pois caso eles estivessem presentes o efeito da estimativa relatada seria em direção a hipótese nula (Figura 4B).
Outro aspecto que sinaliza que a intervenção em si pode estar relacionada com os dados faltantes é quando há uma discrepância entre o número de dados faltantes no grupo experimental e no grupo controle. Isso é bem provável de ocorrer em estudos com medicamentos, pois a presença de efeitos colaterais mais severos pode levar os participantes de um dos grupos a abandonar o estudo precocemente (Figura 4B).
Os dados incompletos podem se relacionar com a intervenção em si, porém, essa situação ocorre igualmente em ambos os grupos do estudo. Tem-se como exemplo o estudo de duas dietas bem restritivas em que um grande percentual de pacientes desiste no meio do caminho. Sendo os percentuais de desistência iguais em função das dietas serem de difícil aderência, é bem provável que os dados faltantes não alterem a estimativa observada (Figura 4C).
Embora com os gráficos da Figura 4 facilitem a compreensão, não se pode construir esses gráficos na vida real, pois nunca se tem em mãos os dados ausentes, sendo preciso buscar evidências indiretas no artigo para poder identificar se os dados incompletos têm relação com a intervenção em si e com seu valor verdadeiro, o que torna a análise dos vieses decorrentes de dados incompletos difícil e complexa.
Assim, julgamentos sobre o risco de viés decorrentes de dados incompletos dependerão de outras pistas no ensaio clínico. Haverá baixo risco de viés, quando o resultado é medido em todos os participantes, quando o número de participantes com dados ausentes é suficientemente pequeno para que seus resultados afetem o efeito estimado da intervenção ou quando as análises de sensibilidade (conduzidas pelos investigadores do estudo clínico ou pelos autores da revisão) confirmam que os valores plausíveis dos dados ausentes não produzem diferença importante no efeito estimado da intervenção.
Haverá suspeições ou até mesmo alto risco de viés, quando forem observadas diferenças entre a proporção de dados incompletos nos grupos de intervenção experimental e de comparação e quando as razões que explicam os dados incompletos estão ausentes. Algumas vezes, as razões até são reportadas e por si mesmas evidenciam que as perdas estão relacionadas com a intervenção e que foram diferentes entre os grupos.
Na presença de dados incompletos, autores de Revisões Sistemáticas podem realizar imputação dos dados, podendo ser um processo único ou múltiplo. Na imputação única, as abordagens mais empregadas são através da repetição do último valor que foi observado (last observation carried forward) ou repetição da observação do baseline (baseline observation carried forward). Entretanto, nenhuma dessas abordagens é provavelmente capaz de remover os vieses que ocorrem quando os dados incompletos do desfecho dependem de seu valor verdadeiro. A menos que se considere que não há mudança no desfecho desde a última vez que ele foi mensurado, o que, por si só, é um pressuposto bastante forte e, muitas vezes, injustificado. Outro aspecto que deve ser considerado é que a imputação única aumenta a precisão dos dados de forma artificial, simulando o conhecimento de algo que de fato não conhecemos.
Já imputações múltiplas têm sido uma abordagem muito comum atualmente. Trata-se de um processo que envolve a substituição dos dados incompletos por múltiplos valores aleatórios provenientes de uma distribuição preditiva baseada em fatores mensurados no baseline. Como vários valores aleatórios oriundos dessa distribuição são empregados, múltiplas análises são geradas, sendo que esses múltiplos conjuntos de dados são analisados para produzir uma única estimativa resumida e intervalo de confiança que reflete a incerteza associada aos dados ausentes (ao contrário dos métodos de imputação única).
No entanto, métodos de imputação múltipla também não removem ou reduzem os vieses que ocorrem quando a ausência dos dados é devido ao seu valor verdadeiro, ou seja, quando ela não ocorre devido ao acaso. Análises de sensibilidade podem ser empregadas para avaliar o impacto potencial de dados imputados na estimativa final do resultado.
Muitos ensaios clínicos fazem análise de sobrevivência, coletando dados de “tempo até o evento”. Nesses casos, o resultado é uma variável dicotômica que indica se o evento foi observado em cada participante em função do tempo de acompanhamento. Os efeitos da intervenção em análises de sobrevivência são normalmente estimados como taxas de risco.
O tempo de acompanhamento termina quando o evento ocorre ou quando a observação é interrompida por outros motivos. Os tempos de acompanhamento para os participantes nos quais o resultado não foi observado antes da interrupção da observação são considerados “censurados”. Haverá baixo risco de viés apenas se a censura for “não informativa”, o que significa que os dados censurados não ocorreram durante o tempo de avaliação do estudo. Por exemplo, se todos os participantes foram acompanhados até uma data específica, após a qual o acompanhamento termina, os dados a partir daquele ponto são censurados de forma não informativa.
A censura informativa implica que a chance de o resultado não ser observado depende de seu verdadeiro valor. Por exemplo, haveria censura informativa se os participantes que foram perdidos no acompanhamento tivessem maior probabilidade de morrer do que os participantes que foram mantidos sob cuidados.
Tanto as diferenças nas taxas de censura quanto suas diferentes razões podem fornecer evidências de que a censura foi informativa. Na presença de censura informativa, uma análise de sobrevivência pode ser tendenciosa se a chance de que o acompanhamento seja censurado também dependa do grupo de intervenção (por exemplo, se a censura for mais provável porque os participantes do grupo de intervenção desistiram do tratamento devido a efeitos colaterais graves).
2.3.2. Análise do risco de viés decorrente de desvios das intervenções pretendidas
De forma semelhante aos outros domínios anteriores, existem questões sinalizadoras (Quadro 8 e 9) e um algoritmo (Figura 5) que auxiliam os autores de Revisões Sistemáticas para a análise do risco de viés.
Um estudo será de baixo risco de viés se o desfecho tiver sido mensurado para todos, ou praticamente todos os participantes. Ou quando houver evidência (através de análise de sensibilidade) que o resultado não está em risco de viés devido aos dados incompletos ou, ainda, que a ausência de dados se deve a razões que não estão relacionadas com o tratamento implementado ou com o valor verdadeiro de sua estimativa. Em outras situações, pode-se suspeitar de algum risco de viés ou até mesmo de um alto risco de viés.
Quadro 8. Questões sinalizadoras para análise do risco de viés decorrente de dados faltantes (mantidas na versão original)
Signalling questions | Elaboration | Response options |
3.1 Were data for this outcome available for all, or nearly all, participants randomized? | The appropriate study population for an analysis of the intention to treat effect is all randomized participants.
“Nearly all” should be interpreted as that the number of participants with missing outcome data is sufficiently small that their outcomes, whatever they were, could have made no important difference to the estimated effect of intervention. For continuous outcomes, availability of data from 95% of the participants will often be sufficient. For dichotomous outcomes, the proportion required is directly linked to the risk of the event. If the observed number of events is much greater than the number of participants with missing outcome data, the bias would necessarily be small. Only answer ‘No information’ if the trial report provides no information about the extent of missing outcome data. This situation will usually lead to a judgement that there is a high risk of bias due to missing outcome data. Note that imputed data should be regarded as missing data, and not considered as ‘outcome data’ in the context of this question. |
Y/PY/PN/N/NI |
3.2 If N/PN/NI to 3.1: Is there evidence that the result was not biased by missing outcome data? | Evidence that the result was not biased by missing outcome data may come from: (1) analysis methods that correct for bias; or (2) sensitivity analyses showing that results are little changed under a range of plausible assumptions about the relationship between missingness in the outcome and its true value. However, imputing the outcome variable, either through methods such as ‘last-observation-carried-forward’ or via multiple imputation based only on intervention group, should not be assumed to correct for bias due to missing outcome data. | NA/Y/PY/PN/N |
3.3 If N/PN to 3.2: Could missingness in the outcome depend on its true value? | If loss to follow up, or withdrawal from the study, could be related to participants’ health status, then it is possible that missingness in the outcome was influenced by its true value. However, if all missing outcome data occurred for documented reasons that are unrelated to the outcome, then the risk of bias due to missing outcome data will be low (for example, failure of a measuring device or interruptions to routine data collection).
In time-to-event analyses, participants censored during trial follow-up, for example because they withdrew from the study, should be regarded as having missing outcome data, even though some of their follow up is included in the analysis. Note that such participants may be shown as included in analyses in CONSORT flow diagrams. |
NA/Y/PY/PN/N/NI |
3.4 If Y/PY/NI to 3.3: Is it likely that missingness in the outcome depended on its true value? | This question distinguishes between situations in which (i) missingness in the outcome could depend on its true value (assessed as ‘Some concerns’) from those in which (ii) it is likely that missingness in the outcome depended on its true value (assessed as ‘High risk of bias’). Five reasons for answering ‘Yes’ are:
1. Differences between intervention groups in the proportions of missing outcome data. If there is a difference between the effects of the experimental and comparator interventions on the outcome, and the missingness in the outcome is influenced by its true value, then the proportions of missing outcome data are likely to differ between intervention groups. Such a difference suggests a risk of bias due to missing outcome data, because the trial result will be sensitive to missingness in the outcome being related to its true value. For time-to-event-data, the analogue is that rates of censoring (loss to follow-up) differ between the intervention groups. 2. Reported reasons for missing outcome data provide evidence that missingness in the outcome depends on its true value; 3. Reported reasons for missing outcome data differ between the intervention groups; 4. The circumstances of the trial make it likely that missingness in the outcome depends on its true value. For example, in trials of interventions to treat schizophrenia it is widely understood that continuing symptoms make drop out more likely. 5. In time-to-event analyses, participants’ follow up is censored when they stop or change their assigned intervention, for example because of drug toxicity or, in cancer trials, when participants switch to second-line chemotherapy.
Answer ‘No’ if the analysis accounted for participant characteristics that are likely to explain the relationship between missingness in the outcome and its true value. |
NA/Y/PY/PN/N/NI |
Risk-of-bias judgement | Low/High/Some concerns | |
Optional: What is the predicted direction of bias due to missing outcome data? | If the likely direction of bias can be predicted, it is helpful to state this. The direction might be characterized either as being towards (or away from) the null, or as being in favour of one of the interventions. |
Not applicable Favours experimental Favours comparator Towards null Away from null Unpredictable |
Fonte: adaptado de Sterne et al.8
Quadro 9. Julgamento do risco de viés decorrente de dados faltantes (mantido na versão original)
Low risk of bias | Outcome data were available for all, or nearly all, randomized participants
OR There is evidence that the result was not biased by missing outcome data OR Missingness in the outcome could not depend on its true value |
Some concerns | Outcome data were not available for all, or nearly all, randomized participants
AND There is no evidence that the result was not biased by missing outcome data AND Missingness in the outcome could depend on its true value AND It is not likely that missingness in the outcome depended on its true value |
High risk of bias | Outcome data were not available for all, or nearly all, randomized participants
AND There is no evidence that the result was not biased by missing outcome data AND Missingness in the outcome could depend on its true value AND It is likely that missingness in the outcome depended on its true value. |
Fonte: adaptado de Sterne et al.8
Figura 5. Algoritmo para julgamento do risco de viés decorrente de dados faltantes (mantido na versão original)
Fonte: adaptado de Sterne et al.8
2.4. Vieses decorrentes da mensuração do desfecho
Vieses decorrentes de erros na mensuração dos resultados surgem quando os valores aferidos não são iguais aos valores verdadeiros, o que leva à publicação de uma estimativa de efeito que não é verdadeira. Os erros de medição podem ser não diferenciais e diferenciais em relação à atribuição de intervenção. Os primeiros não têm relação com a atribuição da intervenção e ocorrem de forma semelhante em ambos os grupos de estudo. Por exemplo, um instrumento de avaliação pode não estar calibrado e superestimar resultados tanto no grupo controle como no grupo experimental.
Erros diferenciais, por outro lado, possuem relação com a atribuição da intervenção. São erros sistematicamente diferentes entre os grupos de intervenção e de comparação e são pouco prováveis de ocorrer se os avaliadores estiverem cegos para a intervenção. Por exemplo, o relato de dor em pacientes que sabem que estão no grupo experimental tende a ser menor que a relatada se o mesmo paciente estivesse no grupo comparador. Esse domínio do RoB 2.0 avalia o impacto de erros diferenciais no risco de viés de um resultado de um estudo.
Estudos meta-epidemiológicos que avaliam o impacto do cegamento aos efeitos da intervenção mostram que a falta de cegamento dos avaliadores, geralmente, está associada com tamanhos de efeitos de maior magnitude11,12, principalmente, quando são utilizados desfechos subjetivos.
Embora o cegamento seja uma ferramenta extremamente útil para evitar erros diferenciais na mensuração do desfecho, nem sempre é possível. Um estudo sobre o uso do zinco no tratamento da influenza, publicado como estudo duplo-cego, foi altamente criticado pela comunidade científica, que questionou o cegamento do estudo. O zinco possui um gosto bem característico e forte no momento da ingestão e também depois de algumas horas. Dessa forma, os pacientes podiam adivinhar que estavam tomando o medicamento experimental e esse conhecimento influenciava a descrição dos sintomas gripais. Há vários outros procedimentos, como comparação de cirurgia vs. tratamento medicamentoso, emprego de terapias não medicamentosas, como fisioterapia, que são igualmente difíceis, talvez impossíveis de cegar.
Assim, a consideração do risco de viés neste domínio depende de outros fatores além do cegamento em si. A medição do resultado do desfecho deve ser apropriada. O instrumento deve ser capaz de mensurar aquilo para qual ele se propõe medir e deve fazer isso de uma forma abrangente e com boa confiabilidade. Por exemplo, o uso de instrumentos pouco sensíveis para mensuração de níveis séricos de hemoglobina pode não diagnosticar adequadamente situações de hipoglicemia, dessa forma, se um dos grupos de investigação tiver maior propensão a gerar hipoglicemia, a estimativa da intervenção estará em alto risco de viés.
Outro fator a ser considerado é se a medição do resultado difere, ou pode diferir, entre os grupos de intervenção. Imagine que o desfecho em questão necessite de exames de imagem para seu diagnóstico que são programados para serem feitos semestralmente. Se o grupo experimental tiver maior risco de dores de cabeça fortes, esses pacientes podem ser submetidos a uma maior quantidade de exames de ressonância magnética, aumentando, assim, as chances de diagnóstico verdadeiro, assim como de falsos positivos, e isso será diferente no grupo placebo.
Igualmente importantes na análise do risco de viés neste instrumento é o conhecimento de quem é o avaliador do resultado. Necessita-se saber se o avaliador conhece a atribuição de intervenção, em outras palavras, se ele está cego aos grupos experimentais e se a avaliação do resultado pode ser influenciada pelo conhecimento da intervenção.
O avaliador do resultado pode ser o próprio participante quando se avalia dor, qualidade de vida, sintomas através de questionários. Ele também pode ser o provedor de saúde, que é o mesmo que implementou o tratamento ou um avaliador externo que não tem relação direta com a randomização, implementação da intervenção e cuidados do paciente.
Mesmo que o paciente e os provedores de saúde não tenham sido cegados, o cegamento pode ser facilmente implementado para o avaliador do estudo, pois diferentes métodos para avaliação cega podem ser aplicados. Por exemplo, se o resultado for coletado através de um exame radiográfico, as radiografias podem ser enviadas para um avaliador de forma anônima. Se o desfecho é coletado em uma avaliação clínica, um vídeo do exame clínico pode ser enviado para um avaliador distante. De forma semelhante, pode-se enviar fotografias, gravações de áudio ou mesmo realizar uma avaliação clínica por assessores que desconhecem os objetivos do estudo. No entanto, quando os resultados são desfechos centrados no paciente, será impossível coletar resultados de forma não cega e não se pode deixar de considerar, nessa situação, o risco potencial de viés aos resultados coletados.
Para ensaios em que os avaliadores de resultados não são cegos, o potencial risco de viés será julgado avaliando se o resultado é susceptível de ser influenciado pelo conhecimento da intervenção recebida. Alguns desfechos têm pouco ou nenhum espaço para julgamento (por exemplo, mortalidade por todas as causas, perda dental) e outros resultados têm espaço considerável para julgamento (por exemplo, avaliação dos escores de depressão, intensidade de dor).
2.4.1. Análise do risco de viés decorrente da mensuração do desfecho
De forma semelhante aos domínios já descritos, o julgamento do risco de viés decorrente da mensuração do desfecho envolve a resposta para diferentes questões sinalizadoras (Quadros 2 e 10) e a análise da combinação dessas respostas para julgamento do risco de viés, o que pode ser auxiliado pelo Quadro 11 e pelo algoritmo da Figura 6. A primeira pergunta neste domínio (4.1) é de triagem, para identificar casos raros em que o método de medição do resultado foi inapropriado. Cabe evidenciar que esse domínio não tem a intenção de avaliar se a escolha do desfecho é relevante ou não. Não importa se é um desfecho importante para o paciente, se é substitutivo ou se é verdadeiro. A segunda questão (4.2) aborda se a medição do resultado pode ter diferido entre os grupos de estudo, visando identificar situações em que houve diferenças sistemáticas entre os grupos, como, por exemplo, se a intervenção experimental envolveu mais encontros com profissionais de saúde e, portanto, levou a mais oportunidades de identificar o resultado do que no grupo de comparação.
As questões subsequentes abordam o cegamento e suas implicações potenciais para as mensurações dos resultados (4.3 e 4.4). Se o mascaramento foi implementado com sucesso, então o risco de viés devido ao erro de medição diferencial é baixo. Caso não tenha sido feito cegamento ou este não tenha sido implementado corretamente, deve-se avaliar se a falta de cegamento influenciou a coleta do resultado. Para resultados como mortalidade por todas as causas, é improvável que a avaliação do resultado tenha sido influenciada, mas, para resultados subjetivos, como “impressão clínica de melhora”, o conhecimento da intervenção recebida pode ser altamente influente.
Quando o avaliador do resultado não é cego e o resultado pode ter sido influenciado pelo conhecimento da intervenção recebida, os autores da revisão devem, ainda, responder outra questão sinalizadora (questão 4.5), que averígua se é provável que tal influência tenha de fato ocorrido no estudo. Por exemplo, em um estudo aberto com tratamento de duração de poucas semanas, se a avaliação do desfecho for feita 1 ano após a randomização, o conhecimento da intervenção recebida pode não importar muito, pois a lembrança dos participantes provavelmente não será influenciada pelo que eles receberam inicialmente.
Quadro 10. Questões sinalizadoras para análise do risco de viés decorrente mensuração do desfecho (mantidas na versão original)
Signalling questions | Elaboration | Response options |
4.1 Was the method of measuring the outcome inappropriate? | This question aims to identify methods of outcome measurement (data collection) that are unsuitable for the outcome they are intended to evaluate. The question does not aim to assess whether the choice of outcome being evaluated was sensible (e.g. because it is a surrogate or proxy for the main outcome of interest). In most circumstances, for pre-specified outcomes, the answer to this question will be ‘No’ or ‘Probably no’.
Answer ‘Yes’ or ‘Probably yes’ if the method of measuring the outcome is inappropriate, for example because: (1) it is unlikely to be sensitive to plausible intervention effects (e.g. important ranges of outcome values fall outside levels that are detectable using the measurement method); or (2) the measurement instrument has been demonstrated to have poor validity. |
Y/PY/PN/N/NI |
4.2 Could measurement or ascertainment of the outcome have differed between intervention groups? | Comparable methods of outcome measurement (data collection) involve the same measurement methods and thresholds, used at comparable time points. Differences between intervention groups may arise because of ‘diagnostic detection bias’ in the context of passive collection of outcome data, or if an intervention involves additional visits to a healthcare provider, leading to additional opportunities for outcome events to be identified. | Y/PY/PN/N/NI |
4.3 If N/PN/NI to 4.1 and 4.2: Were outcome assessors aware of the intervention received by study participants? | Answer ‘No’ if outcome assessors were blinded to intervention status. For participant-reported outcomes, the outcome assessor is the study participant. | NA/ Y/PY/PN/N/NI |
4.4 If Y/PY/NI to 4.3: Could assessment of the outcome have been influenced by knowledge of intervention received? | Knowledge of the assigned intervention could influence participant-reported outcomes (such as level of pain), observer-reported outcomes involving some judgement, and intervention provider decision outcomes. They are unlikely to influence observer-reported outcomes that do not involve judgement, for example all-cause mortality. | NA/Y/PY/PN/N/NI |
4.5 If Y/PY/NI to 4.4: Is it likely that assessment of the outcome was influenced by knowledge of intervention received? | This question distinguishes between situations in which (i) knowledge of intervention status could have influenced outcome assessment but there is no reason to believe that it did (assessed as ‘Some concerns’) from those in which (ii) knowledge of intervention status was likely to influence outcome assessment (assessed as ‘High’). When there are strong levels of belief in either beneficial or harmful effects of the intervention, it is more likely that the outcome was influenced by knowledge of the intervention received. Examples may include patient-reported symptoms in trials of homeopathy, or assessments of recovery of function by a physiotherapist who delivered the intervention. | NA/Y/PY/PN/N/NI |
Risk-of-bias judgement | Low/High/Some concerns | |
Optional: What is the predicted direction of bias in measurement of the outcome? | If the likely direction of bias can be predicted, it is helpful to state this. The direction might be characterized either as being towards (or away from) the null, or as being in favour of one of the interventions. |
Not applicable Favours experimental Favours comparator Towards null Away from null Unpredictable |
Fonte: adaptado de Sterne et al.8
Quadro 11. Julgamento do risco de viés decorrente da mensuração do desfecho (mantido na versão original)
Low risk of bias | The method of measuring the outcome was not inappropriate
AND The measurement or ascertainment of the outcome did not differ between intervention groups AND The outcome assessors were unaware of the intervention received by study participants OR The assessment of the outcome could not have been influenced by knowledge of the intervention received |
Some concerns | The method of measuring the outcome was not inappropriate
AND The measurement or ascertainment of the outcome did not differ between intervention groups AND The assessment of the outcome could have been influenced by knowledge of the intervention received AND It is unlikely that assessment of the outcome was influenced by knowledge of intervention received OR The method of measuring the outcome was not inappropriate AND There is no information on whether the measurement or ascertainment of the outcome could have differed between intervention groups AND The outcome assessors were unaware of the intervention received by study participants OR The assessment of the outcome could not have been influenced by knowledge of the intervention received |
High risk of bias | The method of measuring the outcome was inappropriate
OR The measurement or ascertainment of the outcome could have differed between intervention groups OR It is likely that assessment of the outcome was influenced by knowledge of the intervention received |
Fonte: adaptado de Sterne et al.8
Figura 6. Algoritmo empregado para o julgamento do risco de viés decorrente da mensuração do desfecho (mantido na versão original)
Fonte: adaptado de Sterne et al.8
2.5. Vieses decorrentes do relato seletivo do desfecho
Este domínio não aborda o viés devido ao relato incompleto (ou não relato seletivo) de domínios de resultados que foram medidos e analisados pelos investigadores do ensaio. A separação do relato seletivo do desfecho e do não relato de desfechos é outra mudança notável em relação à versão RoB 1.0.
Diferentes terminologias serão empregadas nesse domínio 5 do RoB 2.0 e, portanto, devem ser explicadas. Um tipo de desfecho se refere a um ponto final de interesse, independentemente da forma como ele foi mensurado, por exemplo, a intensidade de dor. Já a mensuração do desfecho se refere à maneira específica em que um tipo de desfecho foi mensurado, por exemplo, a intensidade de dor pode ser mensurada com uma escala visual analógica 0-10 ou com outras escalas. Por último, ainda há a análise do desfecho, que é a análise da forma como os resultados foram sumarizados. No caso da escala de dor, pode-se avaliar a dor final após a implementação da intervenção ou a mudança da dor em relação ao baseline.
Para cada tipo de desfecho, existem diversas maneiras de mensurá-lo e inúmeras maneiras de realizar suas análises. Isso significa, em outras palavras, que múltiplos resultados podem ser gerados a partir de um tipo de desfecho específico. Soma-se a isso o fato de diferentes tempos de avaliação podem estar presentes no estudo, o que potencializa ainda mais as múltiplas possibilidades de relato. Sendo exatamente isso que esse domínio do RoB 2.0 aborda: os vieses decorrentes da seleção seletiva de um desfecho que podem ocorrer pela escolha do método empregado para mensurar ou analisar o desfecho em questão.
Vieses são introduzidos quando, apesar de existir múltiplas mensurações para um único domínio, os autores escolhem apenas uma delas para o relato do resultado. Coloquialmente, isso é chamado na língua inglesa de cherry picking, pois a escolha do resultado a ser apresentado foi determinada com base em sua magnitude, direção ou significância estatística. Estudos sobre intensidade de dor, qualidade de vida e grau de depressão, em que diferentes tipos de escalas e tempos de avaliação são analisados, podem estar sujeitos a este tipo de viés.
Outros tipos de desfechos como sucesso de tratamento ou recuperação clínica também podem ser definidos e analisados de diferentes formas pelos autores de ensaios clínicos. Após coleta e análise dos dados, os autores podem selecionar uma parcela dessas análises com base no que seria mais impactante para ser publicado.
Além de diferentes métodos de mensuração de resultados, múltiplas análises também são possíveis. Autores podem fazer análise estatísticas ajustadas ou não ajustadas, assim como apresentar dados finais ou mudanças em relação ao baseline ou, ainda, fazer conversão de escalas contínuas ou ordinais em dados dicotômicos empregando diferentes pontos de corte. Não há problema em realizar múltiplas análises, desde que tenham sido planejadas e todas sejam relatadas no artigo publicado. O problema existe quando apenas uma pequena parcela das análises de dados é relatada com base nos resultados apresentados.
Vieses na seleção do resultado normalmente surgem de um desejo de que o estudo seja notável e mereça a publicação, podendo estar presentes tanto na descrição de danos quanto para benefícios, embora as motivações (e direção do viés) subjacentes à seleção das estimativas de efeito possam ser diferentes. Por exemplo, em estudos que comparam uma intervenção experimental com placebo, autores com interesse em mostrar que a intervenção experimental é benéfica e segura podem estar inclinados a ser seletivos ao relatar estimativas de eficácia que sejam estatisticamente significativas e favoráveis à intervenção experimental junto com estimativas de danos que não são significativamente diferentes entre os grupos.
Há algumas características relativas à mensuração do desfecho ou análise do desfecho que podem sinalizar alguma suspeição de vieses nos artigos em relação ao desfecho seletivo, entre elas, quando o relato se restringe a:
- Um pequeno subconjunto de tempos de acompanhamento, mesmo tendo sido proposto no protocolo do estudo análises mais longas (por exemplo, relatar apenas o efeito para três semanas após o início do estudo, apesar de também ter medido o resultado em seis e oito semanas);
- Um pequeno subconjunto de instrumentos de medição, quando se previa analisar outros ou se esperava que outros instrumentos tivessem sido avaliados (por exemplo, escalas de dor);
- Um conjunto de dados de um dos avaliadores (por exemplo, escalas avaliadas pelo paciente, mas não avaliadas pelo médico);
- Uma escala de um instrumento de medição, quando foi registrado que mais escalas seriam avaliadas ou quando os estudos na área usualmente fazem isso.
- Uma estimativa não ajustada da intervenção, enquanto, para outros resultados, apresentar o valor ajustado por características de baseline;
- Um pequeno subconjunto de análises múltiplas análises, ajustando para diferentes conjuntos de fatores prognósticos;
- Um subconjunto de estimativas de efeito de intervenção isolado para desfechos compostos (por exemplo, eventos de doença cardiovascular definidos como um combinado de morte, doença cardíaca coronária, infarto do miocárdio e acidente vascular cerebral).
2.5.1. Análise do risco de viés decorrente do relato seletivo do desfecho
No instrumento RoB 2.0, há algumas considerações que devem ser especificadas antes de iniciar as respostas para as questões sinalizadoras, sendo uma delas referente às fontes empregadas para análise do risco de viés. Uma grande quantidade de fontes pode ser utilizada, tais como o artigo publicado, o protocolo do estudo (que pode ser publicado em um periódico ou estar disponível no site do financiador do ensaio), seu registro em bases de registros de ECR, o plano estatístico final, entre outras. Ao comparar as intenções da análise com as fontes que relatam o resultado sendo avaliado, as datas de tais documentos devem ser consideradas cuidadosamente. Deve haver um tipo de “carimbo de data” confirmando que as intenções da análise foram finalizadas antes que os resultados estivessem disponíveis para os investigadores do ensaio (exceto a equipe de comitê de monitoramento).
A especificação dessas fontes antes de iniciar a análise do risco de viés é importante para auxiliar no julgamento desse domínio, assim como em todos os outros do RoB 2.0, já que algumas informações podem não ter sido relatadas por completo no artigo publicado, mas estão disponíveis no protocolo do estudo, no material suplementar do artigo ou outras fontes legítimas. Assim, realizar a análise com base apenas no que está descrito na publicação final pode gerar uma avaliação incompleta e menos confiável do que aquela análise que se baseou no máximo de informações existentes sobre o artigo apreciado.
Idealmente, cada estudo clínico deve ter um protocolo pré-especificado registrado em um banco de dados de protocolos de pesquisa e que contém um plano estatístico detalhado. Dessa forma, os autores de Revisões Sistemáticas podem fazer a comparação do que foi publicado como o que foi pré-especificado pelos autores dos ensaios clínicos. Outro aspecto que os autores de RS devem ficar atentos é se houve alterações introduzidas no transcorrer do estudo, sendo, geralmente, apontadas no histórico do registro do protocolo. Caso haja, há necessidade de se verificar se foram apresentadas justificativas plausíveis e legítimas para a mudança no artigo. Às vezes, essas alterações e suas justificativas não estão relatadas no corpo do artigo, mas podem estar descritas no material suplementar, devido às restrições com relação ao número máximo de palavras na publicação final.
Algumas alterações podem ser consideradas aceitáveis e legítimas, por exemplo, o tempo de acompanhamento pode ter sido alterado em função de dificuldades técnicas com o instrumento de mensuração, devido a pandemias globais ou problemas de saúde pública de ordem regional. Outras mudanças, feitas antes mesmo dos dados terem sido coletados, também não introduzem vieses, já que, muitas vezes, estão relacionadas com atualização dos registros nas bases de dados. Em caso de dúvidas sobre as razões de alterações, pode-se optar pelo contato com os autores.
Deve-se avaliar mudanças especificamente no desfecho que se tem interesse. Ou seja, se outros desfechos foram apresentados e alterados em relação ao protocolo inicial, isso não deve afetar a análise do risco de viés do resultado de interesse.
2.5.2. E quando não há registro prévio do estudo?
Podem existir situações em que não há nenhum registro prévio do ECR que foi publicado. No entanto, mesmo nessas situações, é possível avaliar o risco de viés decorrente do relato seletivo do desfecho. A falta de registro pode ser um padrão em determinada área de conhecimento que ainda não tenha incorporado a importância dessa prática. Ou talvez, seja necessário lidar com ECR conduzidos há muitos anos, quando ainda não era padrão realizar o registro a priori do estudo que seria realizado.
Nesses casos, comparar a seção de material e método e resultados e verificar se concordam entre si. Muitas vezes, ao fazer essa simples comparação, pode-se observar que nem metade dos métodos planejados são descritos nos resultados, o que sugere uma seletividade no relato. Outra situação é o aparecimento de resultados que não foram descritos nos métodos, surgindo sem qualquer explicação plausível, o que pode sugerir que há algo errado na descrição dos resultados desses estudos. Além disso, as seguintes perguntas podem ajudar os avaliadores a inferir se há relato seletivo do desfecho:
- As subescalas são agregadas de maneira incomum?
- Em caso de estudos com várias publicações por tempo de seguimento, há uma discrepância entre os diferentes artigos em relação aos desfechos primários e secundários? Há discrepâncias entre os relatos das amostras?
- Há alguma sugestão de que várias análises ajustadas foram realizadas, mas apenas uma (ou um subconjunto) foi relatada? Uma ou mais análises ajustadas foram realizadas, mas nenhuma relatada?
- Os pesquisadores categorizaram medidas de resultados contínuos de uma forma incomum? Há descrição de diferentes pontos de corte para dicotomização ou categorização do desfecho relatadas nas diversas publicações do mesmo estudo?
- Em estudos com desfechos compostos, eles são corriqueiramente empregados em outras publicações do mesmo tipo? Foi realizada uma composição inesperada de eventos para o tema da pesquisa, por exemplo, agrupando diferentes combinações de eventos adversos imprevistos sob uma categoria de “evento adverso maior” ou “evento adverso menor”?
- Comparativamente com outros artigos do mesmo tempo, foram descritos os desfechos e análises esperadas para aquele tipo de estudo?
De forma semelhante aos outros domínios desse instrumento RoB 2.0, existem questões sinalizadoras (Quadro 12) que conduzem ao julgamento do risco de viés (Quadro 13). Esse julgamento também pode ser alcançado através de um algoritmo (Figura 7).
Quadro 12. Questões sinalizadoras para análise do risco de viés decorrente do relato seletivo do desfecho (mantidas na versão original)
Signalling questions | Elaboration | Response options |
5.1 Were the data that produced this result analysed in accordance with a pre-specified analysis plan that was finalized before unblinded outcome data were available for analysis? | If the researchers’ pre-specified intentions are available in sufficient detail, then planned outcome measurements and analyses can be compared with those presented in the published report(s). To avoid the possibility of selection of the reported result, finalization of the analysis intentions must precede availability of unblinded outcome data to the trial investigators.
Changes to analysis plans that were made before unblinded outcome data were available, or that were clearly unrelated to the results (e.g. due to a broken machine making data collection impossible) do not raise concerns about bias in selection of the reported result. |
Y/PY/PN/N/NI |
Is the numerical result being assessed likely to have been selected, on the basis of the results, from… | ||
5.2. … multiple eligible outcome measurements (e.g. scales, definitions, time points) within the outcome domain? | A particular outcome domain (i.e. a true state or endpoint of interest) may be measured in multiple ways. For example, the domain pain may be measured using multiple scales (e.g. a visual analogue scale and the McGill Pain Questionnaire), each at multiple time points (e.g. 3, 6 and 12 weeks post-treatment). If multiple measurements were made, but only one or a subset is reported on the basis of the results (e.g. statistical significance), there is a high risk of bias in the fully reported result. Attention should be restricted to outcome measurements that are eligible for consideration by the RoB 2 tool user. For example, if only a result using a specific measurement scale is eligible for inclusion in a meta-analysis (e.g. Hamilton Depression Rating Scale), and this is reported by the trial, then there would not be an issue of selection even if this result was reported (on the basis of the results) in preference to the result from a different measurement scale (e.g. Beck Depression Inventory).
Answer ‘Yes’ or ‘Probably yes’ if: There is clear evidence (usually through examination of a trial protocol or statistical analysis plan) that a domain was measured in multiple eligible ways, but data for only one or a subset of measures is fully reported (without justification), and the fully reported result is likely to have been selected on the basis of the results. Selection on the basis of the results can arise from a desire for findings to be newsworthy, sufficiently noteworthy to merit publication, or to confirm a prior hypothesis. For example, trialists who have a preconception, or vested interest in showing, that an experimental intervention is beneficial may be inclined to report outcome measurements selectively that are favourable to the experimental intervention. Answer ‘No’ or ‘Probably no’ if: There is clear evidence (usually through examination of a trial protocol or statistical analysis plan) that all eligible reported results for the outcome domain correspond to all intended outcome measurements. OR There is only one possible way in which the outcome domain can be measured (hence there is no opportunity to select from multiple measures). OR Outcome measurements are inconsistent across different reports on the same trial, but the trialists have provided the reason for the inconsistency and it is not related to the nature of the results. Answer ‘No information’ if: Analysis intentions are not available, or the analysis intentions are not reported in sufficient detail to enable an assessment, and there is more than one way in which the outcome domain could have been measured. |
Y/PY/PN/N/NI |
5.3 … multiple eligible analyses of the data?
|
A particular outcome measurement may be analysed in multiple ways. Examples include: unadjusted and adjusted models; final value vs change from baseline vs analysis of covariance; transformations of variables; different definitions of composite outcomes (e.g. ‘major adverse event’); conversion of continuously scaled outcome to categorical data with different cut-points; different sets of covariates for adjustment; and different strategies for dealing with missing data. Application of multiple methods generates multiple effect estimates for a specific outcome measurement. If multiple estimates are generated but only one or a subset is reported on the basis of the results (e.g. statistical significance), there is a high risk of bias in the fully reported result. Attention should be restricted to analyses that are eligible for consideration by the RoB 2 tool user. For example, if only the result from an analysis of post-intervention values is eligible for inclusion in a meta-analysis (e.g. at 12 weeks after randomization), and this is reported by the trial, then there would not be an issue of selection even if this result was reported (on the basis of the results) in preference to the result from an analysis of changes from baseline.
Answer ‘Yes’ or ‘Probably yes’ if: There is clear evidence (usually through examination of a trial protocol or statistical analysis plan) that a measurement was analysed in multiple eligible ways, but data for only one or a subset of analyses is fully reported (without justification), and the fully reported result is likely to have been selected on the basis of the results. Selection on the basis of the results arises from a desire for findings to be newsworthy, sufficiently noteworthy to merit publication, or to confirm a prior hypothesis. For example, trialists who have a preconception or vested interest in showing that an experimental intervention is beneficial may be inclined to selectively report analyses that are favourable to the experimental intervention. Answer ‘No’ or ‘Probably no’ if: There is clear evidence (usually through examination of a trial protocol or statistical analysis plan) that all eligible reported results for the outcome measurement correspond to all intended analyses. OR There is only one possible way in which the outcome measurement can be analysed (hence there is no opportunity to select from multiple analyses). OR Analyses are inconsistent across different reports on the same trial, but the trialists have provided the reason for the inconsistency and it is not related to the nature of the results. Answer ‘No information’ if: Analysis intentions are not available, or the analysis intentions are not reported in sufficient detail to enable an assessment, and there is more than one way in which the outcome measurement could have been analysed. |
Y/PY/PN/N/NI |
Risk-of-bias judgement | Low/High/Some concerns | |
Optional: What is the predicted direction of bias due to selection of the reported result?
|
If the likely direction of bias can be predicted, it is helpful to state this. The direction might be characterized either as being towards (or away from) the null, or as being in favour of one of the interventions.
|
Not applicable Favours experimental Favours comparator Towards null Away from null Unpredictable |
Fonte: adaptado de Sterne et al.8
Quadro 13. Julgamento do risco de viés decorrente do relato seletivo do desfecho (mantido na versão original)
Low risk of bias | The data were analysed in accordance with a pre-specified plan that was finalised before unblinded outcome data were available for analysis
AND The result being assessed is unlikely to have been selected, on the basis of the results, from multiple eligible outcome measurements (e.g. scales, definitions, time points) within the outcome domain AND Reported outcome data are unlikely to have been selected, on the basis of the results, from multiple eligible analyses of the data |
Some concerns | The data were not analysed in accordance with a pre-specified plan that was finalised before unblinded outcome data were available for analysis
AND The result being assessed is unlikely to have been selected, on the basis of the results, from multiple eligible outcome measurements (e.g. scales, definitions, time points) within the outcome domain AND The result being assessed is unlikely to have been selected, on the basis of the results, from multiple eligible analyses of the data OR There is no information on whether the result being assessed is likely to have been selected, on the basis of the results, from multiple eligible outcome measurements (e.g. scales, definitions, time points) within the outcome domain AND from multiple eligible analyses of the data |
High risk of bias | The result being assessed is likely to have been selected, on the basis of the results, from multiple eligible outcome measurements (e.g. scales, definitions, time points) within the outcome domain
OR The result being assessed is likely to have been selected, on the basis of the results, from multiple eligible analyses of the data |
Fonte: adaptado de Sterne et al.8
Figura 7. Algoritmo empregado para o julgamento do risco de viés decorrente do relato seletivo do desfecho (mantido na versão original)
Fonte: adaptado de Sterne et al.8
3. Apresentação dos resultados
Os resultados da análise do risco de viés com a ferramenta RoB 2.0 podem ser apresentados por meio de gráfico de “semáforo” ou gráfico do tipo “barras ponderadas” (Figura 8 A e B).
Um passo a passo para elaboração das figuras usando o software RevMan 5.413 ou a ferramenta online robvis (risk of bias visualization tool)14 podem ser encontrados no Capítulo 15. Sendo possível também gerá-las utilizando a planilha Excel com macros disponibilizada em https://www.riskofbias.info/welcome/rob-2-0-tool/current-version-of-rob-2.
Figura 8. Apresentação dos resultados da análise do risco de viés em gráfico do tipo “barras ponderadas” (A) com julgamentos de risco de viés para cada domínio do RoB 2.0; e gráfico do tipo “semáforo” (B) com resultados individuais para cada domínio dos estudos incluídos.
(A)
(B)
Fonte: elaborada pelos autores a partir do software RevMan 5.4.13
Referências
- Boutron I, Page MJ, Higgins JPT, Altman DG, Lundh A, Hróbjartsson A. Considering bias and conflicts of interest among the included studies. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, et al. editors. Cochrane Handbook for Systematic Reviews of Interventions [Internet]. Version 6.2. London: Cochrane, 2021. [cited 2021 Jul 29]. Chapter 7. Available from: https://training.cochrane.org/handbook/current/chapter-07
- Schulz KF, Altman DG, Moher D; CONSORT Group. CONSORT 2010 statement: updated guidelines for reporting parallel group randomised trials. BMJ [Internet]. ○ Mar [cited 2021 Jul 31];(340):c332. Available from: https://doi.org/10.1136/bmj.c332
- Hartling L, Hamm MP, Milne A, Vandermeer B, Santaguida PL, Ansari M, et al. Testing the risk of bias tool showed low reliability between individual reviewers and across consensus assessments of reviewer pairs. J Clin Epidemiol [Internet]. 2013 Sep [cited 2021 Aug 02];66(9):973-81. Available from: https://doi.org/10.1016/j.jclinepi.2012.07.005
- Savovic J, Weeks L, Sterne JAC, Turner L, Altman DG, Moher D, et al. Evaluation of the Cochrane Collaboration’s tool for assessing the risk of bias in randomized trials: focus groups, online survey, proposed recommendations and their implementation. Syst Rev [Internet]. 2014 Apr [cited 2021 Aug 02];15(3):37. Available from: https://doi.org/10.1186/2046-4053-3-37
- Jorgensen L, Paludan-Müller AS, Laursen DRT, Savovic J, Boutron I, Sterne JAC, et al. Evaluation of the Cochrane tool for assessing risk of bias in randomized clinical trials: overview of published comments and analysis of user practice in Cochrane and non-Cochrane reviews. Syst Rev [Internet]. 2016 May [cited 2021 Aug 02];10(5):80. Available from: https://doi.org/10.1186/s13643-016-0259-8
- Higgins JPT, Savović J, Page MJ, Elbers RG, Sterne JAC. Assessing risk of bias in a randomized trial. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA editors. Cochrane Handbook for Systematic Reviews of Interventions [Internet]. Version 6.2. London: Cochrane; 2021. [cited 2021 Jul 31]. Chapter 8. Available from: http://www.training.cochrane.org/handbook.
- Hernán MA, Robins JM. Per-Protocol Analyses of Pragmatic Trials. N Engl J Med [Internet]. 2017 Oct [cited 2021 Aug 06];377(14):1391-1398. Available from: https://doi.org/10.1056/nejmsm1605385
- Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ [Internet]. 2019 Aug [cited 2021 Aug 02];366:l4898. Available from: http://dx.doi.org/10.1136/bmj.l4898
- Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA [Internet]. 1995 Feb [cited 2021 Aug 06];273(5):408-12. DOI: 10.1001/jama.1995.03520290060030
- Page MJ, Higgins J, Sambunjak D, Cumpston M, Watts C. Introduction to study quality and risk of bias. In: Cochrane Interactive Learning: Conducting an intervention review [Internet]. [London]: Cochrane; 2017. [cited 2021 Aug 05]. Module 5. Available from https://training.cochrane.org/interactivelearning/module-5-introduction-study-quality-and-risk-bias.
- Hróbjartsson A, Thomsen AS, Emanuelsson F, Tendal B, Hilden J, Boutron I, et al. Observer bias in randomized clinical trials with binary outcomes: systematic review of trials with both blinded and non-blinded outcome. BMJ [Internet]. 2012 Feb [cited 2021 Aug 02];(344):e1119. Available from: https://doi.org/10.1136/bmj.e1119
- Savovic J, Jones HE, Altman DG, Harris RJ, Jüni P, Pildal J, et al. Influence of reported study design characteristics on intervention effect estimates from randomized, controlled trials. Ann Intern Med [Internet]. 2012 Sep [cited 2021 Aug 02];157(6):429-38. Available from: https://doi.org/10.7326/0003-4819-157-6-201209180-00537
- RevMan (Review Manager). Version 5.4 [Software]. The Cochrane Collaboration. 2020 [cited 2021 Aug 04]. Available from: https://training.cochrane.org/online-learning/core-software-cochrane-reviews/revman
- McGuinness, LA, Higgins, JPT. Risk-of-bias VISualization (robvis): An R package and Shiny web app for visualizing risk-of-bias assessments. Res Syn Meth [Internet]. 2021 Jan [cited 2021 Aug 04]; 1-7. Available from: https://doi.org/10.1002/jrsm.1411.