Big Data e o uso de dados analíticos na saúde

Blog Big Data na saúde

A definição de Big Data não é tão simples, pois se trata de um conjunto de dados complexos e provenientes de diferentes fontes. São dados gerados em grande volume e velocidade, com a finalidade de estruturar e facilitar a sua interpretação, de forma que possa gerar informações estratégicas para tomada de decisões. Na área da saúde, o Big Data pode ser utilizado no rastreamento de doenças. As bases de pesquisas disponíveis podem ser baseadas em dados de hospitalizações, testes realizados em farmácias, clínicas e unidades de saúde. Baseado nisso, realizei a aplicação no Gemed, com o objetivo de analisar os dados e identificar as principais estatísticas mais relevantes sobre os casos, tratamentos e protocolos quimioterápicos.

O termo Big Data é novo, mas o uso de informações para tomadas de decisões estratégicas, já vem sendo valorizado por grandes corporações nas décadas de 60 e 70. A partir dos anos 90 com a surgimento da internet, se viu uma rápida mudança no comportamento da sociedade, com o número cada vez maior de usuários conectados, a demanda por conteúdos digitais foi se popularizando, como blogs, websites e principalmente no surgimento de rede sociais. Foi nesse momento que os usuários passaram a ser não apenas consumidores de informações, mas também começaram a fornecer.

No entanto, foi nos últimos anos que o Big Data vem se tornando uma ferramenta importante para obtenção de insights valiosos, para as empresas, instituições de pesquisas e setores governamentais. Esse avanço do Big Data se deve a quantidade de dados gerados que vem aumentando exponencialmente. 

Base de dados disponíveis

Não é possível precisar a quantidade de informações que são geradas diariamente, devido a conectividade global que hoje se aproxima de 5 bilhões ou 64% da população mundial conectada a internet. Pessoas que a todo momento geram postagens nas redes sociais, transações financeiras, e-mails, pesquisas na web e streamings de vídeos, nessa listagem podemos incluir também, acesso a GPS, aplicativos de mensagens e cookies de sites, toda essa informação chega a gerar em torno de 5,4 zettabytes de dados na internet (Fonte: Serpro).

Dados esses que estão disponíveis para serem mineradas e transformadas em planos estratégicos. Apenas no Brasil, estima-se que 80% da população são usuários ativos nas redes sociais, somente no ano de 2021 até 2022 teve um aumento de 14% de novos usuários.

 Todos esses dados, não necessariamente são analisados pelas empresas, muitas dessas informações veem em formatos não estruturados, como imagens e áudios, informações que chegam a 90% dos dados coletados, outros 10% são informações que já vem em moldes estruturados, mas mesmo nesse formato, os dados precisam ser trabalhados, tornando o resultado da análise relevante para uso estratégico da empresa.

Os pilares do Big Data

O trabalho de um cientista de dados requer que as informações coletadas sigam alguns aspectos como velocidade, variedade, volume, veracidade e valor.

  • Volume: Define a quantidade de dados que serão processados, pois o Big Data não está relacionado a dados individuais, nesse âmbito quantidade importa, quanto maior o volume, maior é a relevância na tomada de decisões.
  • Velocidade: Com a alto volume de dados, é necessário que eles sejam coletados, organizados e estruturados de forma que se possa analisá-los em tempo de que as suas informações fiquem obsoletas.
  • Variedade: A variedade de informações que chegam das diversas fontes, como áudio, vídeo e imagens, a análise desses dados estruturados, não estruturados e semiestruturados. Que demanda de um pré-processamento adicional do cientista de dados, que em muitos casos lhe custa em torno de 80% do seu tempo.
  • Valor: Os dados coletados em si só, podem não ter relevância até que o analisador defina o propósito da análise, a partir dessa abordagem os dados serão filtrados de forma que o resultado seja útil, para os objetivos da empresa.
  • Veracidade: Ao analisar os dados é preciso definir a fonte de coleta e o tempo em que foi coletado para que se possa definir se as informações são verídicas, dados antigos, podem ser considerados desatualizados, comprometendo a análise.

Na saúde

Na saúde pública o Big Data desempenha um papel importante na análise de dados regionais, a fim de rastrear surtos de doenças contagiosas como a gripe e a recente COVID-19, com base na análise de registros de ocorrências, internações e os testes realizados em farmácias, clínicas particulares e as unidades de saúde. A partir da análise dessas informações os órgãos públicos conseguem direcionar investimentos para realizar ações de contenção e campanhas de prevenção e principalmente controle de imunização.

Muitos hospitais, clínicas e demais setores da saúde pública, já disponibilizam o prontuário eletrônico para armazenar informações de seus pacientes, gerando uma base de dados valiosa para pesquisas, pois nela constam os históricos médico de pacientes, exames realizados, diagnósticos e os tratamentos oferecidos. Através do Big Data é possível analisar esses dados e identificar padrões de diagnósticos e ou de tratamentos realizados.

Prontuário Eletrônico

O prontuário eletrônico é um documento que contém o histórico detalhado do paciente que são mantidos por diversos profissionais da saúde, dentre ele médicos, enfermeiros e outros profissionais.

O prontuário se torna uma ferramenta valiosíssima para o Big Data, pois ele acompanha o paciente desde o registro do seu diagnóstico e a evolução do paciente durante todo o tratamento. Registros esse que contém o histórico médico, atual e anterior a doença, medicamentos administrados atual e anterior a doença, resultados de exames, anotações clínicas, anotações da enfermagem e demais profissionais da saúde, evoluções do tratamento e os dados pessoais do paciente.

Apesar desses dados serem cruciais para poder gerar uma pesquisa que possa vir a auxiliar no tratamento e no cuidado do paciente. Os prontuários são tratados como dados sensíveis e são protegidos por lei, para garantir a privacidade do paciente, o uso compartilhado do prontuário entre os profissionais da saúde seguem as mesmas diretrizes da LGPD, como o consentimento prévio do paciente e o uso apenas das informações que vão auxiliar na continuidade do tratamento, auxiliando na tomada de decisões com base no histórico do prontuário.

Das análises realizadas no PEP

Mediante o resultado das análises fornecidos pelo prontuário eletrônico, o médico pode tomar decisões mais precisas ao recomendar um tratamento com base em informações analisadas pelo Big Data dos dados clínicos de outros pacientes, com essas informações os médicos podem personalizar o tratamento dos seus pacientes, escolhendo terapias mais eficazes e evitando tratamentos ineficazes que geram efeitos colaterais.

Quanto maior o volume de dados analisados pelo Big Data, mais seguro são as análises realizadas, através dos padrões identificados nos dados. Através desses padrões é possível se antecipar nos tratamentos de doenças, realizando intervenções precoces, tratamentos preventivos e até prevenir que um médico possa recomendar um tratamento que não se enquadre no diagnóstico da doença.

Aplicando a metodologia de pesquisa

Seguindo o conceito da análise do Big Data, realizamos uma coleta de dados do sistema Gemed Onco, visando uma análise da doença com a maior amostragem de resultado e o seu tratamento.

Para essa análise, foi utilizado um script de consulta que gerasse uma listagem com informações de diferentes bases de dados, do sistema Gemed Onco. Os dados extraídos foram anonimizados, respeitando a legislação vigente da LGPD.

Os dados que foram utilizados nesse artigo passaram por um processo em que as informações pessoais que possam vir a identificar um indivíduo, seguindo os princípios éticos, foram descartadas da coleta por não serem necessário no resultado da pesquisa. Dessa forma protegendo a privacidade das pessoas e reduzindo o risco de divulgação de informações sensíveis.

Filtrando as informações geradas

O resultado da pesquisa gerou uma listagem contendo 822.266 registros. A partir dessas informações demos início a nossa análise. Foi utilizado o maior percentual de cada resultado da pesquisa como sendo o mais relevante na amostragem, assim podemos dar seguimento nas análises, descartando as informações menos relevantes.

Nessa abordagem, utilizamos o gênero do paciente, segue na figura 01 o fluxo utilizado na pesquisa.

Fluxo de metodologia da pesquisa aplicada

O resultado preliminar com base no diagrama da figura 1, seguindo os parâmetros da pesquisa, através da aplicação do Big Data no Gemed Onco, foi baseado baseado no gênero feminino, que teve a maior amostragem:

  1. Resultado da faixa etária com maior amostragem foi acima dos 60 anos;
  2. CID C50 – Neoplasia de mama não especificada;
  3. Em 2023 constam 624 casos com o CID C50 em tratamento;
  4. O protocolo com maior amostragem foi Paclitaxel;
  5. O princípio ativo com maior amostragem foi o Ciclofosfamida.

Resultados da pesquisa

Na primeira análise listamos todos os pacientes da base de dados agrupando pelo gênero. Destaque para o sexo feminino que o dobrou o número de pacientes do sexo masculino, em um total de 568.200 registros. Já ao analisar a faixa etária dos pacientes, o destaque observado foi que, independente do gênero a faixa etária que se destaca são os pacientes acima de 60 anos.

Resultado de análise realizada através de dados do sexo biológico e faixa etária

CID C50 – Neoplasia maligna da mama

No gráfico 3, com base na maior amostragem, a análise seguiu filtrando os dados do sexo feminino com idade superior aos 60 anos. Nessa nova fase, realizamos uma filtragem pelo CID, para que possamos identificar qual doença que atinge o maior número de mulheres atualmente em tratamento, pela faixa etária com maior amostragem.

Resultado dos CIDs com maior incidência durante a pesquisa

Com base nos dados coletados, destaque para o Cid C50.9, que representa o câncer de mama, corresponde a 58% dos pacientes.

Nessa análise, incluímos não apenas o CID C50.9, devido no gráfico 3 o CID da mesma categoria C50 ter tido uma amostragem significativa entre os dados coletados.  

Verificamos que até o terceiro trimestre do ano de 2023, tivemos uma redução de pacientes em tratamento, comparando o mesmo período nos anos anteriores de 2021 e 2022.

Com base na redução de pacientes em tratamento nesse ano de 2023, realizamos uma nova análise, dessa vez considerando o tipo de tratamento que foi realizado por esses pacientes, analisando os10 protocolos quimioterápicos mais utilizados na base de dados que foi criada seguindo os conceitos do Big Data, destaque para o protocolo que consta na sua descrição o princípio ativo trastuzumabe.

Protocolo e princípio ativo quimioterápico com maior amostragem

Na análise realizada nos gráficos 4 e 5, temos que considerar que um protocolo quimioterápico é um plano de tratamento que consiste em vários medicamentos. Em um protocolo quimioterápico, além dos medicamentos que serão aplicados, constam também o tempo de aplicação, a frequência que será realizado e por quanto tempo será o tratamento.

Resultado da análise por protocolo quimioterápico e princípio ativo

Com base nesse conceito de protocolo quimioterápico, temos que considerar que um mesmo paciente pode ter em seu prontuário médico um ou vários protocolos quimioterápicos, isso vai depender da evolução do tratamento da doença.

Por esse motivo, realizamos uma análise dos princípios ativos que foram prescritos independente do protocolo que foi utilizado, nesse caso o destaque é para a Dexametasona com 13% na amostragem, no entanto os demais medicamentos listados, mantem um percentual muito próximo que ficou entre 9% e 12% de utilização.

Conclusão

A análise realizada nesse artigo foi uma pequena demonstração do real potencial que o Big Data vem desempenhando na área da saúde, melhorando a qualidade no atendimento, implementando soluções para melhorar a eficiência dos processos clínicos, criando padrões que possam auxiliar ou até mesmo prever tratamentos mais eficazes, com base nas informações dos prontuários médicos.

O grande desafio que o Big Data ainda encontra é a garantia de privacidade das informações dos pacientes, devido as ocorrências de fraudes e tentativas de extorsões devido a negligencia na segurança e no tratamento dos dados que possam identificar o indivíduo.

Nesse âmbito, cabe as organizações de saúde cumprirem rigorosamente as regulamentações prevista na LGPD para proteger a privacidade e a segurança dos dados dos pacientes. Criando ações junto aos seus colaboradores, a fim de garantir que o Big Data seja usado de maneira ética e eficaz, tais como, garantir que a interpretação e aplicação adequadas dos dados extraídos, sejam apenas para benefício do indivíduo, pesquisas ou campanhas de prevenção a doenças.