Logo Big Data PP

Bem-vindo ao
Big Data Pequeno Príncipe

Big Data em bioinformática e georreferenciamento

Nossos cinco grupos de Big Data do Instituto de Pesquisa Pelé Pequeno Príncipe se dedicam a explorar a interseção de Big Data em dois campos fascinantes: na bioinformática e no georreferenciamento.

Nesta era digital, os dados se tornaram um ativo inestimável para pesquisadores nos campos da biologia e da medicina e nas indústrias. Os pesquisadores se beneficiaram com o crescimento de conjuntos de dados em bases de genes desde a publicação do Projeto Genoma Humano, em 2001, e exploraram as aplicações potenciais de conjuntos de dados de georreferenciamento para enfrentar desafios epidemiológicos em saúde pública. Para isso, são usadas bases de dados semelhantes, como as dos Centers for Disease Control and Prevention (CDC, na abreviação em inglês) e do Surveillance, Epidemiology, and End Results (SEER) Program, do National Cancer Institute, dos Estados Unidos.

Nosso objetivo em projetos de Big Data é preparar ou usar processos e ferramentas disponíveis para extrair dados que permitam aos pesquisadores entenderem os mecanismos das doenças pediátricas e como elas se espalham por diferentes regiões.

Este projeto conta com o apoio da Fundação Behring. Nossa gratidão por essa importante parceria!

Dr Bonald

Bonald Cavalcante de Figueiredo

Diretor-científico do Instituto de
Pesquisa Pelé Pequeno Príncipe
Dr Bonald

Quem somos

O Instituto de Pesquisa Pelé Pequeno Príncipe (IPP) faz parte do Complexo Pequeno Príncipe, que inclui o Hospital Pequeno Príncipe, o maior e mais completo hospital pediátrico do Brasil, e a Faculdades Pequeno Príncipe, instituição de ensino especializada na formação em saúde. As sedes das unidades do Complexo estão situadas em Curitiba (PR).

Ao longo dos anos, o Instituto de Pesquisa vem trabalhando para melhorar o diagnóstico precoce e diferencial, auxiliando no tratamento, indicando os riscos de recorrência de determinadas doenças e aumentando as probabilidades de cura para crianças e adolescentes.

Outra grande contribuição do Instituto é a formação de profissionais, por meio do Programa de Mestrado e Doutorado em Biotecnologia Aplicada à Saúde da Criança e do Adolescente, desenvolvido em parceria com a Faculdades Pequeno Príncipe. Desde sua implantação, o programa formou 180 mestres e doutores.

Atualmente, o Instituto de Pesquisa conta com 14 pesquisadores principais, com mais de 80 projetos de pesquisa em andamento. Nos últimos quatro anos, o Instituto contribuiu com mais de 320 artigos científicos publicados.

A consolidação de uma unidade exclusiva voltada para a pesquisa ganhou força com a aproximação com o rei Pelé. O Instituto de Pesquisa Pelé Pequeno Príncipe é o único projeto social do mundo formalmente apoiado por Edson Arantes do Nascimento. Pelé emprestou seu nome ao Instituto porque acreditava na capacidade do Complexo de transformar a vida de crianças e adolescentes.

O que é Big Data?

Big Data é um ambiente de produção, colaboração e compartilhamento de dados voltados para a pesquisa científica. E é muito importante quando se refere a projetos de pesquisa relacionados à bioinformática e georreferenciamento. Em um cenário ideal, cada especialidade deveria ter o seu próprio banco de dados, específico para as doenças relacionadas a ela.

O Big Data também é uma rede de ensino e treinamento, que está conectada com um dos focos de trabalho do Pequeno Príncipe. A instituição se dedica à assistência em saúde, ao ensino e à pesquisa.

À medida que o campo da bioinformática continua a evoluir, a importância do Big Data se torna cada vez mais aparente. A enorme quantidade de informações genéticas disponíveis em bases de dados genômicos apresenta tanto oportunidades quanto desafios. Ao alavancar técnicas avançadas de análise de dados, os pesquisadores podem extrair informações valiosas desses vastos conjuntos de dados, descobrindo padrões, identificando variações genéticas associadas a doenças, acelerando processos de descoberta de medicamentos e melhorando os métodos de tratamento.

Algoritmos de aprendizado de máquina (machine learning), por exemplo, podem ser treinados em grandes conjuntos de dados genômicos para desenvolver modelos preditivos para diagnóstico e prognóstico de doenças. A integração de vários conjuntos de dados de diversas fontes permite que os pesquisadores realizem análises abrangentes e gerem redes biológicas detalhadas, lançando luz sobre processos e interações biológicas complexas.

History
Marcos na pesquisa genética e genômicaFonte: Nature (figure adapted based on the original). Collins, F., Green, E., Guttmacher, A. et al. A vision for the future of genomics research. Nature 422, 835–847 (2003).

De 2001 a 2024, o volume de dados aumentou exponencialmente.

DNAFonte: Nature (imagem de uso gratuito). Eisenstein, M. Big data: The power of petabytes. Nature, 527, S2–S4 (2015)

Com o tempo, novos scripts de computação surgiram. Os bancos de dados mais comumente usados são principalmente dos Estados Unidos e de alguns países europeus. O gráfico a seguir mostra o crescimento exponencial do volume de dados.

icone

Big Data in GeneBank

DNAFonte: National Library of Medicine.

Nosso objetivo e metodologia

A bioinformática é um campo multidisciplinar que combina biologia, ciência da computação e estatística, e evoluiu rapidamente devido ao crescimento exponencial dos dados genômicos. A conclusão do Projeto Genoma Humano representa um marco importante, pois forneceu aos pesquisadores uma sequência de referência de todo o genoma humano, com um crescimento de dados previsto para duplicar a cada 7–12 meses (Nature, volume 527, 2015). Desde 2001, surgiram várias bases de dados genômicos, servindo como recursos valiosos para a compreensão de variações genéticas, mecanismos de doenças e alvos de medicamentos.

Essa conquista monumental do Projeto Genoma Humano forneceu aos cientistas um extenso plano do código genético humano, oferecendo visões sem precedentes sobre a biologia e as doenças humanas. Desde então, a pesquisa genômica testemunhou um crescimento exponencial, levando à criação de várias bases de dados genômicos que abrigam grandes quantidades de informações genéticas.

Essas bases de dados genômicos — como o GenBank, do National Center for Biotechnology Information (NCBI), dos Estados Unidos, e o European Bioinformatics Institute (EBI) — tornaram-se recursos essenciais para pesquisadores em todo o mundo. Essas bases de dados permitem que os cientistas armazenem, analisem e compartilhem dados genômicos, facilitando descobertas e avanços inovadores em campos como a medicina personalizada, o aconselhamento genético e a biologia evolutiva.

A importância do uso do georreferenciamento

O georreferenciamento permite que os pesquisadores combinem dados de saúde e do meio ambiente com coordenadas geográficas para indicar a localização em mapas. Nos campos da epidemiologia e da saúde, o georreferenciamento desempenha um papel crucial na análise dos padrões espaciais da doença, na identificação de áreas de alto risco e na realização de intervenções eficazes.

Usando dados epidemiológicos georreferenciados, os pesquisadores podem visualizar a distribuição espacial das taxas de doenças e dos fatores de risco em mapas. Ao aplicar métodos estatísticos e de inteligência artificial aos dados georreferenciados, os pesquisadores podem identificar agrupamentos geográficos e possíveis fatores ambientais que contribuem para surtos de doenças. Esse recurso capacita os colaboradores de saúde pública a desenvolverem estratégias direcionadas, alocarem recursos de forma eficiente e implementarem intervenções oportunas para mitigar a propagação de doenças.

Objetivos

Os objetivos do Instituto de Pesquisa Pelé Pequeno Príncipe no uso de Big Data são:

  • apresentar aos alunos conceitos, práticas, métodos e tecnologias emergen-tes nas áreas da bioinformática, georreferenciamento e biologia computa-cional. Essas atividades contam com a colaboração do professor Mauro Castro, da Universidade Federal do Paraná;
  • desenvolver ou utilizar os processos e ferramentas disponíveis para extrair da-dos que permitam aos pesquisadores entender os mecanismos das doenças pe-diátricas e como elas se espalham por diferentes regiões;
  • contribuir, por meio de estudos científicos, para o desenvolvimento de novos métodos de diagnóstico e tratamento, bem como para a descoberta de no-vos medicamentos;
  • proporcionar, com os resultados de projetos de pesquisa, mais saúde e quali-dade de vida para crianças e adolescentes não somente do Brasil, mas de todo o mundo.

Tecnologias

Diversas ferramentas são utilizadas no desenvolvimento de pesquisas científicas envolvendo Big Data. Por exemplo:

  • linguagens de programação na análise de dados biológicos;
  • algoritmos e fluxos de análise aplicados a problemas biológicos;
  • geração, análise e tratamento on-line de dados biológicos;
  • aplicação de métodos computacionais na investigação de sistemas biológicos;
  • sistemas de georreferenciamento; e
  • bases de dados genômicos e transcriptômicos (relacionados ao RNA).

Os pesquisadores do Instituto de Pesquisa Pelé Pequeno Príncipe desenvolvem seus próprios bancos de dados, além de acessarem dados de diversas plataformas, incluindo bancos de dados gratuitos gerenciados por outras instituições e aqueles desenvolvidos em centros de pesquisa. As bases de dados genômicas e transcriptômicas mais utilizadas no Instituto de Pesquisa Pelé Pequeno Príncipe são: The Cancer Genome Atlas (TCGA)*, St. Jude Cloud (banco de dados do St. Jude Children’s Research Hospital) e as bases de dados próprias do Instituto de Pesquisa (WES e WGS). *O Atlas do Genoma do Câncer (TCGA) é um grande projeto que visa a catalogar conjuntos de dados sobre mutações e RNA-Seq do câncer por meio do sequenciamento do genoma e da bioinformática.

Parcerias

Os cinco grupos independentes de Big Data do Instituto de Pesquisa Pelé Pequeno Príncipe compartilham objetivos semelhantes aplicados a diferentes áreas da biologia, da medicina e da epidemiologia espacial. Isso para explorar conjuntos de dados gerados por pesquisas desenvolvidas no próprio Instituto ou de autores de outros países.

O Instituto de Pesquisa mantém importantes parcerias no desenvolvimento de estudos científicos relacionados ao Big Data, todas elas de renome nacional e internacional. Entre as instituições parceiras estão:

  • Fundação Behring;
  • Hospital Pequeno Príncipe;
  • Faculdades Pequeno Príncipe;
  • Universidade Federal do Paraná (UFPR);
  • Institut de Pharmacologie Moléculaire et Cellulaire (IPMC), da França;
  • Thales Group, da França;
  • St. Jude Children’s Research Hospital, dos Estados Unidos;
  • Universidade Federal de São Paulo (Unifesp);
  • U.S. Food and Drug Administration (FDA);
  • U.S. National Institutes of Health (NIH);
  • Georgetown University Medical Center, EUA;
  • COVID Human Genetic Effort, uma iniciativa global;
  • Companhia de Saneamento do Paraná (Sanepar);
  • Fundação Oswaldo Cruz (Fiocruz).

Rede de conexões

Atualmente, o Instituto de Pesquisa Pelé Pequeno Príncipe conta com cinco importantes parcerias.

Connections

O futuro do Big Data

Com o passar do tempo, a complexidade do Big Data tem aumentado, tanto em termos de velocidade quanto de variabilidade das informações, que tem crescido exponencialmente.

Com tantas informações disponíveis, a importância do Big Data se destaca, pois ele é usado para armazenar dados, e as pessoas podem aprender a interpretá-los e aplicá-los. Por exemplo, os dados podem ajudar os cientistas a entender onde e como uma doença surgiu. Isso pode ser possível por meio do sequenciamento de genes. O resultado contribui para o diagnóstico precoce dessa doença e orienta sobre qual é o melhor tratamento para o paciente.

E qual será o futuro do Big Data? Uma coisa é certa: os volumes de dados continuarão a aumentar. De acordo com previsões de especialistas, além do crescimento do número de dados, o aprendizado de máquina (machine learning) continuará a mudar o cenário da pesquisa científica; cientistas de dados e diretores de dados (chief data officers, os CDOs) estarão em alta demanda; os dados serão processados cada vez mais rapidamente; e dados acionáveis virão à tona.

Para os próximos 25 anos, pode-se esperar um aumento exponencial de dados, maior do que a quantidade de informações que surgiram desde o lançamento do Projeto Genoma Humano, em 2003. Isso permitirá que os pesquisadores coletem dados mais rapidamente e com mais precisão.

Funil

Importância do Big Data

O Big Data tem contribuído significativamente para vários campos da ciência, como a medicina personalizada. Ele fornece informações e dados que são importantes não somente para diagnosticar uma doença, mas também para indicar, por meio desses dados, uma possível terapia para o paciente.

Nas áreas da genética e da biologia, o Big Data desempenha um papel crucial na medicina de precisão. Ele permite que pesquisadores analisem de forma rápida e precisa a composição genética de muitos indivíduos, com ou sem uma doença determinada.

Terabytes de dados (DNA, RNA e proteínas) estão disponíveis para uma referência cruzada de parâmetros específicos relacionados a cada doença. Em outras palavras, há ganhos em volume, velocidade e veracidade.

Esses avanços possibilitam o planejamento e o desenvolvimento de novas terapias, incluindo a criação de medicamentos. Os dados disponíveis são importantes para um novo desenho de terapias celulares e genéticas.

No caso específico do Instituto de Pesquisa Pelé Pequeno Príncipe, o Big Data pode ser associado a inovações relacionadas a estudos científicos de bancada em suas seis linhas de pesquisa, comprojetos voltados para o diagnóstico, prognóstico, prevenção e tratamento de doenças.

Por fim, as pesquisas científicas referentes ao Big Data apontam para a necessidade de estabelecer pequenas e grandes redes paraacelerar pesquisas mais sustentáveis, o que é um dos objetivos da unidade do Complexo Pequeno Príncipe.

Big Data simplificado

Saiba mais sobre alguns termos relacionados ao Big Data.

Com informações do Ministério da Gestão e Inovação em Serviços Públicos; da Secretaria de Governo Digital, do governo federal; da IBM; da Pontifícia Universidade Católica do Paraná (PUCPR); do National Cancer Institute, dos Estados Unidos; da National Library of Medicine, também dos EUA; e da American Medical Informatics Association (AMIA, na sigla em inglês).

Algoritmo

É um conjunto de instruções projetadas para realizar tarefas computacionais específicas, sendo um elemento essencial da programação de computadores. Os algoritmos podem ser usados para vários propósitos, como realizar cálculos ou recuperar informações em bases de dados, entre outros.

Aprendizado de máquina (machine learning)

O aprendizado de máquina é um ramo da inteligência artificial (IA) e da ciência da computação que se concentra no uso de dados e algoritmos para permitir que máquinas imitem a maneira como os humanos aprendem. Isso contribui para processos de decisão e de otimização de modelos, melhorando gradualmente sua precisão.

Atlas do Genoma do Câncer

O Atlas do Genoma do Câncer (The Cancer Genome Atlas, TCGA) é um programa de referência de genômica do câncer que caracterizou molecularmente mais de 20 mil cânceres primários e combinou amostras normais correspondentes abrangendo 33 tipos de câncer. Criado em 2006, conta com uma equipe multidisciplinar formada por pesquisadores de diversas instituições. Esse esforço conjunto entre o National Cancer Institute, dos Estados Unidos, e o National Human Genome Research Institute, dos Estados Unidos, gerou petabytes de dados genômicos, epigenômicos, transcriptômicos e proteômicos. Esses dados já contribuíram para melhorar o diagnóstico e os tratamentos e estão disponíveis para a comunidade global de pesquisa.

Big Data

Um grande volume de dados, que inclui não apenas dados estruturados (como tabelas), mas também dados semiestruturados ou não estruturados, como imagens, textos e sons. Esses dados têm o potencial de serem explorados de maneira inter-relacionada para obter informações. Considerando a complexidade e o volume de dados, requer grande poder de processamento.

Bioinformática

É um campo multidisciplinar que combina biologia, ciência da computação e estatística. A bioinformática evoluiu rapidamente devido ao crescimento exponencial dos dados genômicos. As ferramentas de bioinformática podem fornecer informações úteis para responder a algumas perguntas sobre doenças, incluindo aquelas que afetam crianças e adolescentes.

Data-driven

Conceito que significa “orientado por dados”. Data-driven pode ser definido como processos que orientam a tomada de decisões e o planejamento organizacional por meio da utilização de dados.

Data science

É uma ciência multidisciplinar que envolve técnicas computacionais, estatísticas e matemáticas. A ciência de dados visa a solucionar problemas complexos usando grandes conjuntos de dados.

Georreferenciamento

Na epidemiologia e na assistência em saúde, o georreferenciamento desempenha um papel crucial na análise dos padrões espaciais da doença, na identificação de áreas de alto risco e na implementação de intervenções eficazes. Ao usar dados epidemiológicos georreferenciados, os pesquisadores podem visualizar a distribuição espacial das taxas de doenças e os fatores de risco em mapas, bem como identificar clusters geográficos e potenciais fatores ambientais que contribuem para surtos de doenças.

Informática em saúde

A informática em saúde, também conhecida como informática médica, aplica princípios da ciência da computação e da informação buscando o avanço da pesquisa em ciências da vida, educação de profissionais de saúde, saúde pública e atendimento ao paciente. É um campo multidisciplinar que tem seu foco em tecnologias de saúde para melhorar a saúde humana e os serviços de saúde. Para colocar isso em prática, usa dados e ferramentas biomédicas envolvendo ciências computacionais, cognitivas e sociais.

Inteligência artificial (IA)

É um campo da ciência da computação que visa a desenvolver sistemas ou algoritmos capazes de realizar tarefas que normalmente requerem inteligência humana. A IA usa técnicas como aprendizado de máquina (machine learning), processamento de linguagem natural e visão computacional para adquirir conhecimento, aprender com os dados e tomar decisões autônomas. Seu objetivo é simular a capacidade de raciocínio, adaptação e resolução de problemas, contribuindo para avanços em diversas áreas, como automação, saúde e transporte.

Internet das coisas

A expressão é usada para designar avanços na conectividade e interação entre vários tipos de objetos do cotidiano que agora são equipados com sensores e comunicação com a internet. Isso cria um ambiente virtual comum e permite o controle remoto, o uso de comandos automáticos e até mesmo a integração entre eles. Essa conectividade também gera uma grande quantidade de informações no dia a dia das pessoas.

LGPD

A Lei Geral de Proteção de Dados (LGPD), Lei n.º 13.709/2018, estabelece regras sobre coleta, armazenamento, tratamento e compartilhamento de dados pessoais no Brasil, garantindo mais proteção para todas as pessoas.

Medicina translacional

A medicina translacional busca levar as descobertas científicas para a prática da saúde e retroalimentar pesquisas com base nos principais desafios que os profissionais de saúde enfrentam diariamente. Nesse sentido, proporciona diversos benefícios clínicos, como novas formas de diagnóstico e tratamento; conhecimento multidisciplinar entre áreas; maior acessibilidade aos cuidados de saúde para a comunidade; menor custo e mais eficácia dos medicamentos, o que também gera valor econômico; e suporte para o desenvolvimento de políticas públicas.

Pipeline de dados

Um pipeline de dados é um sistema no qual dados brutos de várias fontes são reunidos, transformados e transferidos para um espaço de armazenamento de dados para análise. Existem vários tipos de pipelines de dados, cada um projetado para atividades específicas, como processamento em lote e streaming de dados.

Tecnologia da informação (TI)

É um conjunto de recursos tecnológicos para obtenção, processamento e geração de informações que são disponibilizadas por meio de redes de comunicação. Por meio da aplicação de recursos de desenvolvimento de software, fornece funcionalidades ao hardware, que, integrado ao sistema de comunicações, oferece serviços à sociedade.

Os projetos do Instituto de Pesquisa Pelé Pequeno Príncipe relacionados ao Big Data contam com o apoio de parceiros, de investidores e da comunidade. Confira quem apoia os estudos científicos da unidade do Complexo Pequeno Príncipe. A todos, expressamos nossa gratidão.

Investidor

Bhring

Parceiros

LogoLogoLogoLogoLogoLogoLogoLogoLogoLogoLogoLogoLogo