RESUMO
INTRODUÇÃO: A recente explosão de tecnologias com resolução celular e a expectativa de sua aplicação
clínica na próxima década tornou a análise de dados com muitas dimensões um desafio central
para as ciências da vida e a medicina de precisão. Para interpretar e visualizar tais resultados,
é necessário utilizar redução dimensional, de maneira a extrair as informações relevantes de
grandes corpos de dados e representá-las graficamente. Em termos teóricos, tal tarefa tem
uma associação direta com o conceito de identidade celular e com o cenário epigenético de
Waddington, tornando a inferência de trajetórias de diferenciação algo intuitivo e natural.
Atualmente, empregam-se modelos que assumem diversas características sobre esse cenário,
o que pode enviesar resultados e levar a conclusões precipitadas. Para se recuperar o máximo
possível de informação biológica, é necessário utilizar algoritmos que não assumem
características sobre a estrutura geometrica dos dados, de maneira a definir matematicamente
o conceito de tipo celular.
OBJETIVOS: Descrever geometricamente o conceito de tipo celular, e usar suas propriedades topológicas
para desenvolver uma nova geração de ferramentas de inteligência artificial para o estudo de
sistemas biológicos e doenças humanas
MÉTODOS: Modelamos as múltiplas linhagens celulares distintas que possam coexistir em uma mesma
amostra como um cenário epigenético de Waddington expandido. Mostramos como
geometricamente tal cenário pode ser perfeitamente descrito pelo Operador de Laplace
Beltrami (OLB), que por construção recupera todas as informações topologicas de um conjunto
de dados quaisquer. O OLB assume apenas que há amostras o bastante para se utilizar cálculo
diferencial. Utilizamos a linguagem python de programação para desenvolver TopOMetry, uma
ferramenta modular e flexível que emprega diversos algoritmos que aproximam o OLB. O
método foi validado em dados públicos e anonimizados de sequenciamento de RNA
mensageiro de células únicas (single-cell RNA-seq) de células circulantes no sangue e líquido
cerebroespinhal de doadores humanos saudáveis, com dengue, lupus eritematoso sistêmico e
esclerose múltipla. Foram usados apenas dados publicamente disponíveis e associados a
comitês de ética em pesquisa.
RESULTADOS: Estabelecemos um conceito geométrico de identidade celular baseado em informação
epigenética sobre cada célula. Para explorá-lo, oferecemos uma ferramenta amigável, gratuita
e universal para a análise de dados com resolução celular, que além deste propósito primário,
também pode ser utilizada de modo geral para a análise de dados com muitas dimensões,
como textos, imagens e grafos. Paralelamente, apresentamos uma diversidade nunca antes
vista de linfócitos T CD4 na circulação humana em indivíduos saudáveis e em pacientes com
dengue, lupus eritematoso sistêmico e esclerose múltipla. Esta diversidade também pôde ser
encontrada no líquido cefalorraquidiano de doadores saudáveis e com esclerose múltipla.
Também demonstramos a conexão natural de nosso modelo com o ciclo celular utilizando
dados de medula óssea humana, e com o processo de diferenciação celular utilizando dados
da embriogênese do camundongo, descobrindo cerca de 380 novas linhagens celulares.
CONCLUSÃO: Fornecemos uma sólida base teórica e computacional para a descrição detalhada da
diversidade celular em sistemas biológicos, para isto definindo geometricamente tipos e
linhagens celulares. Com isto, foi possível descobrir mais de cem novos tipos de linfócitos T
CD4 que se mantiveram ocultos até então, e definir que populações celulares previamente
consideradas canônicas na verdade correspondem apenas a distorções lineares nos dados.
Assim, os resultados obtidos com os padrões atuais devem ser cuidadosamente revisitados,
assim como significativa parte da literatura envolvendo linfócitos T CD4 ou processos de
diferenciação celular.
BIBLIOGRAFIA: Sidarta-Oliveira, Davi, and Licio A. Velloso. 2022. “A Comprehensive Dimensional Reduction
Framework to Learn Single-Cell Phenotypic Topology Uncovers T Cell Diversity.” bioRxiv.
https://doi.org/10.1101/2022.03.14.484134.
Nehar-Belaid, Djamel, Seunghee Hong, Radu Marches, Guo Chen, Mohan Bolisetty, Jeanine
Baisch, Lynnette Walters, et al. 2020. “Mapping Systemic Lupus Erythematosus Heterogeneity
at the Single-Cell Level.” Nature Immunology 21 (9): 1094–1106.
https://doi.org/10.1038/s41590-020-0743-0.
Waickman, Adam T., Heather Friberg, Gregory D. Gromowski, Wiriya Rutvisuttinunt, Tao Li,
Hayden Siegfried, Kaitlin Victor, et al. 2021. “Temporally Integrated Single Cell RNA Sequencing
Analysis of PBMC from Experimental and Natural Primary Human DENV-1 Infections.” PLOS
Pathogens 17 (1): e1009240. https://doi.org/10.1371/journal.ppat.1009240.
Schafflick, David, Chenling A. Xu, Maike Hartlehnert, Michael Cole, Andreas
Schulte-Mecklenbeck, Tobias Lautwein, Jolien Wolbert, et al. 2020. “Integrated Single Cell
Analysis of Blood and Cerebrospinal Fluid Leukocytes in Multiple Sclerosis.” Nature
Communications 11 (1): 247. https://doi.org/10.1038/s41467-019-14118-w.
PALAVRA-CHAVE: linfócitos T CD4,