Un código de barras molecular y web

Noticias

HogarHogar / Noticias / Un código de barras molecular y web

Nov 10, 2023

Un código de barras molecular y web

Volumen de biología de las comunicaciones

Biología de las comunicaciones volumen 5, Número de artículo: 1411 (2022) Citar este artículo

1834 Accesos

1 Citas

18 Altmetric

Detalles de métricas

Tradicionalmente, el historial de viaje del paciente se ha utilizado para distinguir los casos de paludismo importado de los autóctonos, pero las etapas latentes del hígado de Plasmodium vivax confunden este enfoque. Las herramientas moleculares ofrecen un método alternativo para identificar y mapear casos importados. Utilizando enfoques de aprendizaje automático que incorporan índice de fijación jerárquica y análisis de árboles de decisión aplicados a 799 genomas de P. vivax de 21 países, identificamos códigos de barras 33-SNP, 50-SNP y 55-SNP (GEO33, GEO50 y GEO55), con alta capacidad para predecir el país de origen de la infección. El coeficiente de correlación de Matthews (MCC) para un código de barras 38-SNP existente y comúnmente aplicado (BR38) excedió 0,80 en el 62 % de los países. Los paneles GEO superaron a BR38, con una mediana de MCC > 0,80 en el 90 % de los países en GEO33 y el 95 % en GEO50 y GEO55. Se estableció un marco clasificador en línea, de acceso abierto y basado en la probabilidad para respaldar el análisis de datos (vivaxGEN-geo). Los métodos de clasificación y selección de SNP se pueden modificar fácilmente para otros casos de uso para apoyar los programas de control de la malaria.

Los últimos tres Informes mundiales sobre el paludismo han revelado un aumento preocupante de los casos de paludismo y, fuera del África subsahariana, una proporción cada vez mayor de paludismo debido a Plasmodium vivax, lo que socava los esfuerzos concertados para reducir la transmisión durante la última década1. Estas tendencias resaltan la necesidad urgente de nuevas herramientas de vigilancia y la necesidad de una mayor atención a las especies de Plasmodium no falciparum. Un desafío particular para el control de la malaria son las poblaciones humanas altamente móviles, lo que lleva a la importación de aislados de Plasmodium de un país a otro (casos importados) que pueden dificultar los esfuerzos de control local y aumentar los riesgos de brotes y la propagación de la resistencia a los medicamentos antipalúdicos. Para contrarrestar este desafío, existe una necesidad crítica de desarrollar herramientas que puedan ayudar a determinar dónde los pacientes adquirieron su infección.

Distinguir entre infección local e importada es particularmente difícil para P. vivax, en vista de la capacidad del parásito para formar estadios hepáticos latentes (hipnozoítos) que pueden reactivarse semanas o meses después de la infección inicial, así como su capacidad para causar infecciones esplénicas altamente persistentes. e infecciones en etapa sanguínea circulante de baja densidad que pueden evadir el diagnóstico de rutina2,3,4. El resurgimiento de P. vivax en múltiples regiones donde alguna vez estuvo casi eliminado destaca la importancia de una vigilancia diligente5,6. En entornos de baja endemia, la proporción relativa de casos importados generalmente aumenta a medida que disminuye la incidencia, lo que enfatiza la importancia de las herramientas de vigilancia que pueden identificar los casos importados de P. vivax en estas regiones en particular5. Tradicionalmente, los casos importados han sido identificados y mapeados utilizando información sobre el historial de viajes del paciente, pero las infecciones persistentes en estadio esplénico y sanguíneo y las recaídas tardías limitan la precisión de este enfoque para P. vivax. Las herramientas moleculares para identificar y mapear los casos de P. vivax importados ofrecen un complemento atractivo a las herramientas epidemiológicas tradicionales.

La secuenciación basada en amplicones se ha convertido en un enfoque preferido para la determinación de genotipos específicos de los parásitos de la malaria7,8. Mediante el uso de plataformas de secuenciación altamente paralelas, como la última generación de secuenciadores Illumina, la secuenciación basada en amplicones se puede aplicar con un rendimiento de moderado a alto, con alta precisión y sensibilidad. Estas plataformas son flexibles, lo que permite la mejora iterativa de los códigos de barras de polimorfismo de nucleótido único (SNP), que pueden proporcionar un enfoque de genotipado asequible, susceptible de vigilancia molecular basada en la población.

Estudios previos han utilizado marcadores mitocondriales y apicoplásticos para distinguir los aislados de P. vivax importados de los locales, pero la resolución de estos genomas de orgánulos está restringida9,10,11. En 2015, se identificó un panel de 42 SNP, comúnmente denominado código de barras Broad, para facilitar la toma de huellas dactilares y la asignación geográfica de parásitos12. El código de barras 42-SNP Broad se derivó de los datos genómicos disponibles de 13 aislamientos de 7 países y se ha aplicado a varios estudios utilizando ensayos de genotipificación dirigidos12,13,14. Un estudio más reciente identificó otro código de barras SNP de P. vivax utilizando datos de 433 aislamientos de 17 países15. Este código de barras también pretendía facilitar tanto la toma de huellas dactilares como la asignación geográfica, pero no hay ensayos experimentales disponibles para este código de barras y sigue siendo una herramienta in-silico únicamente15. Además, todos los estudios de código de barras geográficos de la malaria hasta la fecha se han basado en métodos visuales como el análisis de componentes principales para evaluar el país de origen. Si bien este enfoque tiene cierta utilidad, es moderadamente subjetivo y no satisface las necesidades de los usuarios finales traslacionales, como los Programas Nacionales de Control de la Malaria (NMCP), que pueden no tener la epidemiología genética o las habilidades bioinformáticas necesarias para generar e interpretar estos gráficos.

Los objetivos principales de nuestro estudio fueron establecer un marco para identificar marcadores moleculares de P. vivax para identificar y caracterizar casos importados de P. vivax clasificando el país de origen y desarrollar una plataforma informática en línea de acceso abierto para que los usuarios finales analicen los datos. generado usando los marcadores. Nuestro objetivo es que estas nuevas herramientas moleculares e informáticas respalden la generación de evidencia que puedan utilizar tanto los investigadores como los NMCP para informar las decisiones estratégicas sobre dónde y cómo implementar las intervenciones de control de la malaria. Nuestras herramientas moleculares se adaptan principalmente a marcos de vigilancia que utilizan plataformas de secuenciación como Illumina o MinION (Oxford Nanopore Technologies), que permiten el genotipado de docenas de marcadores en paralelo. Nuestras herramientas informáticas están diseñadas para permitir a los usuarios con poca o ninguna habilidad en genética o bioinformática analizar e interpretar de forma independiente los datos de genotipado de códigos de barras generados en su país o en laboratorios de referencia regionales. Por lo tanto, las herramientas informáticas están diseñadas para acomodar muestras de malaria del mundo real, incluidas infecciones policlonales y muestras con datos incompletos como resultado de fallas en la genotipificación.

El conjunto de datos principal (Conjunto de datos 1) que se derivó utilizando las simulaciones de datos faltantes para minimizar las fallas del genotipo (Figura complementaria 1) comprendía 229 317 SNP informativos de alta calidad y 826 muestras de alta calidad. El porcentaje medio de llamadas heterocigotas en cada muestra varió de 0,02% a 0,08%. Los detalles sobre las ubicaciones geográficas de las muestras en el Conjunto de datos 1 se presentan en la Tabla complementaria 1. Usando asignaciones a nivel de país derivadas de la clasificación de datos de todo el genoma con el clasificador de probabilidad, 27 aislamientos presentaron clasificaciones de países que difieren del país de presentación, por lo que son casos potencialmente importados (Tabla complementaria 1). Después de la exclusión de estos casos, así como de los países representados por una sola muestra, hubo un total de 799 aislamientos de 21 países, que constituyen el Conjunto de datos 2 (Tabla complementaria 1). El análisis de unión de vecinos reveló una agrupación geográfica distinta de la mayoría de los países (Figura complementaria 2). Las excepciones incluyeron los aislamientos de Afganistán, Irán, India y Sri Lanka, que parecían formar un solo grupo; Es evidente que se requiere un análisis más detallado de esta región geográfica con conjuntos de muestras más grandes para resolver las diferencias entre países. Aunque varios aislamientos en las regiones fronterizas, incluidos Vietnam en relación con Camboya y Tailandia en relación con Myanmar, se superpusieron entre países, la mayoría de los aislamientos en estos países podrían diferenciarse por las fronteras nacionales.

El proceso de selección del panel SNP se resume en la Fig. 1. Cuando se aplicó el selector HFST con un umbral FST de 0,90 (HFST-0,90), se identificó un conjunto de 33 nuevos SNP candidatos (en adelante denominados GEO33) para la asignación geográfica ( Tabla complementaria 2). Al aumentar el umbral de FST a 0,95 (HFST-0,95), el modelo HFST identificó 50 SNP (en adelante denominados GEO50) (Tabla complementaria 3). Usando solo el selector DT, se identificaron 55 SNP (en adelante, GEO55) (Tabla complementaria 4). Como se ilustra en la figura complementaria 3 y la tabla complementaria 5, no hay superposición de marcadores entre el panel 38-SNP Broad (en adelante denominado BR38) y los tres nuevos paneles SNP, pero hay niveles variables de superposición SNP entre los tres nuevos paneles Tres SNP están presentes en los tres paneles; una variante en PvP01_09_v1: 1884013 en el gen IMC1b (PVP01_0942600) que provoca un cambio de aminoácido E141D, una variante en PvP01_10_v1:480601 en el gen MDR1 (PVP01_1010900) que provoca un cambio de aminoácido L845F y una variante en PvP 01_14_v1:1229487 en PVP01_1428700 que provoca un cambio de aminoácido S1136I. Otros 6 SNP se superpusieron entre los paneles GEO33 y GEO50, y 13 SNP se superpusieron entre los paneles GEO50 y GEO55. Entre los SNP que se superponen entre dos paneles, el más notable es una variante en PvP01_14_v1:1270401 en el gen PPPK-DHPS (PVP01_1429500) que provoca un cambio en el aminoácido A553G que se ha asociado con la resistencia a la sulfadoxina16.

Los hexágonos reflejan conjuntos de datos, los rectángulos reflejan procesos, los triángulos reflejan conjuntos de SNP, los óvalos reflejan resultados y el diamante refleja la aplicación del clasificador basado en la web. El código de barras BR38 Broad refleja 38 SNP analizables de los 42 SNP Broad. El conjunto GEO33 refleja los SNP de alto rendimiento derivados del enfoque HFST con un umbral FST de 0,9. El conjunto GEO50 refleja los SNP de alto rendimiento del enfoque HFST con un umbral FST de 0,95. El conjunto GEO55 refleja los SNP seleccionados por el enfoque del árbol de decisiones.

El rendimiento de clasificación de BR38, GEO33, GEO50, GEO55 y combinaciones de BR38 con los tres nuevos paneles GEO (es decir, GEO33 + BR38, GEO50 + BR38 y GEO55 + BR38) se analizó mediante una validación cruzada de 10 veces utilizando el BALK clasificador en las muestras en el Conjunto de datos 3. Los resultados de las evaluaciones en el Conjunto de datos 3 se ilustran en la Fig. 2 (datos de origen proporcionados en Datos complementarios 1), y los MCC medianos que reflejan los resultados de consenso de la validación cruzada se resumen en la Tabla 1 El código de barras BR38 exhibió el MCC medio combinado (en todo el país) más bajo (MCC medio = 0,84), seguido de GEO33 (MCC medio = 0,94) y GEO50 y GEO55 (ambos MCC medio = 1,00). Todos los MCC medianos agrupados para los paneles combinados GEO y BR38 superaron 1,00, pero solo proporcionaron mejoras menores para GEO50 y GEO55. El porcentaje de países que exhibieron medianas de MCC superiores a 0,8 fue del 62 % (13/21) en BR38, del 90 % (19/21) en GEO33 y GEO33 + BR38, y del 95 % (20/21) en GEO50, GEO55, GEO50 + BR38 y GEO55 + BR38. Los países con el rendimiento de predicción más bajo fueron Vietnam y Camboya. Vietnam exhibió una mediana de MCC < 0,8 con todos los paneles de SNP. Camboya exhibió una mediana de MCC < 0,8 en BR38, GEO33 y GEO33 + BR38. Seis países (Filipinas, Myanmar, Malasia, Tailandia, Papúa Nueva Guinea y Bangladesh) exhibieron MCC medios < 0,8 con BR38 pero excedieron 0,8 en todas las combinaciones GEO.

Los diagramas de caja presentan las puntuaciones de MCC de 500 repeticiones con validación cruzada estratificada de 10 veces para cada conjunto de SNP. Las etiquetas de los países se proporcionan en el eje y; la mediana y el mínimo reflejan las estadísticas resumidas respectivas para las puntuaciones agrupadas de MCC en todos los países. Cada barra presenta la mediana, el rango intercuartílico y el MCC mínimo y máximo para el país y modelo dados. El panel BR38 exhibió generalmente las puntuaciones MCC más bajas (es decir, la precisión de predicción más baja). Entre los paneles recién seleccionados, GEO55 generalmente dio los puntajes MCC más altos, seguido de GEO50 y luego GEO33. La adición del panel BR38 a los paneles GEO generalmente solo proporcionó un aumento modesto o nulo en la mediana de MCC. Los análisis se basaron en n = 799 muestras biológicamente independientes.

Para comparar el rendimiento del código de barras BR38, GEO33, GEO50, GEO55 y combinaciones de BR38 con los tres nuevos paneles GEO (es decir, GEO33 + BR38, GEO50 + BR38 y GEO55 + BR38) con diferentes niveles de fallas de genotipo, simulamos 10% , 20% y 30% de proporciones de datos faltantes en cada país utilizando el conjunto de datos 3 y realizó validaciones cruzadas de 10 veces utilizando el clasificador BALK. Las fallas de genotipado simulado tuvieron el mayor impacto en el código de barras GEO33 (Fig. 3 y datos de origen adjuntos en Datos complementarios 2, Tabla complementaria 6). El MCC mediano combinado (en todo el país) para GEO33 cayó de 0,96 sin datos faltantes a 0,89, 0,81 y 0,73 con un 10 %, 20 % y 30 % de datos faltantes, respectivamente. El impacto de los datos faltantes en el panel combinado de GEO33 + BR38 fue menor, con MCC medianos agrupados cayendo de 1,00 sin datos faltantes a 0,98, 0,96 y 0,94 con un 10 %, 20 % y 30 % de datos faltantes, respectivamente. En todos los demás paneles, la mediana agrupada de MCC se redujo en ≥0,1 entre las simulaciones sin (0 %) frente al 30 % de llamadas de genotipo faltantes: de 0,87 a 0,77 en BR38, de 0,96 a 0,85 en GEO50, de 0,98 a 0,89 en GEO55 y de 1,00 a 0,98 en GEO50 + BR38 y GEO55 + BR38.

Puntuaciones de MCC generadas a partir de 250 repeticiones con n = 25 muestras biológicamente independientes por país sin (0 %) datos faltantes (a) y simulando datos faltantes (genotipo falla) del 10 % (b), 20 % (c) y 30 % ( d); la mediana y el mínimo reflejan las estadísticas resumidas respectivas para las puntuaciones agrupadas de MCC en todos los países. Cada barra presenta la mediana, el rango intercuartílico y el MCC mínimo y máximo para el país y modelo dados. Con datos faltantes, los paneles BR38 y GEO combinados (es decir, BR38 + GEO33, BR38 + GEO50 y BR38 + GEO55) demostraron mejores resultados que los paneles individuales en la retención del rendimiento de predicción, probablemente debido a niveles moderados de redundancia entre algunos de los SNP.

Después de la exclusión de las muestras importadas sospechosas y de baja calidad, un total de 142 muestras (Conjunto de datos de validación independiente) que no se incluyeron en la capacitación (es decir, no en el Conjunto de datos 1, 2 o 3) estuvieron disponibles para evaluar de forma independiente el desempeño del candidato. Paneles SNP con los clasificadores entrenados. El conjunto de datos de validación independiente comprendió muestras de cada uno de los 7 países que estaban representados en el conjunto de datos de capacitación (Conjunto de datos 2). Los patrones de agrupamiento geográfico del conjunto de datos de validación independiente en relación con el conjunto de datos de entrenamiento se ilustran en los árboles de unión de vecinos en la figura complementaria 3. El rendimiento de predicción de las muestras en el conjunto de datos de validación independiente en los paneles SNP con los clasificadores entrenados se presenta en Tabla 2. El panel BR38 exhibió la precisión de predicción más baja, con un MCC medio combinado (en todo el país) de 0,44. El panel GEO33 también mostró una precisión de predicción generalmente baja (MCC mediana agrupada = 0,64), pero esto mejoró en el panel combinado GEO33 + BR38 (MCC mediana agrupada = 0,81). Los paneles GEO50, GEO55, GEO50 + BR38 y GEO55 + BR38 exhibieron una precisión de predicción generalmente alta con MCC medianos combinados superiores a 0,80 (rango 0,83-0,89). La Figura 4 presenta mapas de calor para cada uno de los paneles SNP que ilustran la proporción de retiros correctos para cada país de origen (los datos de origen se proporcionan en los Datos complementarios 3). Los mapas de calor demuestran que, en todos los paneles SNP, las clasificaciones incorrectas generalmente reflejaron predicciones para los países vecinos, conservando así la precisión del mapeo geográfico regional.

Cada gráfico presenta el rendimiento de predicción del panel SNP dado (paneles a–g) en el conjunto de datos de validación independiente (n = 142 muestras biológicamente independientes) visualizado como un mapa de calor que muestra la correlación entre el país de origen y la predicción. Cada celda está codificada por colores para reflejar la proporción de muestras del país de origen dado que se asignaron correctamente al país de predicción correspondiente. Codificación de colores en escala de azul claro (proporción baja) a azul oscuro (proporción alta). Solo se presentan los países que fueron predichos por al menos uno de los paneles SNP, y los países de predicción que no estaban representados en el Conjunto de validación independiente (es decir, no en el eje de origen) están etiquetados en rojo. Cuando el país de origen de las muestras no coincidía directamente con el país de predicción, generalmente se asignaban a países vecinos (es decir, aún dentro de la geografía regional correcta). El panel BR38 exhibió una menor precisión de predicción que los paneles GEO y GEO + BR38 combinados. En los paneles SNP, la mayoría de las predicciones incorrectas ocurrieron entre Camboya, Vietnam y Tailandia.

El objetivo principal del estudio fue desarrollar herramientas moleculares que se adaptaran a los marcos de vigilancia basados ​​en la población que se pueden usar para identificar y mapear las infecciones por P. vivax importadas. Se identificaron tres nuevos paneles SNP (códigos de barras GEO) con un alto rendimiento de clasificación de países, que pudieron distinguir las infecciones por P. vivax importadas en una variedad de escenarios endémicos. El panel más parsimonioso, GEO33, exhibió una clasificación de país alta cuando no faltaban datos, y se puede agregar de manera rentable a los 38 SNP de código de barras Broad (BR38) analizables y bialélicos para mejorar la capacidad predictiva en muestras con niveles moderados de datos perdidos. El código de barras combinado GEO33 + BR38 generó una sólida clasificación de países en la mayoría de las áreas endémicas, incluso cuando la proporción de datos faltantes aumentó al 30 %. Sin embargo, la capacidad predictiva del código de barras GEO33 + BR38 entre Camboya y Vietnam fue moderada, lo que probablemente refleja el flujo frecuente de genes humanos y asociados de P. vivax a través de la frontera entre estos dos países. Los paneles GEO50 y GEO55 lograron una mejor resolución que el panel GEO33 + BR38 en estas áreas, y puede ser posible una caracterización aún mayor de la transmisión del parásito a través de las fronteras con altos niveles de flujo de genes con marcadores adicionales adecuados para un análisis de identidad por descendencia17. En algunas regiones geográficas, donde las fronteras nacionales tienen poco o ningún impedimento para el flujo de genes del parásito, incluso los datos del genoma completo no proporcionarán una resolución de las infecciones entre países vecinos: en estas regiones, la clasificación del origen de la infección a nivel de país puede tener una utilidad limitada. Sin embargo, el uso de datos genéticos para demostrar que los parásitos de diferentes lados de la frontera forman una sola población homogénea puede ser útil para fortalecer el caso de los esfuerzos de colaboración entre países para abordar la malaria vivax. Además, las herramientas descritas en este estudio se pueden adaptar para caracterizar otros límites de población que pueden ser relevantes para los PNCM. A medida que aumenta la densidad de datos genómicos disponibles sobre P. vivax, también puede ser posible utilizar límites de infección definidos genéticamente de mayor resolución con fines de clasificación.

La aplicación y validación más amplia de los nuevos códigos de barras GEO está en marcha, con ensayos de secuenciación basados ​​en amplicón de Illumina ya establecidos por el programa de malaria del Instituto Wellcome Sanger para los SNP13 de código de barras 38-Broad y por colaboradores en el Instituto de Medicina Tropical, Amberes, para GEO -3318. Será necesario seguir trabajando para establecer marcos para la implementación del genotipado de parásitos en las actividades diarias de los PNCM: se pueden obtener conocimientos del marco GenRe-Mekong, que ha implementado con éxito el genotipado de parásitos en las actividades del PNCM en varios países del Gran Subregión del Mekong con el fin de rastrear la resistencia a los medicamentos antipalúdicos en P. falciparum7. El marco GenRe-Mekong actualmente se enfoca en realizar genotipado utilizando la plataforma Illumina en laboratorios centralizados (como laboratorios nacionales de referencia) con experiencia y equipos sólidos en biología molecular. Sin embargo, los ensayos para los códigos de barras geográficos descritos en este estudio pueden diseñarse fácilmente para otras plataformas de genotipado, como los secuenciadores minION altamente portátiles (Oxford Nanopore Technologies), que teóricamente pueden implementarse en entornos con un equipo de laboratorio molecular mínimo.

El análisis y la interpretación de los datos de genotipado del "mundo real" plantea desafíos sustanciales a partir de muestras de baja calidad, como las recolectadas en gotas de sangre seca. Anticipándonos a estas necesidades, establecimos un marco clasificador basado en la probabilidad con la capacidad de tratar infecciones policlonales y datos faltantes. Este marco se ha integrado en la plataforma en línea vivaxGEN-geo (http://geo.vivaxgen.org), para que los usuarios puedan analizar e interpretar sus datos sin necesidad de habilidades bioinformáticas complejas y evitando la inspección visual subjetiva de árboles o árboles que se unen a vecinos. gráficos de componentes principales. Si bien las herramientas informáticas implementadas en vivaxGEN-geo se adaptan a P. vivax, se puede adaptar un enfoque similar a otras especies. Para facilitar una aplicación más amplia, el código fuente está disponible públicamente.

Las variantes en los paneles GEO SNP están ubicadas en genes que representan una variedad de funciones, algunas de las cuales pueden ser inestables con el tiempo, como las variantes en los genes asociados con la resistencia a los medicamentos. Estas variantes pueden reemplazarse fácilmente con nuevas variantes a medida que evolucionan las poblaciones. La velocidad a la que cambian las frecuencias alélicas en una población dependerá de varios factores, incluido el tamaño de la población, la extensión del flujo de genes y la dinámica de selección.

Aunque nuestro conjunto de datos representa uno de los paneles de aislamientos de P. vivax más diversos geográficamente disponibles en la actualidad, con representación de todas las principales regiones endémicas de vivax, es probable que la capacidad predictiva de las herramientas derivadas esté limitada por la representación geográfica del panel de referencia. . El clasificador no puede asignar una predicción a un país que no está representado en el panel de referencia genética, y los países que tienen un conjunto de muestras de referencia pequeño o no representativo pueden tener una precisión de clasificación limitada. La representación limitada de áreas como el subcontinente indio es un vacío importante que debe llenarse. Sin embargo, el panel de referencia tiene una buena representación de aislamientos de regiones de importancia para la salud pública, incluido el epicentro de P. vivax resistente a la cloroquina en Papúa, Indonesia, el oeste de Tailandia y Myanmar, donde se registra una alta frecuencia de infecciones por P. vivax con resistencia a la mefloquina asociada. Se han informado variantes del número de copias de MDR1 (PVP01_1010900), y Etiopía, que comprende el reservorio más grande de P. vivax en África y donde se han informado infecciones que pueden invadir glóbulos rojos humanos negativos duffy19,20,21,22,23 ,24. La fuerte representación de estas áreas en el panel de referencia genética garantiza que los NMCP puedan identificar con precisión cuándo se han importado infecciones de estas regiones y efectuar las respuestas adecuadas de gestión de casos. También es importante reconocer que el marco del clasificador basado en la probabilidad es susceptible de reevaluación de los conjuntos de fabricantes actuales a medida que se dispone de nuevos datos genómicos, lo que facilita el desarrollo iterativo de paneles de SNP refinados. A medida que el panel de referencia se expande con el aumento de los datos generados en los SNP de código de barras, mejorará la precisión de las clasificaciones basadas en la probabilidad.

El marco del clasificador basado en la probabilidad ha sido diseñado para permitir que se asignen predicciones geográficas a infecciones policlonales que portan dos o más clones, como es común en las regiones de alta endemicidad; estas infecciones se omiten comúnmente de los análisis genéticos de población. Sin embargo, debe reconocerse que el clasificador no intenta clasificar clones individuales, sino que la infección se analiza como un compuesto, lo que arroja una predicción única del origen más probable. No obstante, es importante tener en cuenta que, por diseño, los paneles GEO seleccionados por el marco deben exhibir una baja diversidad dentro del país (con diversidad más bien entre países). Por lo tanto, las infecciones policlonales derivadas de un solo país deberían mostrar una baja frecuencia de posiciones heterocigóticas en los códigos de barras GEO seleccionados. En los casos en que una combinación de clones derivados de diferentes países esté presente dentro de una sola infección, dando lugar a muchas posiciones heterocigotas, el clasificador estará limitado en su capacidad para detectar el país de origen y, en consecuencia, se asignará una baja confianza en la predicción. Los desarrollos futuros que combinen marcadores GEO con marcadores de huellas dactilares de alta resolución, como los microhaplotipos, pueden permitir que las infecciones policlonales se escalonen y posteriormente se analicen en busca de origen geográfico.

Además de nuevos marcadores geográficos, se están desarrollando iteraciones futuras del código de barras SNP para abordar otros casos de uso. Estos incluirán marcadores de P. vivax resistente a los medicamentos, así como marcadores para caracterizar infecciones recurrentes, que respaldarán la interpretación de ensayos clínicos, cohortes epidemiológicas y vigilancia de parásitos (consulte la descripción de microhaplotipos en 8). Si bien el origen geográfico de una infección por P. vivax puede proporcionar información sobre la probable periodicidad de las recaídas de un parásito, los riesgos y la frecuencia de las infecciones recurrentes están influenciados por una variedad de factores que incluyen la intensidad de la transmisión, la carga de hipnozoitos y la inmunidad del huésped, que confunden la correlación entre parásitos. genotipo y el riesgo de recaída de un individuo4,25.

En 2017, hasta el 100 % de todos los casos confirmados de paludismo en 17 países endémicos de paludismo de la región de Asia y el Pacífico, Oriente Medio y las Américas, donde predominan las infecciones por P. vivax, se notificaron como infecciones importadas1. En estos países, los programas nacionales de control de la malaria pueden utilizar información derivada de nuestras herramientas moleculares para evaluar la eficacia de las intervenciones en curso para reducir la transmisión local. Uno de los requisitos clave de la Organización Mundial de la Salud para certificar la eliminación de la malaria es demostrar que todos los casos de malaria detectados en el país durante al menos tres años consecutivos fueron importados. Nuestro enfoque de genotipado tiene potencial para identificar infecciones importadas, lo que reduce la ambigüedad en la certificación de eliminación. Para este propósito, los países que se acercan a la eliminación deberán mantener muestras de archivo para futuras comparaciones moleculares con casos supuestamente importados.

Las herramientas de clasificación geográfica molecular de P. vivax presentadas están diseñadas para capacitar a los usuarios en países donde la malaria es endémica para comparar datos de genotipado local con conjuntos de datos disponibles a nivel mundial. La secuenciación basada en amplicones de códigos de barras geográficos se combinará con otros marcadores de vigilancia en laboratorios centrales en países socios endémicos de la Red de Eliminación de la Malaria de Asia Pacífico (www.apmen.org). Los datos generados por estos centros informarán a los investigadores, los Programas Nacionales de Control de la Malaria y otras partes interesadas clave sobre la incidencia, la epidemiología y los reservorios clave de la malaria importada y, al hacerlo, ayudarán a orientar los recursos hacia donde más se necesitan.

El proyecto tenía como objetivo generar dos resultados principales: un nuevo marco para identificar códigos de barras geográficos de P. vivax (es decir, selección de marcadores) y una plataforma informática en línea de acceso abierto para que los usuarios finales analicen los datos generados utilizando el código de barras. En la figura 1 se proporciona un diagrama de flujo que describe los pasos involucrados en la identificación de códigos de barras geográficos de P. vivax. (es decir, ningún genotipo falla), 2) selección de SNP utilizando enfoques de árbol de decisión y HFST para obtener paneles de SNP candidatos adecuados para el clasificador desarrollado en este estudio (un clasificador de probabilidad bialélica, BALK) y 3) evaluación comparativa de los paneles de SNP candidatos, evaluación del impacto de los datos faltantes (es decir, el genotipo falla) y evaluación de la precisión de la predicción con un conjunto de datos independiente. Luego se desarrolló una plataforma informática de acceso abierto en línea y se equipó con clasificadores BALK entrenados contra los paneles SNP candidatos. Se proporciona una descripción más completa de los métodos en los Métodos complementarios.

El estudio utilizó datos genómicos de P. vivax derivados de la versión 4 (Pv4) del Proyecto de Variación del Genoma de P. vivax de la Epidemiología Genómica de la Malaria (MalariaGEN), que se ha publicado recientemente como un conjunto de datos abiertos26. El conjunto de datos abiertos Pv4 comprende genomas de 26 países. En el momento de realizar nuestro análisis (es decir, antes del lanzamiento de acceso abierto de Pv4), un conjunto de datos que comprendía 1873 (de las 1895 muestras descritas en el comunicado) muestras estaba disponible para nuestro estudio. Para el análisis de este estudio, el conjunto de datos se dividió en dos partes, un conjunto de datos de entrenamiento y un conjunto de datos de validación. El conjunto de validación consistió en aislamientos de 7 países (Brasil, Camboya, Colombia, Etiopía, Perú, Tailandia y Vietnam) derivados de un ensayo clínico realizado por GlaxoSmithKline (GSK)26. Todos los aislamientos restantes se incluyeron en el conjunto de datos de capacitación, que comprendía la representación de todos los países en el conjunto de validación. Las muestras de GSK se seleccionaron para una validación independiente debido a la conveniencia, ya que las muestras de este estudio se secuenciaron más tarde que los otros estudios y, por lo tanto, los datos estuvieron disponibles más tarde.

En la sección a) del diagrama de flujo presentado en la Fig. 1 se describe una descripción general de los pasos de preparación de datos. En resumen, el conjunto de datos de capacitación se filtró para excluir infecciones recurrentes y muestras de países representados por menos de 4 genomas independientes de P. vivax, lo que resultó en un conjunto de datos inicial que comprende 1348 muestras de 21 países (Tabla complementaria 1, Figura complementaria 4). Con este conjunto de datos inicial, a partir de las 2 671 112 variantes iniciales descubiertas en el proyecto MalariaGEN Pv426, derivamos un conjunto de 662 641 SNP bialélicos de alta calidad con una puntuación VQSLOD > 0, una profundidad mínima de 1 y un recuento mínimo de alelos menores (MAC) de 2 para producir el conjunto de datos 0. La restricción a los SNP bialélicos es un enfoque estándar que se lleva a cabo en la genómica de la población de paludismo para simplificar los cálculos posteriores y no impone restricciones en el análisis de infecciones policlonales, que aún son detectables a través de la combinación de variantes alélicas en los respectivos SNP (ver 27,28,29). Las llamadas de genotipo individuales se definieron como heterocigotos en función de un umbral arbitrario de una proporción de alelos menores > 0,1 y un mínimo de 2 lecturas para cada alelo; todas las demás llamadas de genotipo se definieron como homocigotas para el alelo principal. El conjunto de datos 0 se filtró aún más para excluir muestras no independientes, definidas arbitrariamente como pares aislados con una distancia genética inferior a 0,001, lo que dio como resultado 1227 muestras con 662 641 SNP, denominado Conjunto de datos 1. El conjunto de datos 1 se sometió luego a un filtrado de calidad de datos iterativo para derivar el mejor número representativo de muestras y SNP informativos sin falta de genotipo mediante la eliminación iterativa de muestras con mayor falta y calculando el número de SNP informativos (definidos como SNP con MAC > = 2), de las muestras restantes. Según el gráfico del resultado de este filtrado de calidad de datos (Figura complementaria 1), identificamos 826 muestras y 229 317 SNP para incluir en el Conjunto de datos 2. Los aislamientos en el Conjunto de datos 2 se asignaron inicialmente al país en función de los metadatos disponibles, que se evaluó más usando 1) predicción a nivel de país usando el clasificador BALK contra los 229,317 SNP y 2) confirmación manual mediante la construcción de un árbol de unión de vecinos basado en la distancia genética. Los aislamientos cuya asignación de país difería del resultado de la predicción y que no estaban en el mismo grupo de países observado manualmente desde el árbol de unión de vecinos se consideraron infecciones importadas sospechosas y se eliminaron del conjunto de datos para producir el Conjunto de datos 3, que comprende 799 muestras y 229 317 SNP. Para la evaluación comparativa de los paneles de SNP candidatos, se produjo un nuevo conjunto de datos (Conjunto de datos 4) que comprendía las muestras del Conjunto de datos 3, pero solo los SNP seleccionados por el proceso de selección de SNP consecutivo (nos referimos a estos paneles de SNP como códigos de barras GEO) y 38 SNP de un código de barras 42-SNP P. vivax de uso común desarrollado por el instituto Broad12. El panel de SNP que comprende los 38 SNP de código de barras del Broad Institute analizables se denomina BR38. El panel BR38 SNP se integró en el estudio para su evaluación por sí solo y en combinación con los paneles GEO SNP recientemente seleccionados, ya que se ha implementado en varios países.

Se aplicó un proceso de filtrado similar al conjunto de validación. Se eliminaron todas las infecciones recurrentes y se filtraron las posiciones de SNP para incluir solo los 229 317 SNP definidos en el conjunto de datos de entrenamiento 4. Luego, se eliminaron las muestras no independientes restantes utilizando el mismo umbral de 0,001 de distancia genética, utilizando un procedimiento similar al descrito. para el conjunto de entrenamiento. La asignación a nivel de país se evaluó utilizando el mismo clasificador BALK entrenado que el conjunto de entrenamiento, y se construyó un árbol de unión de vecinos combinándolo con el conjunto de datos 3 para la confirmación manual. Después de los diversos filtros, quedó un conjunto de 142 muestras en el conjunto de validación. La Fig. 2 complementaria presenta el árbol de unión de vecinos del conjunto de datos 3 combinado con las 142 muestras de validación en los 229 317 SNP. Se realizó un filtrado adicional de SNP para incluir solo el panel BR38 y los GEO SNP recién seleccionados para producir el conjunto de datos de validación independiente. Información más detallada sobre los métodos de preparación de datos está disponible en Métodos complementarios.

Nuestro estudio requirió el desarrollo de métodos flexibles para clasificar las infecciones por P. vivax/datos genéticos por país. Para este propósito, necesitábamos un clasificador con las siguientes propiedades: 1) capaz de evaluar paneles de SNP existentes, 2) susceptible de nuevas adiciones de SNP para adaptarse a nuevos países o cambios genéticos a lo largo del tiempo, 3) capaz de clasificar entradas de datos que contienen fallas de genotipo y llamadas genotípicas heterocigóticas bialélicas derivadas de infecciones policlonales, y 4) capaces de proporcionar valores de confianza de predicción. Identificamos que el clasificador Naive Bayes tiene las propiedades que satisfacen los requisitos anteriores después de la aplicación de varias modificaciones. Derivamos un clasificador de probabilidad bialélica (BALK) de Bernoulli Naive Bayes con modificación al reemplazar la ecuación de probabilidad de su regla de clasificación de la distribución de probabilidad de Bernoulli a una distribución binomial N = 2 para manejar las llamadas heterocigotas y establecer la probabilidad previa en un distribución uniforme, haciendo que el clasificador solo dependa de la verosimilitud de los datos SNP. La regla de clasificación BALK se presenta en la ecuación 1.

Donde X es el conjunto de datos SNP de una muestra, C es un grupo (o un país), xi es el número de alelos alternativos en la posición i y pi es la frecuencia del alelo alternativo en la posición i del país C contados como muestras diploides . Una descripción más completa del desarrollo del clasificador BALK está disponible como Métodos complementarios.

Nuestro objetivo fue identificar los paneles SNP más parsimoniosos para la clasificación a nivel de país, con el objetivo de menos de 60 SNP en estos paneles; este umbral para los nuevos paneles SNP se basó en varias consideraciones. De acuerdo con las características de multiplexación de la plataforma Illumina y teniendo en cuenta los costos de secuenciación, preparación de bibliotecas y cebadores, así como los desafíos prácticos de preparar grupos de PCR en una gran cantidad de cebadores, identificamos un máximo de 100 SNP en total (en el nuevo SNP paneles y describió previamente el código de barras Broad, es decir, BR38) como un umbral factible para un código de barras geográfico para P. vivax.

En la sección b) del diagrama de flujo presentado en la Fig. 1 se describe una descripción general de los pasos de selección de SNP candidatos. Los SNP óptimos para la clasificación de países se seleccionaron utilizando los siguientes enfoques: DecisionTree, HFST-0.90 y HFST-0.95 (HFST con umbral Fst de 0,9 y 0,95 respectivamente), que se detallan en los métodos complementarios. Brevemente, para el enfoque de DecisionTree (DT), el conjunto de datos 3 se sometió a una implementación de DT de la biblioteca sklearn de Python. El conjunto de SNP seleccionado por DT se volvió a evaluar con el clasificador BALK en el conjunto de entrenamiento utilizando puntajes MCC (Coeficiente de correlación de Matthew) a nivel de país, así como puntajes MCC mínimos y medianos combinados (entre países). El MCC proporciona una medida de la calidad de las clasificaciones, que van desde -1 (desacuerdo total) a 1 (predicción perfecta)30. Para el enfoque HFST (FST jerárquico), como guía de árbol bifurcado, se construyó un árbol de población de unión de vecinos basado en la matriz de distancia genética de población promedio neta de Nei y luego se volvió a enraizar en el punto medio (Fig. 5 complementaria). El enfoque HFST implicó atravesar el árbol guía bifurcado y seleccionar aleatoriamente los SNP con FST más altos que un cierto umbral entre las dos poblaciones representadas por los dos nodos de la rama. Si ninguno de los SNP estaba por encima del umbral durante el recorrido del árbol guía, se empleaba el método DT para obtener SNP adicionales para separar los dos nodos de la rama. Al igual que con el enfoque DT, las puntuaciones de MCC a nivel de país y las puntuaciones de MCC medias y mínimas agrupadas (entre países) de cada uno de los conjuntos de SNP seleccionados se calcularon utilizando el clasificador BALK entrenado contra los SNP seleccionados con el conjunto de datos 3.

Para cada enfoque, se usó el conjunto de datos 3 tanto para el entrenamiento como para el conjunto de pruebas en 500 repeticiones para obtener 500 conjuntos de SNP. Los 25 conjuntos de SNP principales de los 500 conjuntos de SNP, clasificados en función del promedio de sus puntuaciones de MCC mínimas y medianas de MCC sobre las puntuaciones de MCC a nivel de país, se recopilaron y sometieron a 500 repeticiones de validación cruzada estratificada de 10 veces para evitar ajustar en exceso cada conjunto de SNP reclasificando en función de su MCC mínimo promedio y las puntuaciones de MCC medianas para derivar el mejor conjunto de SNP para cada enfoque.

Una descripción general de los pasos involucrados en la evaluación comparativa de los paneles SNP se describe en la sección c) del diagrama de flujo presentado en la Fig. 1. Para comparar el panel Broad SNP con los tres nuevos paneles SNP candidatos identificados por DT, HFST-0.90, y HFST-0.95 se realizó una validación cruzada estratificada de 10 veces de 500 repeticiones en cada panel de SNP utilizando el conjunto de datos 3.

Además, para evaluar la durabilidad del rendimiento de predicción de los paneles de SNP candidatos con diferentes niveles de datos faltantes (análogos a las fallas de genotipado), se realizaron simulaciones después de eliminar los datos de genotipo al azar. El clasificador BALK se entrenó contra los paneles SNP candidatos utilizando todas las muestras. Para cada país, se muestrearon 25 muestras aleatoriamente con reemplazo y se eliminaron las llamadas de genotipo de los conjuntos de SNP en proporciones del 10 %, 20 % y 30 %. A continuación, las muestras aleatorias se sometieron al clasificador entrenado. Este proceso se ejecutó en 250 repeticiones y se informó el puntaje MCC de la predicción para cada país.

Para evaluar el rendimiento de los paneles SNP candidatos con nuevos conjuntos de muestras (en lugar de utilizar la técnica de remuestreo de la estrategia de validación cruzada), los clasificadores BALK capacitados se ejecutaron en el conjunto de datos de validación independiente y las puntuaciones de MCC informadas para cada país.

Para establecer herramientas informáticas accesibles para los usuarios finales, se creó una plataforma en línea que incorpora herramientas de clasificación de datos para determinar el país de origen más probable de una muestra utilizando datos genéticos derivados de diferentes códigos de barras. El código fuente existente, desarrollado para una plataforma de análisis e intercambio de datos de P. vivax basada en microsatélites31, se modificó para crear una nueva plataforma basada en la web (vivaxGEN-geo), para cotejar los datos SNP generados en el código de barras geográfico. Se eligió este enfoque debido a la capacidad de i) incorporar conjuntos de SNP manuales que permiten mejoras incrementales del código de barras en el futuro, ii) evaluar códigos de barras con datos incompletos debido a fallas en el genotipado y iii) evaluar llamadas de genotipo heterocigoto, que reflejan infecciones policlonales. Para lograr una precisión óptima, el clasificador BALK proporcionado en la plataforma en línea se entrenó con 941 muestras, que comprenden el conjunto de datos 2 (N = 799) más el conjunto de datos de validación independiente (N = 142). La herramienta clasificadora informa las tres probabilidades más altas para el país de origen y sus probabilidades asociadas. La herramienta clasificadora informa las tres probabilidades más altas para el país de origen y sus probabilidades asociadas. Las probabilidades se calcularon utilizando el método isotónico implementado en CalibratedClassfierCV de la biblioteca sklearn, con validación cruzada estratificada de 4 veces para el conjunto de datos de calibración. La plataforma web puede recibir los datos de entrada en una representación de código de barras basada en cadenas, archivos de texto delimitados por tabuladores basados ​​en columnas y archivos VCF.

Todas las muestras se recolectaron con el consentimiento informado por escrito de los pacientes o de sus tutores legales, como se detalla en la nota de datos de la versión 4 del Proyecto de Variación del Genoma de P. vivax de la Epidemiología Genómica de la Malaria (MalariaGEN)26.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

El estudio utilizó datos genómicos del MalariaGEN P. vivax Genome Variation Project release 4 (Pv4)26. Los archivos en formato VCF y zarr que contienen las llamadas de genotipo utilizadas en el estudio están disponibles en acceso abierto en la página de recursos de datos de MalariaGEN en https://www.malariagen.net/resource/3026.

Todos los scripts internos personalizados utilizados para el filtrado, análisis y visualización de datos están disponibles en https://github.com/vivaxgen/geo. Se puede acceder al servicio web VivaxGEN-geo en http://geo.vivaxgen.org/. Además de los nuevos paneles de SNP geográficos descritos en este estudio, vivaxGEN-geo ofrece clasificación de otros paneles de SNP, incluido un código de barras vietnamita publicado (VN40)18.

OMS. Informe mundial sobre el paludismo 2016. Organización Mundial de la Salud; Ginebra 2016. (2016).

Tripura, R. et al. Infecciones persistentes por Plasmodium falciparum y Plasmodium vivax en una población de Camboya occidental: Implicaciones para las estrategias de prevención, tratamiento y eliminación. Malar. J. 15, 181 (2016).

Artículo Google Académico

Kho, S. et al. Biomasa oculta de parásitos de la malaria intactos en el bazo humano. N. ingl. J.Med. 384, 2067–2069 (2021).

Artículo Google Académico

White, NJ e Imwong, M. Recaída. Adv. Parasitol. 80, 113–150 (2012).

Artículo Google Académico

Auburn, S., Cheng, Q., Marfurt, J. & Price, RN La epidemiología cambiante de Plasmodium vivax: conocimientos de herramientas de vigilancia convencionales y novedosas. PLoS Med. 18, e1003560 (2021).

Artículo Google Académico

Sattabongkot, J., Tsuboi, T., Zollner, GE, Sirichaisinthop, J. & Cui, L. Transmisión de Plasmodium vivax: posibilidades de control. Tendencias Parasitol. 20, 192–198 (2004).

Artículo Google Académico

Jacob, CG et al. Vigilancia genética en la subregión del Gran Mekong y el sur de Asia para apoyar el control y la eliminación de la malaria. eLife 10, https://doi.org/10.7554/eLife.62997 (2021).

Noviyanti, R. et al. Implementación del genotipado de parásitos en marcos nacionales de vigilancia: retroalimentación de programas de control e investigadores en la región de Asia y el Pacífico. Malar. J. 19, 271 (2020).

Artículo Google Académico

Diez Benavente, E. et al. La variación genómica en la malaria por Plasmodium vivax revela regiones bajo presión selectiva. PloS uno 12, e0177134 (2017).

Artículo Google Académico

Iwagami, M. et al. Origen geográfico de Plasmodium vivax en la República de Corea: análisis de red de haplotipos basado en el genoma mitocondrial del parásito. Malar. J. 9, 184 (2010).

Artículo Google Académico

Rodrigues, PT et al. Uso de secuencias del genoma mitocondrial para rastrear el origen de infecciones por Plasmodium vivax importadas diagnosticadas en los Estados Unidos. Soy. J. Tropical Med. Hig. 90, 1102–1108 (2014).

Artículo Google Académico

Baniecki, ML et al. Desarrollo de un código de barras de polimorfismo de un solo nucleótido para genotipificar infecciones por Plasmodium vivax. PLoS Dis tropical desatendida. 9, e0003539 (2015).

Artículo Google Académico

Ba, H. et al. El genotipado multilocus revela la endemicidad establecida de una población de Plasmodium vivax geográficamente distinta en Mauritania, África Occidental. PLoS Dis tropical desatendida. 14, e0008945 (2020).

Artículo CAS Google Académico

Dewasurendra, RL et al. Uso de un código de barras genético de Plasmodium vivax para vigilancia genómica y rastreo de parásitos en Sri Lanka. Malar. J. 19, 342 (2020).

Artículo CAS Google Académico

Diez Benavente, E. et al. Un código de barras molecular para informar el origen geográfico y la dinámica de transmisión de la malaria por Plasmodium vivax. PLoS Genet. 16, e1008576 (2020).

Artículo Google Académico

Price, RN, Auburn, S., Marfurt, J. & Cheng, Q. Caracterización fenotípica y genotípica de Plasmodium vivax resistente a los medicamentos. Tendencias Parasitol. 28, 522–529 (2012).

Artículo CAS Google Académico

Taylor, AR et al. Cuantificación de la conectividad entre las poblaciones locales del parásito de la malaria Plasmodium falciparum utilizando la identidad por descendencia. PLoS Genet. 13, e1007065 (2017).

Artículo Google Académico

Kattenberg, JH et al. Nuevo ensayo dirigido AmpliSeq altamente multiplexado para casos de uso de vigilancia genética de Plasmodium vivax en múltiples escalas geográficas. Infección de celda frontal. Microbiol 12, 953187 (2022).

Artículo CAS Google Académico

Auburn, S. et al. El análisis genómico revela un punto de ruptura común en las amplificaciones del locus 1 de resistencia a múltiples fármacos de Plasmodium vivax en Tailandia. J. infectar. Dis., https://doi.org/10.1093/infdis/jiw323 (2016).

Auburn, S. et al. El análisis genómico de Plasmodium vivax en el sur de Etiopía revela presiones selectivas en múltiples mecanismos parasitarios. J. infectar. Dis. 220, 1738–1749 (2019).

Artículo CAS Google Académico

Menard, D. et al. La malaria clínica por Plasmodium vivax se observa comúnmente en personas malgaches Duffy negativas. proc. Academia Nacional. ciencia EE. UU. 107, 5967–5971 (2010).

Artículo CAS Google Académico

Zimmerman, PA Infección por Plasmodium vivax en personas negativas para Duffy en África. Soy. J. Tropical Med. Hig. 97, 636–638 (2017).

Artículo Google Académico

Precio, RN et al. Extensión mundial de Plasmodium vivax resistente a la cloroquina - Respuesta de los autores. La lanceta. Infectar. Dis. 15, 630–631 (2015).

Google Académico

Ratcliff, A. et al. Respuesta terapéutica de Plasmodium falciparum y P. vivax resistentes a múltiples fármacos a la cloroquina y la sulfadoxina-pirimetamina en el sur de Papua, Indonesia. Trans. R. Soc. Tropical Med. Hig. 101, 351–359 (2007).

Artículo CAS Google Académico

Commons, RJ, Simpson, JA, Watson, J., White, NJ y Price, RN Estimación de la proporción de recurrencias de Plasmodium vivax causadas por recaídas: una revisión sistemática y un metanálisis. Soy. J. Tropical Med. Hig. 103, 1094–1099 (2020).

Artículo CAS Google Académico

Malaria Gen et al. Un conjunto de datos abiertos de la variación del genoma de Plasmodium vivax en 1895 muestras de todo el mundo. Bienvenido Open Res. 7, 136 (2022).

Artículo Google Académico

Pearson, RD et al. Análisis genómico de variación local y evolución reciente en Plasmodium vivax. Nat. Gineta. 48, 959–964 (2016).

Artículo CAS Google Académico

Auburn, S. et al. Caracterización de la diversidad de Plasmodium falciparum dentro del huésped utilizando datos de secuencia de próxima generación. PloS uno 7, e32891 (2012).

Artículo CAS Google Académico

Manske, M. et al. Análisis de la diversidad de Plasmodium falciparum en infecciones naturales mediante secuenciación profunda. Naturaleza 487, 375–379 (2012).

Artículo CAS Google Académico

Jurman, G., Riccadonna, S. & Furlanello, C. Una comparación de las medidas de error de MCC y CEN en la predicción multiclase. PloS uno 7, e41882 (2012).

Artículo CAS Google Académico

Descargar referencias

Nos gustaría agradecer a los pacientes que contribuyeron con sus muestras al estudio, y a los trabajadores de la salud y los equipos de campo que ayudaron con la recolección de muestras. También agradecemos al personal de las instalaciones de Informática, Secuenciación y Logística de Muestras del Instituto Wellcome Sanger por sus contribuciones. Para fines de acceso abierto, el autor ha aplicado una licencia pública de derechos de autor CC BY a cualquier versión del manuscrito aceptado por el autor que surja de este envío. Esta investigación fue financiada en parte por Wellcome Trust (Senior Fellowship in Clinical Science otorgado a RNP, 200909). La investigación también fue financiada en parte por el Departamento de Relaciones Exteriores y Comercio de Australia (TDCRRI 72904), el Consejo Nacional de Investigación Médica y de Salud de Australia (NHMRC) (APP2001083 otorgado a SA) y la Fundación Bill y Melinda Gates (OPP1164105). HT fue apoyado por una beca internacional de doctorado de la Universidad Charles Darwin (CDIPS). El muestreo de pacientes y la recopilación de metadatos fueron financiados por la Red de Eliminación de la Malaria de Asia y el Pacífico (108-07), el Ministerio de Salud de Malasia (BP00500420) y el NHMRC (1037304 y 1045156; Becas para NMA [1042072 y 1135820], BEB [ 1088738] y MJG [1074795]). MJG también recibió el apoyo de una beca de carrera de la Tierra 'Hot North' (1131932). MUF cuenta con el apoyo de una beca de investigador senior del Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), Brasil. El componente de secuenciación del genoma completo del estudio fue apoyado por subvenciones del Consejo de Investigación Médica y el Departamento para el Desarrollo Internacional del Reino Unido (M006212) y Wellcome Trust (204911) otorgadas a DPK, y una subvención de Wellcome Trust (206194/Z/17/Z ) otorgado a DPK y JCR Este trabajo fue apoyado por el Centro Australiano para la Excelencia en la Investigación sobre la Eliminación de la Malaria (ACREME), financiado por el NHMRC (APP 1134989).

División de Salud Global y Tropical, Escuela Menzies de Investigación en Salud y Universidad Charles Darwin, Darwin, NT, Australia

Hidayat Trimarsanto, Jutta Marfurt, Zuleima Pava, Matthew J. Grigg, Bridget Barber, Nicholas M. Anstey, Benedikt Ley, Kamala Thriemer, Ric N. Price y Sarah Auburn

Instituto Eijkman de Biología Molecular, Yakarta, Indonesia

Hidayat Trimarsanto, Edwin Sutanto, Rintis Noviyanti y Leily Trianty

Instituto Wellcome Sanger, campus Wellcome Genome, Cambridge, Reino Unido

Robert Amato, Richard D. Pearson, Julian C. Rayner, Eleanor Drury, Sonia Gonzales, Victoria Simpson, Olive Miotto, Alistair Miles y Dominic P. Kwiatkowski

Iniciativa de Salud Exeins, Yakarta, Indonesia

Edwin Sutanto

Centro Internacional de Capacitación e Investigaciones Médicas (CIDEIM), Cali, Colombia

Diego F. Echeverry

Departamento de Microbiología, Universidad del Valle, Cali, Colombia

Diego F. Echeverry

Universidad Icesi, Cali, Colombia

Diego F. Echeverry

Malaria Group, Universidad de Antioquia, Medellin, Colombia

Tatiana M. Lopera-Mesa, Lidia M. Montenegro, Alberto Tobón-Castaño & Iván D. Vélez

Sociedad de Enfermedades Infecciosas Unidad de Investigación Clínica de la Escuela de Investigación en Salud Sabah-Menzies, Kota Kinabalu, Sabah, Malasia

Matthew J. Grigg, Bridget Barber y Timothy William

Centro de Investigación Clínica, Hospital Queen Elizabeth, Sabah, Malasia

Timoteo Guillermo

Facultad de Ciencias Naturales, Universidad de Addis Abeba, Addis Abeba, Etiopía

Sisay Getachew y Beyene Petros

Instituto de Investigación Armauer Hansen

Sisay Getachew y Abraham Aseffa

Instituto de Salud Pública de Etiopía, Addis Abeba, Etiopía

Ashenafi Assefa

Unidad de Investigación de Medicina Tropical Mahidol‐Oxford, Universidad Mahidol, Bangkok, Tailandia

Awab G. Rahim, Cindy S. Chu, Olivo Miotto, Nicholas J. White, Ric N. Price y Sarah Auburn

Facultad de Medicina de Nangarhar, Universidad de Nangarhar, Ministerio de Educación Superior, Jalalabad, Afganistán

Awab G. Rahim

Unidad de Investigación Clínica de la Universidad de Oxford, Hospital de Enfermedades Tropicales, Ciudad Ho Chi Minh, Vietnam

Nguyen H. Chau y Tran T. Hien

División de Enfermedades Infecciosas, Centro Internacional para la Investigación de Enfermedades Diarreicas, Dhaka, Bangladesh

Mohammad S. Alam y Wasif A. Khan

Centro Real para el Control de Enfermedades, Departamento de Salud Pública, Ministerio de Salud, Thimphu, Bután

sonam wangchuck

Centro de Investigación de Enfermedades Infecciosas y Tropicales, Universidad de Ciencias Médicas de Hormozgan, Bandar Abbas, Provincia de Hormozgan, Irán

Yaghoob Hamidi

Facultad de Medicina, Universidad de Jartum, Jartum, Sudán

Ishag Adán

Laboratorio clave de control y prevención de enfermedades parasitarias de la Comisión Nacional de Salud, Laboratorio clave provincial de Jiangsu sobre tecnología de control de parásitos y vectores, Instituto de enfermedades parasitarias de Jiangsu, Wuxi, China

Yaobao Liu y Qi Gao

Escuela de Salud Pública, Universidad Médica de Nanjing, Nanjing, China

yaobao liu

Unidad de Investigación de Malaria Shoklo, Facultad de Medicina Tropical, Universidad Mahidol, Mae Sot, Tailandia

Kanlaya Sriprawat, Cindy S. Chu y Francois Nosten

Departamento de Parasitología, Instituto de Ciencias Biomédicas, Universidad de Sao Paulo, Sao Paulo, Brasil

Marcelo U Ferreira

Salud Global y Medicina Tropical, Instituto de Higiene y Medicina Tropical, Universidad NOVA de Lisboa, Lisboa, Portugal

Marcelo U Ferreira

Instituto de Investigación Médica de Papúa Nueva Guinea, Madang, Papúa Nueva Guinea

Moisés Lamán

Universidad de Deakin, Victoria, Australia

alyssa barry

División de Salud e Inmunidad de la Población, Instituto de Investigación Médica Walter and Eliza Hall, Victoria, Australia

Alyssa Barry & Ivo Müller

Departamento de Biología Médica, Universidad de Melbourne, Victoria, Australia

alyssa barry

Departamento de Parásitos e Insectos Vectores, Institut Pasteur, París, Francia

Ivo Müller

Fundación de Medicina Tropical, Manaos, Brasil

Marcus VG Lacerda

Fundación Oswaldo Cruz, Manguinhos, Río de Janeiro, Brasil

Marcus VG Lacerda

Universidad Peruana Cayetano Heredia, Lima, Peru

Alejandro Llanos-Cuentas

Universidad Mahidol, Bangkok, Tailandia

Srivicha Krudsood

Instituto de Investigación de Ciencias Médicas de las Fuerzas Armadas, Bangkok, Tailandia

Chanthap Lon

Universidad de Gondar, Gondar, Etiopía

Mohamed Rezika

Universidad de Jimma, Jimma, Etiopía

daniel yilma

Centro de Investigación en Medicina Tropical, Porto Velho, Brasil

Dhélio B. Pereira

Instituto de Investigación de Medicina Tropical, Manila, Filipinas

La fe EJ Espino

Hospital Umphang, Tak, Tailandia

Chayadol Namaik-larp

Centro de Investigaciones Clinicas, Cali, Colombia

María F. Villegas

GlaxoSmithKline, Brentford, Reino Unido

justin a. verde & gavin koh

Instituto de Cambridge para la Investigación Médica, Escuela de Medicina Clínica, Universidad de Cambridge, Cambridge, Reino Unido

Julián C. Rayner

Centro de Medicina Tropical y Salud Global, Departamento de Medicina de Nuffield, Universidad de Oxford, Oxford, Reino Unido

Nicholas J. White, Francois Nosten, Ric N. Price y Sarah Auburn

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

SA, HT, RA, RDP y RNP concibieron y diseñaron el estudio y escribieron el primer borrador del manuscrito. SA, HT, RA, RDP y ES realizaron análisis de datos. RN, LT, JM, ZP, DEF, TML-M., LMM, AT-C., MJG, BB, TW, NMA, SG, BP, A.Aseffa, A.Assefa, AGR, NHC, TTT, MSA, WAK, BL, KT, SW, YH, IA, YL, QG, KS, MUF, ML, AB, IM, MVGL, AL-C., SK, CL, RM, DY, DBP, FEJE, CSC, IDV, CN -L., MFV, JAG, GK, NJW y FN contribuyeron con recopilaciones y metadatos críticos sobre la malaria basados ​​en el campo. DPK, JCR, RA, RDP, ED, SG, VS, OM y AM contribuyeron con la secuenciación, la producción de datos y el soporte informático.

Correspondencia a Sarah Auburn.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a Alfred Amambua-Ngwa y a los otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Editor principal de manejo: Luke R. Grinham. Los informes de los revisores están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Trimarsanto, H., Amato, R., Pearson, RD et al. Un código de barras molecular y una herramienta de análisis de datos basada en la web para identificar la malaria por Plasmodium vivax importada. Commun Biol 5, 1411 (2022). https://doi.org/10.1038/s42003-022-04352-2

Descargar cita

Recibido: 01 Diciembre 2021

Aceptado: 08 diciembre 2022

Publicado: 23 diciembre 2022

DOI: https://doi.org/10.1038/s42003-022-04352-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.