Profundo

Blog

HogarHogar / Blog / Profundo

Oct 09, 2023

Profundo

Volumen de biología de las comunicaciones

Biología de las comunicaciones volumen 6, Número de artículo: 241 (2023) Citar este artículo

1050 Accesos

2 Altmetric

Detalles de métricas

Uno de los principales problemas de la bioimagen, a menudo muy subestimado, es si las características extraídas para una tarea de discriminación o regresión seguirán siendo válidas para un conjunto más amplio de experimentos similares o en presencia de perturbaciones impredecibles durante el proceso de adquisición de imágenes. Este problema es aún más importante cuando se aborda en el contexto de las características de aprendizaje profundo debido a la falta de una relación conocida a priori entre los descriptores de caja negra (características profundas) y las propiedades fenotípicas de las entidades biológicas en estudio. En este sentido, el uso generalizado de descriptores, como los que provienen de redes neuronales convolucionales (CNN) previamente entrenadas, se ve obstaculizado por el hecho de que carecen de significado físico aparente y están fuertemente sujetos a sesgos inespecíficos, es decir, características que no no depende de los fenotipos celulares, sino de artefactos de adquisición, como cambios de brillo o textura, cambios de enfoque, autofluorescencia o fotoblanqueo. La plataforma de software Deep-Manager propuesta ofrece la posibilidad de seleccionar eficientemente aquellas características que tienen menor sensibilidad a perturbaciones inespecíficas y, al mismo tiempo, un alto poder de discriminación. Deep-Manager se puede utilizar en el contexto de características profundas y artesanales. El rendimiento sin precedentes del método se demuestra utilizando cinco estudios de casos diferentes, que van desde la selección de características de intensidad de proteína de fluorescencia verde artesanales en la investigación de muerte de células de cáncer de mama relacionada con la quimioterapia hasta el tratamiento de problemas relacionados con el contexto de Deep Transfer Learning. Deep-Manager, disponible gratuitamente en https://github.com/BEEuniroma2/Deep-Manager, es adecuado para su uso en muchos campos de la bioimagen y está diseñado para actualizarse constantemente con nuevas perturbaciones y modalidades de adquisición de imágenes.

La reproducibilidad es una preocupación importante en la investigación biomédica, especialmente cuando tiene como objetivo construir una base sólida para futuras terapias clínicas para mejorar la salud humana. Los datos biológicos suelen ser muy variables, principalmente debido a parámetros experimentales incontrolables. Esto es particularmente dramático en el caso de las adquisiciones de bioimágenes para el análisis cuantitativo. Si las imágenes no se adquieren en el mismo microscopio, con la misma configuración, utilizando la misma fuente de luz y el mismo soporte celular, estas imágenes no son fácilmente comparables a menos que se implementen métodos de estandarización que, sin embargo, pueden alterar la dinámica esperada de las señales. Esta es una gran limitación en la aplicación a la biología de los métodos de ciencia computacional, como las poderosas herramientas de análisis de imágenes basadas en IA.

En este sentido, identificar un subconjunto de características de la imagen que se relacionen de manera óptima con una enfermedad específica o, más en general, con un aspecto bajo investigación1,2 sigue siendo un problema de frontera, a menudo subestimado, especialmente en tareas de clasificación basadas en imágenes. El rendimiento de los clasificadores que se ejecutan en un subconjunto de funciones artesanales o de caja negra generalmente no es escalable y, por lo general, disminuye drásticamente cuando se usan en conjuntos de datos distintos de los que se usan para la construcción del clasificador, que carecen de reproducibilidad y generalización3. La razón principal es que las muestras experimentales disponibles para el paso de selección de características suelen ser escasas o no tan generales para cubrir las posibles variaciones admisibles, incluso dentro de las mismas condiciones biológicas. En la práctica, cuando los resultados obtenidos en un conjunto más pequeño de experimentos se extienden a una gran cantidad de casos más generales e independientes, se espera que el rendimiento se degrade drásticamente, como se muestra en la Fig. 1 (izquierda, rama roja). No importa si en el contexto de las características4,5 hechas a mano o de Deep Transfer Learning (DTL) (es decir, descriptores que provienen de una red neuronal convolucional (CNN) preentrenada), es esencial seleccionar las características que aseguren una validez muy grande sobre heterogénea. experimentos biológicos, con representatividad adecuada y generalización de los resultados. Este aspecto se ha subestimado, especialmente en el contexto de las funciones DTL, donde se deben abordar otros dos problemas importantes: la dimensionalidad de las funciones (miles de funciones para una imagen determinada) y la redundancia (muchas funciones están fuertemente correlacionadas). La atención se ha centrado principalmente en cómo disminuir el número de características a extraer más que en cómo seleccionar las más generales (es decir, válidas). La selección de los descriptores más representativos, tanto artesanales como DTL, en imágenes biomédicas dista mucho de ser un proceso sencillo y es muy proclive al riesgo de que las características no dependan de los fenotipos celulares sino del brillo, artefactos de textura, cambios de foco , autofluorescencia y otras alteraciones impredecibles. Para resolver este problema, presentamos aquí una plataforma, denominada Deep-Manager (DM) (la rama azul en la Fig. 1), que permite identificar y seleccionar prácticamente las mejores características para una tarea de clasificación determinada después de la extracción por funciones personalizadas o después transferencia por una determinada red DL preentrenada definida por el usuario. El término profundo se refiere explícitamente a características profundas, para las cuales el problema de la selección eficiente de características no está resuelto y el riesgo de sesgo es enorme3. Sin embargo, como se demuestra en este trabajo, la plataforma también puede funcionar con intensidades artesanales y características de textura comúnmente cuantificadas en imágenes biomédicas. Por lo tanto, DM puede ayudar mucho a los biólogos en su práctica diaria para verificar la validez general de las características seleccionadas racionalmente. La plataforma DM identifica las características extraídas que representan específicamente las características de los objetos de células/tejidos, descartando las variaciones macroscópicas no específicas que ocurren involuntariamente en el conjunto de datos de entrenamiento. Esto es crucial cuando el proceso de adquisición de imágenes es muy complejo y en un límite práctico de repetibilidad (p. ej., ¿la intensidad de emisión verde medida se correlaciona con un evento específico o simplemente con fenómenos de autofluorescencia? En el nivel de baja intensidad, la respuesta no es trivial ). Por ejemplo, en experimentos biológicos con células vivas6, el proceso de adquisición puede ser largo (p. ej., días) y las condiciones de adquisición son difíciles de controlar durante todo el período, tanto cuando se usa luz de transmisión de contraste de fase como cuando se usa fluorescencia a intervalos de tiempo (TM) microscopía7,8. La heterogeneidad intraexperimental de las secuencias de video, así como la variación interexperimental debida a cambios no controlados en la configuración de adquisición9, también conducen a un alto riesgo de conclusiones erróneas debido a la baja validez de las características extraídas. Estos efectos inducen errores en el modelo de reconocimiento y conclusiones clínicas o biológicas engañosas (p. ej., respuesta al fármaco falsa). En este sentido, la plataforma DM permite seleccionar de forma eficiente, entre todas las características extraídas de una red neuronal DTL o mediante descriptores artesanales personalizados, aquellas que presentan una menor sensibilidad a las perturbaciones y, al mismo tiempo, un alto poder discriminante (Fig. 1 rama azul). Después de la aplicación de las diferentes pruebas de degradación al conjunto de datos de entrenamiento (Fig. 1 expansión derecha), las características se caracterizan en términos de su poder discriminante (DP) y sensibilidad a las degradaciones (SENS), medidas como la diferencia relativa en los valores de DP antes y después de la inyección de degradación (ver Métodos para más detalles). A continuación, se utiliza un enfoque de umbral múltiple para separar las características con DP alto y SENS bajo (puntos cian en la rama azul de la Fig. 1) de los otros grupos de características (DP bajo o/y alta sensibilidad, puntos verdes y azules en la Fig. 1 rama azul). Luego, las características seleccionadas se pueden usar en una tarea de clasificación propuesta por el usuario, en la que se solicita cargar un conjunto de prueba independiente de imágenes etiquetadas, el conjunto de datos de prueba, para verificar la validez de las características seleccionadas mediante la evaluación de su DP en un conjunto diferente ( Figura 1).

La rama roja identifica la práctica común en el análisis de imágenes biomédicas para la selección de características. De arriba a abajo: extraiga descriptores de intensidad y textura, seleccione características que tengan la mayor capacidad de discriminación en términos de AUC, construya un modelo de clasificación, pruebe el rendimiento sobre un conjunto de datos de validación externa. La rama azul identifica el flujo de trabajo de Deep-Manager. De arriba a abajo: modifique el conjunto de datos de entrenamiento generando los artefactos de imágenes ópticas según la modalidad de imagen (expansión derecha), extraiga características de intensidad, textura o CNN (características profundas) del conjunto de datos modificado, calcule la capacidad de discriminación en términos de AUC (o DP) y evalúe la sensibilidad de cada característica comparando el valor de DP antes y después de la perturbación, seleccione aquellas características con mayor DP y menor sensibilidad (marcadores cian), construya un modelo de clasificación sobre las características seleccionadas y pruebe en un conjunto de datos externo de imágenes La robustez impuesta en el paso de selección de características evita fallas en el paso de validación y asegura la construcción de un modelo de clasificación más generalmente válido.

El enfoque propuesto es general y se puede aplicar a cualquier arquitectura de procesamiento basada en redes neuronales profundas simplemente seleccionando una red entre un conjunto propuesto de redes existentes o, para usuarios con habilidades de programación, modificando el software Python para integrar redes propietarias, nuevas características , o también nuevas pruebas de perturbación. Para demostrar la utilidad de DM, aplicamos el software a cinco estudios de casos distintos. Estudio de caso n.° 1: videos de microscopía de fluorescencia de la muerte inducida por quimioterapia de células de cáncer de mama MDA-MB 231 en presencia de un indicador de apoptosis fluorescente verde10. Estudio de caso n.º 2: videos de microscopía TL de células de cáncer de próstata humano PC3, moviéndose en un entorno 2D en presencia del fármaco quimioterapéutico etopósido11. Estudio de caso n.° 3: videos de microscopía TL de contraste de fase de células inmunitarias que se mueven en un gel de colágeno 3D dentro de dispositivos microfluídicos de tumor en chip que imitan el microambiente del tumor12. Estudio de caso n.° 4: videos de microscopía de fluorescencia de células cancerosas forzadas a sufrir apoptosis por células T citotóxicas en un tumor en chip 3D;10 Estudio de caso n.° 5: imágenes estáticas de microscopía TL de contraste de fase de células de cáncer de mama BT-474 de la recientemente presentada conjunto de datos público LIVECell13. A continuación, nos referiremos a cada estudio de caso simplemente usando el número de estudio de caso. Además, para una mayor legibilidad, nos referimos a las modalidades de imágenes consideradas en la versión actual de DM-tool como: IM-ACQ-1 (microscopía de lapso de tiempo 2D TL), IM-ACQ-2 (microscopía de tiempo TL de contraste de fase 3D). -microscopía de lapso de tiempo), IM-ACQ-3 (microscopía de lapso de tiempo de fluorescencia 3D). Cada modalidad identifica pruebas específicas relacionadas con el equipo y las condiciones experimentales utilizadas, como se describe a continuación.

Para todos los cinco estudios de caso considerados, obtuvimos un desempeño muy bueno. En particular, al comparar los valores de sensibilidad promedio y poder discriminante (DP) promedio de las características seleccionadas por DM con las obtenidas por el mejor enfoque comparativo14,15, como la prueba t de dos muestras con estimación de varianza agrupada, la divergencia de Kullback-Leibler , límite de Chernoff, Mann-Whitney, área entre la curva característica operativa del receptor (ROC) empírica y ajuste de regresión lineal por pasos, obtuvimos una mejora en los valores de DP y sensibilidad en el rango de 6-10% y 56-69% respectivamente con el fuerza adicional de proporcionar automáticamente un conjunto reducido de características seleccionadas en lugar de una simple clasificación de características. Además, en el caso de estudio 5, también probamos la capacidad de discriminación de las características seleccionadas en un problema de clasificación binaria independiente obteniendo un AUC promedio de clasificación de 0.82 con una mejora promedio del AUC con respecto a una modalidad de no selección del 33%. Las pruebas de perturbación implementadas son típicas para cada modalidad de imagen (consulte la expansión derecha de la Fig. 1) y se pueden ampliar aún más de acuerdo con las perturbaciones adicionales de interés, la deriva del brillo del amplificador, etc.). Es importante enfatizar el hecho de que aunque las imágenes reales presentan sus propios artefactos nativos debido al protocolo de adquisición naturalmente imperfecto y la heterogeneidad de la muestra, necesitamos un escenario controlado en el que podamos cuantificar el efecto de la fuente conocida de perturbaciones de la imagen.

Para demostrar la efectividad de la plataforma de software Deep-Manager propuesta, seleccionamos cinco casos de uso diferentes. El primer caso de uso se refiere a la explotación de DM en la extracción de información de imágenes de células vivas, que es una práctica cotidiana común entre los biólogos. El caso clínico se refiere a características de intensidad artesanales relacionadas con la intensidad de emisión de GFP al discriminar la muerte natural de la muerte inducida por quimioterapia en células de cáncer de mama MDA-MB 23112. El segundo caso de uso se refiere a la extracción de características profundas sólidas mediante DTL en videos de microscopía TL de células de cáncer de próstata humano PC3 en un entorno 2D en presencia del fármaco quimioterapéutico etopósido11. El tercer caso de uso se refiere a la extracción de características profundas en videos de microscopía TL de contraste de fase de células inmunitarias que se mueven en un gel de colágeno 3D dentro de dispositivos microfluídicos de tumor en chip que imitan el microambiente tumoral12. El cuarto caso de uso considera el problema de extraer características profundas en videos de microscopía de fluorescencia 3D de células cancerosas que entran en apoptosis debido a la muerte por parte de las células T citotóxicas en tumor en chip 3D12. Finalmente, el quinto uso aborda una tarea de clasificación utilizando las funciones profundas extraídas utilizando la plataforma DM. Más específicamente, adquirimos imágenes estáticas de microscopía TL de contraste de fase de células de cáncer de mama BT-474 del conjunto de datos públicos recientemente publicado LIVECELL13, con la tarea de reconocer el factor de crecimiento del cáncer después de 4 h de cultivo en un plato en un experimento de 5 días. Los detalles de cada caso de uso se proporcionan en las siguientes secciones.

En este estudio de caso, comparamos el rendimiento de discriminación individual de las características artesanales derivadas de GFP en términos del valor p de la prueba t de Student con y sin la selección mediante la herramienta DM. Para la tarea de caracterizar y discriminar entre muerte natural e inducida por quimioterapia, seleccionamos cuatro videos independientes para cada condición (8 en total), con una duración de 70 h, adquiridos en un punto temporal de 1 h. Luego, identificamos automáticamente 431 cultivos, cada uno con una célula moribunda (es decir, una célula que morirá dentro de las 70 h) mediante el uso del código STAMP10, descargable en https://cloudstore.bee.uniroma2.it/index. php/s/LEpHYTsPnDj4Ajt (contraseña: STAMP2021).

En particular, 96 cultivos son de muerte natural y 335 cultivos son de muerte de células T citotóxicas. Se pueden encontrar más detalles del paso de procesamiento de imágenes en 10. Cada cultivo se ha caracterizado en términos de las siguientes características artesanales: emisión verde promedio en el cultivo, gmean, la emisión verde total en el cultivo gtot, el percentil 75 superior de la emisión verde en el cultivo g75, el percentil 25 inferior de emisión verde en el cultivo g25. Por lo general, se prefieren los valores de los percentiles 25 y 75 a los máximos y mínimos que están sujetos de manera impredecible a perturbaciones ocasionales. La capacidad de discriminación de las características calculadas en los cultivos disponibles se evalúa en términos del DP individual (max(1-AUC,AUC)) y en términos del valor p de una prueba t de Student de dos muestras pareadas (consulte las Ecs. (6), (7) en la Información Complementaria). Los resultados se muestran en la Fig. 2, panel A. La evidencia preliminar demostró la discriminabilidad de los dos fenómenos de muerte mediante el uso de los cuatro descriptores. Un valor de DP fue igual o superior a 0,70, y el valor de p fue inferior a 0,005. Para estar más seguros de los resultados, aplicamos la plataforma DM a los cultivos en el conjunto de entrenamiento. Al seleccionar el escenario correcto (microscopía de fluorescencia 3D), aplicamos pruebas de perturbación relacionadas con la autofluorescencia, el fotoblanqueo y la saturación y calculamos los cuatro descriptores {gmean, gtot, g75 y g25} sobre las imágenes modificadas. Los valores de DP de los descriptores se comparan luego con los obtenidos antes de las alteraciones de la imagen y se calcula la sensibilidad SENS para cada característica. El panel b de la Figura 2 muestra los nuevos diagramas de caja de los cuatro descriptores calculados sobre el conjunto modificado de imágenes, con el valor de DP, SENS y p correspondiente indicado. Como es evidente de inmediato, mientras que los descriptores {gmean, gtot} siguen siendo aceptablemente robustos, DP disminuye (pero por encima del umbral límite de 0,6) pero con un cambio porcentual (SENS) inferior al valor límite de 0,1. Por el contrario, los descriptores {g75 y g25} que se utilizan con frecuencia en la discriminación de eventos de muerte, presentan una fuerte disminución en los valores de DP: los valores de g25 DP van de 0,75 a 0,61 con una sensibilidad porcentual SENS igual a 0,18 muy por encima de la valor límite de 0,1 y g75 Los valores de DP van de 0,70 a 0,62 con un porcentaje de sensibilidad SENS igual a 0,11 aún más allá del valor límite de 0,1. Uno de los hechos más sorprendentes es también la permanencia de la significación estadística en términos de valor p para el descriptor g75. En otras palabras, la plataforma DM permite darse cuenta de qué descriptores tienen posibilidades de ser válidos para una plétora más grande de experimentos y con una mayor complejidad de fenómenos biológicos, relajando la confianza absoluta en el conjunto de entrenamiento, sino más bien como un subconjunto de un conjunto más amplio. y conjunto representativo.

a Una evaluación de la capacidad de discriminación y extracción de características estándar utilizando el valor p para cuatro características de intensidad de GFP hechas a mano {gmean, gtot, g25 y g75} calculadas sobre imágenes adquiridas mediante fluorescencia. Se han considerado n = 431 muestras biológicamente independientes. b Al aplicar la plataforma DM a las cuatro características de intensidad {gmean, gtot, g25 y g75}, algunos descriptores revelan que ya no son válidos para el análisis, p. ej., g75 y g25 porque son demasiado sensibles (SENS = 0,18 > thSENS (0.1) y SENS = 0.11 > thSENS (0.1) respectivamente) a perturbaciones (autofluorescencia, fotoblanqueo, saturación). Sin embargo, el descriptor g75 sigue siendo significativo en términos de análisis de prueba t (valor p < ***), pero presenta un valor de sensibilidad SENS mayor que el umbral debido a un empeoramiento inaceptable en el rendimiento de DP después de la inyección de perturbación. Se han considerado n = 1293 muestras biológicamente independientes.

En esta tarea, demostramos el principio de funcionamiento de la herramienta DM en los estudios de casos 2–4, dividiendo, para cada modalidad de imagen y cada prueba aplicada, las características profundas extraídas según los valores de sensibilidad y DP. En la Fig. 3a–c, mostramos los gráficos de puntuaciones (SENS, DP) para cada función extraída: los marcadores rojos indican el DP de las funciones sin la prueba de sensibilidad (se supone que SENS = 0), los marcadores cian indican el gráfico de puntuación de la función seleccionada. características, las azules y las verdes son las que se rechazan (alto SENS y bajo DP respectivamente). Las líneas naranjas indican los valores umbral para DP (línea horizontal) y para SENS (línea vertical). Los gráficos (a) a (c) indican los tres casos de estudio respectivamente, para cada prueba (de izquierda a derecha). También se indica el número de funciones seleccionadas.

Gráficos de puntuación (SENS, DP) de la función extraída mediante el aprendizaje por transferencia (en el ejemplo se usa 'Resnet101') para a–c Estudio de caso n.° 2, d–f Estudio de caso n.° 3, g–I Estudio de caso n.° 4 y para las tres pruebas para cada modalidad, a, d, g prueba 1, b, e, h prueba2, c, f, i prueba3. Los marcadores cian ubican los valores (SENS, DP) para cada descriptor seleccionado (DP alto y SENS bajo). Los marcadores azules ubican los valores (SENS, DP) para cada descriptor rechazado debido a un SENS demasiado alto. Los marcadores verdes ubican los valores (SENS, DP) para los descriptores rechazados debido a un DP demasiado bajo.

En esta tarea, comparamos el rendimiento de selección de características de la herramienta DM con otros métodos de selección existentes. Para evitar el efecto de compensación con un modelo de clasificación entrenado sobre las características seleccionadas y para apreciar la robustez de las características seleccionadas usando la herramienta propuesta, solo comparamos los valores de sensibilidad y DP de las características seleccionadas usando los enfoques. Con el objetivo de comparar diferentes enfoques de selección de características estándar con la selección de DM, procedemos de la siguiente manera. En primer lugar, extrajimos las características del conjunto de datos de entrenamiento original de las imágenes realizando transferencias de aprendizaje desde una CNN determinada y una capa de agrupación relacionada. Luego, clasificamos las funciones de acuerdo con un método comparativo entre las que se enumeran a continuación y conservamos el primer Nsel, donde Nsel es la cantidad de funciones seleccionadas por DM. Luego extraemos los valores de DP y SENS para las características seleccionadas cuando se calculan sobre el conjunto de datos con artefactos y los usamos para comparar. De esta forma, verificamos el potencial de seleccionar características usando el criterio de sensibilidad además del DP. Para mayor claridad, también el MÉTODO 5 utiliza el criterio DP para la clasificación pero sin la evaluación de la sensibilidad de las características. Como se verá a continuación, el criterio DP obtiene un rendimiento muy bajo si se usa solo. En particular, comparamos con los siguientes métodos: rankfeature basado en la clasificación de características por criterios de separabilidad de clases15 y modelo de regresión paso a paso14.

Más en detalle, consideramos:

MÉTODO 1: clasifique la función utilizando criterios como: prueba t, es decir, la prueba t de valor absoluto de dos muestras con estimación de varianza agrupada15.

MÉTODO 2: clasifique la característica utilizando criterios tales como: entropía, es decir, entropía relativa (divergencia de Kullback-Leibler)15.

MÉTODO 3: clasificar la función utilizando criterios como: Bhattacharyya, es decir, el error de clasificación mínimo alcanzable o el límite de Chernoff15.

MÉTODO 4: función de clasificación utilizando criterios como: Wilcoxon, es decir, el valor absoluto del estadístico u estandarizado de una prueba de Wilcoxon no apareada de dos muestras, también conocida como Mann-Whitney15.

MÉTODO 5: clasificar la característica utilizando criterios como: ROC, área entre la curva ROC empírica y la pendiente del clasificador aleatorio15.

MÉTODO 6: ajuste de regresión lineal paso a paso para la selección de características14.

Para cada subconjunto de características seleccionadas, evaluamos el gráfico de puntuación (SENS, DP) calculando las mismas características sobre el conjunto de imágenes con artefactos. Las figuras 4 a 6 ilustran diagramas de caja (cajas naranjas para SENS, cajas verdes para valores de DP) para las características seleccionadas de acuerdo con el método utilizado para la selección. Los diagramas de caja emparejados indicaron los valores de distribución (SENS, DP) para cada método. Como se puede observar, el MÉTODO 1 (prueba t) y el MÉTODO 4 (prueba de Wilcoxon) a menudo demuestran alcanzar un buen desempeño pero exhiben una distribución más amplia de valores para DP (recuadros verdes) y para SENS (recuadros naranjas). Por otro lado, el MÉTODO 2 (entropía), el MÉTODO 3 (Bhattacharyya), el MÉTODO 5 (ROC) y el MÉTODO 6 (ajuste lineal paso a paso) exhiben valores de DP inaceptablemente bajos, incluso si tienen valores de SENS muy bajos. Los resultados se confirman para todas las pruebas (PRUEBAS 1–3) y para todos los estudios de casos (estudios de casos 2, 3 y 4).

Los asteriscos amarillos identifican los valores promedio y la línea negra horizontal identifica el valor mediano. Los resultados son para el estudio de caso #2, IM-ACQ-1, pruebas 1(a)−3(c). Se han considerado n = 200 muestras biológicamente independientes.

Los asteriscos amarillos identifican los valores promedio y la línea negra horizontal identifica el valor mediano. Los resultados son para el estudio de caso #3, IM-ACQ-2, pruebas 1(a)−3(c). Se han considerado n = 200 muestras biológicamente independientes.

Los asteriscos amarillos identifican los valores promedio y la línea negra horizontal identifica el valor mediano. Los resultados son para el estudio de caso #4, IM-ACQ-3, pruebas 1(a)−3(c). Se han considerado n = 200 muestras biológicamente independientes.

Para demostrar aún más la efectividad del enfoque de selección de características de Deep-Manager, comparamos diferentes arquitecturas de red de Deep Learning entre las más utilizadas. Nuevamente, no implementamos un paso de clasificación sobre las características seleccionadas para evitar enmascarar la solidez de las características seleccionadas. La comparación se realizará en términos de sensibilidad y valores de DP. En particular, consideramos ResNET10116, VGG1917, NasNETLarge18 y DenseNET20119. Las capas utilizadas para cada arquitectura se seleccionan como una compensación entre el almacenamiento de memoria y el tiempo (las capas más profundas proporcionan una representación más gruesa de la imagen, por lo tanto, extraen menos descriptores) y el rendimiento de la discriminación. La Tabla 1 enumera las capas utilizadas y el número de descriptores considerados para el análisis. Las tablas 2 a 4 muestran los resultados numéricos de DP y SENS de las características seleccionadas por cada método comparativo (columnas 2 a 7) y la herramienta DM (primera columna), utilizando las redes y las capas enumeradas en la Tabla 1, para estudios de casos #2–#4. Los MÉTODOS 1–6 se aplican de la siguiente manera. En primer lugar, las características se extraen aplicando una red y una capa determinadas sobre el conjunto de datos original de las imágenes de entrenamiento. Luego, las características se clasifican de acuerdo con el criterio incluido en los métodos (1 a 5) o se seleccionan directamente mediante el método 6. Después de la clasificación, las características se seleccionan tomando las primeras características Nsel clasificadas, donde Nsel es el número de características seleccionadas con la herramienta DM. Al extraer también las mismas características sobre el conjunto de datos de imágenes modificado (obtenido después de aplicar las pruebas adecuadas según la modalidad de imagen), luego calculamos el SENS y el nuevo DP que se enumeran en la Tabla 2. De esta manera, podemos evaluar directamente la importancia de usar el criterio de sensibilidad junto con el valor de DP, especialmente al comparar el enfoque de DM con el MÉTODO 5 que en realidad usa un criterio de clasificación similar al de DP, pero evalúa en el conjunto de datos original y sin el apoyo del procedimiento de evaluación de sensibilidad. Los valores promedio de SENS y DP se enumeran en la tabla, mientras que los valores entre paréntesis representan la desviación estándar calculada sobre el conjunto de características seleccionadas. Los mejores resultados para cada prueba están en negrita. Como puede verse, en las 36 pruebas, Deep-Manager logra valores de DP más altos o equivalentes para las características seleccionadas. Cabe destacar el hecho de que los MÉTODOS 1–5 no proporcionan de forma autónoma un subconjunto de características seleccionadas, sino un resultado de clasificación de características. Por lo tanto, los MÉTODOS 1–5 requerirían un paso de optimización adicional para la selección de características. Por el contrario, el MÉTODO 6 (regresión lineal paso a paso) que en realidad devuelve un subconjunto de características seleccionadas nunca proporciona resultados aceptables en términos de DP de las características extraídas cuando se calculan los rendimientos sobre las características extraídas en el conjunto modificado de imágenes.

Las redes neuronales convolucionales se componen de operaciones de convolución anidadas repetidas alternadas con operaciones no lineales y capas de agrupación. Es bastante impredecible qué capas usar para una implementación óptima del aprendizaje por transferencia. Por lo general, se prefieren las capas de agrupación debido al hecho de que devuelven un conjunto de información más compacto con respecto a cualquier capa convolucional anterior. Con el objetivo de presentar un mayor potencial de la plataforma Deep-Manager, comparamos los valores de DP para características seleccionadas de diferentes capas de diversas CNN. Se proporcionan resultados para el estudio de caso 2 (cultura 2D) utilizando redes ResNET101 (max-pool1 y avg-pool5), VGG19 (max-pool1, max-pool2, max-pool3, max-pool4, max-pool5) y DenseNET201 ( max-pool1, avg-pool2, avg-pool3, avg-pool4, avg-pool5). NasNetLarge no está representado aquí ya que presenta una capa de agrupación única (es decir, global_average pool5). La Figura 7 compara la distribución de DP de características seleccionadas de cada capa. Los experimentos anteriores destacan la importancia de seleccionar la capa de agrupación correcta. Como se puede observar los valores de DP de las características seleccionadas dependen de la capa y de la prueba aplicada. En promedio, se puede notar que una capa intermedia (pool3 para DenseNET201 y para VGG19) alcanza los valores de DP más altos para la prueba 1 y la prueba 2 (estudio de caso 2). Por el contrario, pool5 alcanza el mejor desempeño en los valores promedio de DP para la prueba 3 (caso de estudio 2). Sin embargo, este hecho debería estar correlacionado con un número muy inferior de funciones para administrar a medida que la capa se vuelve más profunda y, en consecuencia, con un menor consumo de tiempo.

a ResNET101, max-pool1, avg-pool5. b VGG19, map-pool1, max-pool2, max-pool3, max-pool4, max-pool5. c DenseNET201, max-pool1, avg-pool2, avg-pool3, avg-pool4 y avg-pool5. n = 46770 datos independientes se han utilizado para el panel (a), n = 127667 datos independientes se han utilizado para el panel (b), n = 26675 datos independientes se han utilizado para el panel (c).

En esta tarea, reforzamos el potencial de usar la herramienta DM mediante la implementación de una tarea de clasificación basada en la Máquina de vectores de soporte (SVM) entrenada sobre las características profundas seleccionadas por la herramienta DM. Con esto en mente, seleccionamos un estudio de caso del conjunto de datos etiquetados LIVEcell recientemente publicado13. En particular, con el objetivo de presentar una aplicación práctica en línea con los ejemplos utilizados en este trabajo, seleccionamos células BT-474, células de cáncer de mama cultivadas en balsas. La tarea era reconocer el factor de crecimiento del cáncer después de 4 h. Luego comparamos las celdas en el día 0 con las celdas visualizadas después de 4 h y aplicamos la plataforma DM para seleccionar las características profundas más discriminantes y robustas para la tarea. La figura 8 muestra cinco ejemplos de células de cada grupo.

Algunos ejemplos de cultivos de células BT-474 adquiridas en el día 0, hora 0 (fila superior), b Células BT-474 adquiridas en el día 0, hora 4. Barra de escala correspondiente a 40 mm.

Las anotaciones nos permiten ubicar cada celda y extraer una Región de interés (ROI) a su alrededor. De acuerdo con los resultados de la simulación que se muestran en la Fig. 7, seleccionamos CNN Densenet201 con la capa de agrupación promedio 'average_pool5' que exhibió los valores de DP promedio más altos para las tres pruebas. Para crear un escenario desafiante, realizamos la tarea de clasificación de discriminar las celdas en el día 0, hora 0 de las celdas en el día 0, hora 4. Para hacer la tarea realista, evitando el sobreentrenamiento del modelo, aplicamos las pruebas de perturbación 1- 3 (luminancia, movimiento y desenfoque) a las imágenes del conjunto de prueba, tal como lo proporciona el conjunto de datos LIVEcell. Extrajimos todos los 5554 ROI anotados en el conjunto de datos de entrenamiento y probamos los 1912 ROI del conjunto de prueba después de aplicar las perturbaciones aleatorias descritas en el método. Las características extraídas a través de la caja de herramientas de DM luego se alimentaron a una SVM con un modelo de clasificación kernel20 lineal con el objetivo de reconocer los cambios en la morfología de las células en la cuarta hora de cultivo. Siendo el número de características seleccionadas muy bajo (de 2 a 5 sobre 1920 extraídos por la red), también realizamos simulaciones bajando el valor umbral thDP utilizado para la selección de características según sus valores de DP sobre el conjunto de entrenamiento. Consideramos el intervalo de valores para thDP igual a [0.5 ÷ 0.7] en un paso de 0.05. Las Figuras 9–11 (panel a) muestran la precisión de la clasificación (ACC) y los valores del Área bajo la curva (AUC) y las Figs. 9–11 (panel b) muestran los valores de puntuación F1 relacionados con las tres pruebas variacionales para el entorno de luz de transmisión 2D. El conjunto de imágenes de prueba independiente se ha modificado de acuerdo con la Fig. 9a, b la prueba de brillo para el escenario 2D, la Fig. 10a, b la prueba de movimiento para el escenario 2D, la Fig. 11a, b la prueba de desenfoque para el escenario 2D. Las líneas azules indican los resultados de rendimiento calculados sobre el conjunto de entrenamiento, las líneas rojas indican los resultados de rendimiento calculados sobre el conjunto de prueba modificado y las líneas verdes representan los resultados de rendimiento logrados al no seleccionar características. Como se puede observar claramente, la oportunidad de seleccionar las funciones no solo permite un mayor rendimiento de clasificación en términos de ACC, F1-score y AUC, sino que también reduce considerablemente el tiempo requerido por el modelo para ser entrenado. En las tres pruebas, la precisión del entrenamiento de la clasificación, los valores de puntuación F1 y los valores de AUC disminuyen con una menor cantidad de características seleccionadas (mayor thDP). Al mismo tiempo, aumentan la precisión de las pruebas de clasificación, los valores de puntuación F1 y los valores de AUC. Este fenómeno demuestra una tendencia decreciente de sobreentrenamiento y una mayor solidez del sistema a las variaciones de imagen. Los bajos resultados obtenidos al no seleccionar las características (líneas verdes) demostraron además la importancia del uso de la herramienta DM. Como comparación final, ajustamos la red DENSENET201 preentrenada sobre el mismo conjunto de imágenes de entrenamiento después de la aplicación de perturbaciones test1-test3 para imágenes IM-ACQ-1. Las opciones de entrenamiento para el método de optimización Stochastic Gradient Descent with Momentum (SGDM) fueron 10 épocas (1000 iteraciones por época), mezcla de datos en cada época, tamaño de minilote igual a 10, tasa de aprendizaje inicial de 0,001. La capacitación duró aproximadamente 33 h en Matlab 2022b, utilizando la GPU NVIDIA GeFORCE RTX e Intel Core i7, 9.ª generación. Además, seleccionamos aleatoriamente 5000 datos de entrenamiento de 16662 por limitaciones de tiempo computacional. Luego aplicamos la red sintonizada al conjunto de prueba utilizado en los experimentos anteriores. Los resultados logrados en términos de ACC se muestran en las Figs. 9–11 como la línea cian. Además, también aplicamos el criterio de selección de características de DM a las características profundas extraídas por la red DENSENT201 ajustada. Los resultados están representados por las líneas negras. Como se puede notar, la red ajustada no es sensible al procedimiento de selección de características, probablemente debido al paso de ajuste. Por otro lado, la capacidad de generalización de la red ajustada sigue siendo bastante baja. Aunque los resultados son comparables en términos de puntajes ACC y F1, un tiempo de entrenamiento de 33 h y la necesidad de volver a entrenar la red en presencia de nuevas pruebas de perturbación, según sea necesario, hacen que la herramienta DM sea el enfoque de mejor desempeño considerando también que su conjunto reducido de características con respecto a la red ajustada se utiliza como entrada para los modelos de clasificación.

Rendimiento de clasificación de la selección de DM en combinación con el modelo de clasificación SVM en términos de ACC (panel a del eje y izquierdo) y puntuación F1 (panel b del eje y izquierdo) frente a AUC (eje y derecho) en el reconocimiento morfológico de células BT-474 cambios a lo largo de 4 h de cultivo en el día 0. El conjunto de imágenes de prueba independiente se ha modificado de acuerdo con la prueba de brillo para el escenario 2D. Las líneas azules indican los resultados de rendimiento calculados sobre el conjunto de entrenamiento, las líneas rojas indican los resultados de rendimiento calculados sobre el conjunto de prueba modificado, las líneas verdes representan los resultados de rendimiento logrados al no seleccionar funciones, la línea cian identifica el rendimiento de la red DENSENET201 ajustada, las líneas negras representan el rendimiento de aplicar el procedimiento de selección de características de DM a las características extraídas por la red DENSENET201 ajustada. Se usaron n = 10 repeticiones para extraer el diagrama de caja.

Rendimiento de clasificación de la selección de DM en combinación con el modelo de clasificación SVM en términos de ACC (panel a del eje y izquierdo) y puntuación F1 (panel b del eje y izquierdo) frente a AUC (eje y derecho) en el reconocimiento morfológico de células BT-474 cambios a lo largo de 4 h de cultivo en el día 0. El conjunto de imágenes de prueba independiente se ha modificado de acuerdo con la prueba de movimiento para el escenario 2D. Las líneas azules indican los resultados de rendimiento calculados sobre el conjunto de entrenamiento, las líneas rojas indican los resultados de rendimiento calculados sobre el conjunto de prueba modificado, las líneas verdes representan los resultados de rendimiento logrados al no seleccionar funciones, la línea cian identifica el rendimiento de la red DENSENET201 ajustada, las líneas negras representan el rendimiento de aplicar el procedimiento de selección de características de DM a las características extraídas por la red DENSENET201 ajustada. Se usaron n = 10 repeticiones para extraer el diagrama de caja.

Rendimiento de clasificación de la selección de DM en combinación con el modelo de clasificación SVM en términos de ACC (panel a del eje y izquierdo) y puntuación F1 (panel b del eje y izquierdo) frente a AUC (eje y derecho) en el reconocimiento morfológico de células BT-474 cambios a lo largo de 4 h de cultivo en el día 0. El conjunto de imágenes de prueba independiente se ha modificado de acuerdo con la prueba fuera de foco para el escenario 2D. Las líneas azules indican los resultados de rendimiento calculados sobre el conjunto de entrenamiento, las líneas rojas indican los resultados de rendimiento calculados sobre el conjunto de prueba modificado, las líneas verdes representan los resultados de rendimiento logrados al no seleccionar funciones, la línea cian identifica el rendimiento de la red DENSENET201 ajustada, las líneas negras representan el rendimiento de aplicar el procedimiento de selección de características de DM a las características extraídas por la red DENSENET201 ajustada. Se usaron n = 10 repeticiones para extraer el diagrama de caja.

El mayor objetivo de todos aquellos que desarrollan técnicas de análisis de datos para aplicaciones médicas es ver su trabajo utilizado en un contexto real. Desafortunadamente, la transición de los excelentes resultados obtenidos en el laboratorio, por ejemplo, en un hospital, es todo menos fácil. En el escenario real de medición, muchas variables no están controladas y sus variaciones pueden conducir a desempeños no aceptables. Tal problema es aún más crítico cuando se aborda en el contexto de las características de aprendizaje profundo debido a la falta de una relación conocida a priori entre los descriptores de caja negra (características profundas) y las propiedades fenotípicas de las entidades biológicas en estudio. En este trabajo, presentamos una plataforma de software llamada Deep-Manager, que contrarresta esta limitación analizando el rendimiento y la sensibilidad de cada característica a diferentes perturbaciones. La potencialidad del enfoque propuesto ha sido validada en cinco casos de estudio diferentes y diferentes artefactos simulados, evidenciando desempeños superiores con respecto a las soluciones estándar.

La plataforma Deep-Manager permite a los usuarios realizar pruebas de sensibilidad específicas a su propio conjunto de datos de imágenes para seleccionar las características más apropiadas para la tarea de clasificación específica. Las pruebas de sensibilidad tienen como objetivo detectar qué características extraídas de algoritmos ad hoc (hechos a mano) o de una red de aprendizaje profundo preespecificada a través del enfoque de aprendizaje de transferencia son más sensibles a las cantidades y fenómenos externos que son específicos de la adquisición. Entre el amplio panorama existente de dispositivos de adquisición y montaje experimental, con el fin de probar la eficacia del método propuesto, seleccionamos tres de los contextos prácticos más utilizados en el campo del análisis de imágenes biológicas: Microscopía de lapso de tiempo de luz de transmisión 2D , microscopía de lapso de tiempo de contraste de fase 3D y microscopía de lapso de tiempo de fluorescencia 3D. Por lo tanto, las pruebas de sensibilidad implementadas están pensadas para esos contextos. Sin embargo, la lista de posibles pruebas de la plataforma Deep-Manager podría ampliarse en el futuro a otros campos como la imagen histopatológica o la inmunofluorescencia indirecta. Por esta razón, en el resto, indicaremos el lanzamiento actual como versión Deep-Manager 1.0. Enlace: https://github.com/BEEuniroma2/Deep-Manager. Todos los datos necesarios para reproducir las figuras se encuentran en el archivo de Datos Suplementarios 1.

Con respecto a la modalidad de imagen, la versión actual de DM-tool consideró tres modalidades de imagen distintas (Notas complementarias 1.1): IM-ACQ-1 (microscopía de lapso de tiempo 2D TL, sección de notas complementarias), IM-ACQ-2 (TL de contraste de fase 3D microscopía de lapso de tiempo), IM-ACQ-3 (microscopía de lapso de tiempo de fluorescencia 3D). Cada modalidad identifica pruebas específicas relacionadas con el equipo y las condiciones experimentales utilizadas.

Para la modalidad IM-ACQ-1 implementamos "Artefacto de brillo", "Artefacto de multiposicionamiento de escenario", "Artefacto de desenfoque". Los estudios de caso #2 y #5 se refieren a este escenario. Para la modalidad IM-ACQ_2 incluimos las pruebas "Variación de brillo", "Local-fuera de foco" y "Variación de textura de gel". El estudio de caso #3 se refiere a tal escenario. Finalmente, para la modalidad IM-ACQ-3, incluimos "autofluorescencia del medio de cultivo", "fotoblanqueo" y "saturación de fluorescencia". Los casos de estudio #1 y #4 se refieren a dicha modalidad. Se pueden encontrar detalles matemáticos adicionales en las Notas complementarias (Secciones 1.1, IM-ACQ-1 – IM-ACQ-2, Figuras complementarias 1–9).

La plataforma DM permite dos modalidades distintas: 1. Características de intensidad y textura artesanales 2. Características profundas del algoritmo Deep Transfer Learning (DTL). Los usuarios con conocimientos de programación también pueden agregar funciones personalizadas con características adicionales específicas. Un extractor de descriptores geométricos requeriría un paso de segmentación preliminar para extraer la forma de cada celda. Por defecto, la plataforma propone algunos descriptores de intensidad y textura bien conocidos que se calculan sobre la imagen original (o la imagen sujeta a perturbaciones). La lista de descriptores de intensidad disponibles es: intensidad media, intensidad mediana, desviación estándar de la intensidad, intensidad mínima, percentil 10 de la intensidad, percentil 25 de la intensidad, percentil 75 de la intensidad, percentil 90 de la intensidad, intensidad máxima , entropía de la intensidad21. En cuanto a los descriptores de textura, la plataforma DM incluye características Haralick22 y características Histogram of Oriented Gradient (HoG)23. Se pueden encontrar más detalles en las referencias y en la Sección 1.2 de las Notas complementarias "Características artesanales". Al seleccionar diferentes capas profundas, la imagen de entrada se codifica en un número diferente de descriptores, desde una representación detallada (capas más altas) hasta una codificación más gruesa (capas muy profundas). De forma predeterminada, la plataforma DM incluye varias arquitecturas de aprendizaje profundo conocidas: ResNET10116, VGG1917, NasNETLarge18 y DenseNET20119. Cada red presenta las llamadas capas de agrupación, que reducen las dimensiones de los datos al combinar las salidas de los grupos de neuronas en una capa en una sola neurona en la siguiente capa16,24.

La plataforma Deep-Manager se ha realizado en el lenguaje de código abierto Python 3.8 en el marco Anaconda. La arquitectura general de la plataforma se ha pensado para diferentes niveles de experiencia. Se alimenta un archivo de texto al software DM que incluye una lista de parámetros y valores de rango relacionados que se utilizarán en la implementación y aplicación de los artefactos. Un archivo de texto único está disponible para todas las pruebas para que el usuario pueda ejecutar repetidamente la plataforma modificando un archivo de CONFIGURACIÓN único. Los usuarios avanzados también pueden modificar las pruebas o agregar una nueva incluyendo correctamente los parámetros de configuración en el archivo SETTING. Los pasos principales de las funcionalidades de DM son: (1) primero se le pide al usuario que seleccione el escenario práctico para trabajar (tal selección permite que la plataforma guarde los resultados de la selección final en un archivo específico numerado de acuerdo con el número de prueba (por ejemplo, 2D TL microscopía, microscopía TL de contraste de fase 3D o fluorescencia 3D). Se aplican todas las pruebas disponibles para la modalidad seleccionada; (2) luego se le pide al usuario que seleccione el archivo de texto SETTING para cargar la configuración de DM. Los parámetros utilizados se enumeran en las Notas complementarias, Sección Parámetro del algoritmo. El archivo también incluye el nombre de la red utilizada para el aprendizaje de transferencia y la capa utilizada para extraer las características, si corresponde. Los detalles específicos se proporcionan en los Métodos para cada prueba. (3) el usuario luego se le pide que seleccione la ruta donde se almacena el conjunto de datos de entrenamiento de imágenes. Los detalles se pueden encontrar en la Guía de DM https://github.com/BEEuniroma2/Deep-Manager; (4) se le pide al usuario que seleccione la ruta hecha a mano o la modalidad DTL. En consecuencia, si se elige la selección artesanal, la plataforma calcula automáticamente un conjunto de características de textura e intensidad. Si se selecciona DTL, la plataforma lee la información de configuración con respecto a qué red y capa elegir en el archivo CONFIGURACIÓN mencionado anteriormente. DM aplica las perturbaciones de acuerdo con las pruebas descritas anteriormente y calcula las características antes y después de la perturbación; (5) El usuario puede visualizar efectos de perturbación en imágenes seleccionadas al azar. También es posible visualizar en un gráfico 2D los valores de DP vs SENSIBILIDAD para las características seleccionadas y no seleccionadas; finalmente, (6) se le pide al usuario que seleccione un directorio que contenga dos conjuntos de datos de validación en los que seleccionar las características para una tarea de discriminación. Se permiten todos los formatos de imagen, .jpeg, .tiff, .png, etc. Luego, las características seleccionadas se calculan para el conjunto de datos de validación y se guardan en una variable de repositorio separada para usar en una tarea de clasificación. El usuario también puede guardar el conjunto modificado de imágenes de entrenamiento para su uso posterior. El proceso de selección funciona de la siguiente manera; utilizando los dos valores obtenidos para cada descriptor fi, es decir, fi0 y fimod, antes y después de las perturbaciones, el software deriva los valores de potencia discriminante (DP) individuales de la siguiente manera:

y luego, calcula la Sensibilidad (SENS) del descriptor fi a la perturbación agregada de la siguiente manera:

donde \({{{{{\rm{AUC}}}}}}{({f}_{i0})}_{{{{{\rm{clase1}}}}}}^{{{{ {\rm{clase2}}}}}}\) indica el área bajo la curva característica operativa de recepción (ROC)25 de la característica fi0 al discriminar clase1 de clase2. Consideramos aquí DP igual al valor máximo entre 1-AUC y AUC, siendo AUC una forma de cuantificar la capacidad de discriminación de un descriptor en un problema de clasificación binaria17. Con respecto al valor de AUC, se ha elegido el DP de cada característica debido a su invariancia a la relación directa o inversa "característica a etiqueta". En otras palabras, los valores AUC altos o bajos (ambos indicativos de capacidad altamente discriminante) corresponden a valores altos de DP.

El software aplica un valor de umbral thDP para clasificar los descriptores según los valores de DP y un valor de umbral thSENS para clasificar los descriptores según los valores de sensibilidad. A la luz de esto, los descriptores se clasifican en diferentes regiones: DP alto y SENS bajo (los seleccionados) que tienen DP mayor que thDP y sensibilidad menor que thSENS (marcadores cian en la Fig. 12), SENS alto, es decir, los rechazados debido a la alta sensibilidad mayor que thSENS al artefacto (marcadores azules en la Fig. 12), y baja DP menor que thDP, es decir, aquellas rechazadas por su bajo poder discriminante (marcadores verdes en la Fig. 12).

Los marcadores rojos ubican los valores de DP para los descriptores extraídos mediante el aprendizaje por transferencia antes de la modificación de la imagen. Se supone que los valores de sensibilidad son cero y se calculan antes de la aplicación de la prueba. Los marcadores cian ubican los valores (SENS, DP) para cada descriptor con DP alto y SENS bajo. Los marcadores azules ubican los valores (SENS, DP) para cada descriptor con SENS alto. Los marcadores verdes ubican los valores (SENS, DP) para los descriptores con DP bajo.

Los valores de umbral se cargan en el archivo de texto AJUSTES y pueden ser modificados por el usuario ya que dependen mucho de la aplicación. En la Fig. 10 se muestra un esquema del posible resultado de Deep-Manager. Siendo los valores de DP en el rango [0.5,1], los valores admisibles de thDP están en el rango [0.6–0.8] según la capacidad de discriminación de las características extraídas en el caso concreto. En cuanto a la sensibilidad, se encuentra normalmente en el rango de [0.05–0.1] siendo esta la variación esperada del DP antes y después de la perturbación. Cuando el umbral thDP es demasiado alto o thSENS es demasiado pequeño y no se selecciona ninguna función, la herramienta envía una alerta al usuario para que elija diferentes valores de umbral.

Se ha utilizado un Leica DMi8 invertido equipado con una cámara Retiga R6 y un motor de luz Lumencor SOLA SE 365, utilizando un objetivo 5X, para adquirir imágenes de lapso de tiempo. Los cubos de filtro utilizados fueron TXRed (filtro de excitación 560/40 nm, filtro de emisión 630/75 nm, espejo dicroico 585 nm) y GFP (filtro de excitación 470/40 nm, filtro de emisión 525/50 nm, espejo dicroico 495 nm). Se usó un tinte fluorescente vivo (CellTrace, rojo) para preteñir selectivamente las células cancerosas antes de los cultivos en el chip. Para monitorear la muerte apoptótica, se agregó un indicador fluorescente vivo para la actividad de la caspasa (CellEvent Caspase-3/7, verde) al medio de cultivo en el chip. El canal rojo se usó luego para ubicar las células10 mientras que la transposición en el canal verde de la posición de la célula cancerosa permitió monitorear la señal de emisión verde y, por lo tanto, los eventos de muerte. Se cocultivaron células de cáncer de mama (línea celular BT474, representativa del subtipo de cáncer de mama HER2+) en geles de colágeno biomiméticos 3D, dentro de dispositivos de microfluidos, con células inmunitarias (PBMC, células mononucleares de sangre periférica de donantes sanos), con o sin la adición de la inmunoterapia dirigida, el trastuzumab (nombre comercial Herceptin). Con el objetivo de demostrar la ventaja de usar la herramienta DM en la práctica común, extrajimos características artesanales relacionadas con la emisión verde y comparamos el caso de la práctica estándar con el uso de la herramienta DM.

En el caso de los experimentos de microscopía de lapso de tiempo 2D TL, una buena selección de características es de vital importancia para excluir aquellas características que varían de acuerdo con cambios impredecibles, como la deriva de luminancia, el parpadeo, los cambios de enfoque con el tiempo, etc., que pueden dificultar irremediablemente la interpretación de datos. Con el objetivo de probar la validez de la plataforma Deep-Manager propuesta en dicho contexto, analizamos las células cancerosas antes y después de la exposición al fármaco quimioterapéutico etopósido, un inhibidor de la topoisomerasa II que bloquea la replicación del ADN celular y que afecta profundamente la motilidad, la forma y el funcionamiento de las células. granularidad a lo largo del tiempo, características que pueden malinterpretarse fácilmente si se someten a deriva de luminancia, parpadeo, etc. L-glutamina (2 mM), y penicilina/estreptomicina al 1% (100 UI/mL) (Euroclone), a 37 °C en una atmósfera humidificada de 5% de CO2 en el aire. En cada experimento se sembraron 40.000 células/mL en placas de Petri de 35 mm (Euroclone). Setenta y dos horas después de la siembra, las células se trataron con el fármaco quimioterapéutico etopósido (Sigma-Aldrich), un inhibidor de la topoisomerasa II que bloquea la replicación del ADN celular, a las concentraciones finales de 0 y 5 μM y se analizaron inmediatamente para el lapso de tiempo. Las imágenes se adquirieron a través de un microscopio invertido a pequeña escala personalizado a un cuadro por minuto, con 6 h de tiempo experimental total. En los resultados presentados, consideramos las dos condiciones extremas, 0 y 5 μM.

Se cocultivaron células de cáncer de mama (línea celular BT474, representativa del subtipo de cáncer de mama HER2+) en geles de colágeno biomiméticos 3D, dentro de dispositivos de microfluidos, con células inmunitarias (PBMC, células mononucleares de sangre periférica de donantes sanos), sin o con la adición de la inmunoterapia dirigida, el trastuzumab (nombre comercial Herceptin). Para más detalles, consulte la publicación biológica original12. En este caso de uso, demostramos cómo la capacidad de discriminación de características profundas del efecto de la inmunoterapia dirigida en tumores de mama está influenciada por alteraciones de imagen y comparamos los resultados con los obtenidos utilizando enfoques de selección de características estándar utilizando diversas arquitecturas de aprendizaje profundo.

Las células de cáncer de pulmón (IGR-Pub) se cocultivaron en geles de colágeno biomiméticos 3D, dentro de dispositivos microfluídicos, sin o con células inmunitarias (células T citotóxicas autólogas, clon P62). Se añadió el reactivo de detección verde CellEvent Caspase-3/7 (Thermofisher, n.° C10423) al medio para visualizar las células que sufrían apoptosis en el canal verde. Para más detalles, consulte la publicación biológica original10. En este caso de uso, demostramos cómo la capacidad de discriminación de características profundas del efecto citotóxico de células T en tumores de pulmón está influenciada por alteraciones de imagen y comparamos los resultados con los obtenidos utilizando enfoques de selección de características estándar y diversas arquitecturas de aprendizaje profundo.

Con el objetivo de demostrar el potencial de seleccionar características profundas a través de la herramienta DM propuesta, seleccionamos un estudio de caso del conjunto de datos etiquetados LIVECell publicado recientemente13. En particular, con el objetivo de presentar una aplicación práctica en línea con los ejemplos utilizados en este trabajo, seleccionamos células BT-474, células de cáncer de mama cultivadas en balsas. Las líneas celulares se compraron de ATCC y se cultivaron según las recomendaciones de los proveedores. Se sembraron varios pocillos para cada tipo de célula en placas de 96 pocillos (Corning) y se tomaron imágenes en el transcurso de 5 días, cada 4 h utilizando un sistema de análisis de células vivas Incucyte S3 (Sartorius) equipado con su cámara CMOS estándar (Basler acA1920- 155um). Dicho equipo evitó la presencia del anillo de fase que se encuentra en las imágenes de fase de Zernike convencionales. Las imágenes TL de contraste de fase se adquirieron usando un objetivo ×10 desde dos posiciones en cada pocillo y luego se recortaron en cuatro imágenes de igual tamaño (704 × 520 píxeles correspondientes a 0,875 × 0,645 mm2). Las imágenes fueron luego anotadas por un equipo de expertos.

La significación estadística se evaluó implementando una prueba t de Student. La repetibilidad se aseguró mediante un submuestreo aleatorio de 10 usando un enfoque de validación cruzada de retención (p. ej., Figs. 9-11). El número de muestras utilizadas para cada análisis estadístico se incluyó en el pie de figura correspondiente.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los autores declaran que los datos que respaldan los hallazgos de este estudio están disponibles en el documento [y sus archivos de información complementarios]. Cualquier otro apoyo y solicitud se puede enviar al correo electrónico del autor correspondiente: [email protected] o llenando el formulario que se encuentra en https://web.bee.uniroma2.it/our-contacts/. Las imágenes que pertenecen al conjunto de datos LIVECell se pueden descargar en https://sartorius-research.github.io/LIVECell/. Véase también ref. 13

El software Deep-Manager y las imágenes de ejemplo para ejecutar el código se pueden descargar gratuitamente en https://github.com/BEEuniroma2/Deep-Manager.

Zhang, D., Zou, L., Zhou, X. & He, F. Integración de métodos de selección y extracción de características con aprendizaje profundo para predecir el resultado clínico del cáncer de mama. Acceso IEEE 6, 28936–28944 (2018).

Artículo Google Académico

Jelen, L., Krzyzak, A., Fevens, T. & Jelen, M. Influencia de la reducción del conjunto de características en la clasificación de malignidad del cáncer de mama de las biopsias por aspiración con aguja fina. computar Biol. Medicina. 79, 80–91 (2016).

Artículo PubMed Google Académico

Walsh, I. et al. DOMO: recomendaciones para la validación del aprendizaje automático supervisado en biología. Nat. Métodos 18, 1122–1127 (2021).

Artículo CAS PubMed Google Académico

Wu, Z. et al. DynaMorph: aprendizaje de estados morfodinámicos de células humanas con imágenes en vivo y sc-RNAseq. mol. Biol. Celúla. 33, https://doi.org/10.1091/mbc.E21-11-0561 (2022).

Moen, E. et al. Aprendizaje profundo para el análisis de imágenes celulares. Nat. Métodos 16, 1233–1246 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Caldon, CE y Burgess, A. Seguimiento cuantitativo del destino unicelular, sin etiquetas, de películas de lapso de tiempo. MethodsX 6, 2468–2475 (2019).

Artículo PubMed PubMed Central Google Académico

Specht, EA, Braselmann, E. & Palmer, AE Una revisión crítica y comparativa de las herramientas fluorescentes para la obtención de imágenes de células vivas. año Rev. Fisiol. 79, 93–117 (2017).

Artículo CAS PubMed Google Académico

Billinton, N., Knight, AW & Knight, AW Ver la madera a través de los árboles: una revisión de las técnicas para distinguir la proteína verde fluorescente de la autofluorescencia endógena. Anal. Bioquímica 201, 175–197 (2001).

Artículo Google Académico

Neumann, M. & Gabel, D. Método simple para la reducción de autofluorescencia en microscopía de fluorescencia. J. Histochem. citoquímica. 50, 437–439 ​​(2002).

Artículo CAS PubMed Google Académico

Veith, I. et al. El mapeo de la apoptosis en el espacio y el tiempo de los ecosistemas tumorales 3D revela la transmisibilidad de la muerte por cáncer citotóxico. Cómputo PLoS. Biol. 17, 1–23 (2021).

Artículo Google Académico

Di Giuseppe, D. et al. Aprendizaje de la eficacia de los fármacos relacionados con el cáncer aprovechando el consenso en la motilidad coordinada dentro de los grupos de células. Trans. IEEE. biomedicina Ing. 66, 2882–2888 (2019).

Artículo PubMed Google Académico

Nguyen, M. et al. Efectos de disección de medicamentos contra el cáncer y fibroblastos asociados con el cáncer mediante la reconstitución en chip de microambientes tumorales inmunocompetentes. Rep. Celular 25, 3884–3893.e3 (2018).

Artículo CAS PubMed Google Académico

Edlund, C. et al. LIVECell: un conjunto de datos a gran escala para la segmentación de células vivas sin etiquetas. Nat. Métodos 18, 1038–1045 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Draper, NR & Smith, H. Selección de la ecuación de regresión "mejor". aplicación Regresión Anal. 2, 327–368 (1998).

Artículo Google Académico

Liu, H. & Motoda, H. Extracción, construcción y selección de características: una perspectiva de minería de datos (Springer Science & Business Media, 1998).

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Proc. Cómputo IEEE. Soc. Conf. computar Vis. Reconocimiento de patrones. (2015).

Bhandary, A. et al. Marco de aprendizaje profundo para detectar anomalías pulmonares: un estudio con radiografías de tórax e imágenes de tomografía computarizada de pulmón ☆. Reconocimiento de patrones. Letón. 129, 271–278 (2020).

Artículo Google Académico

Zoph, B., Vasudevan, V., Shlens, J. & Le, QV Aprendizaje de arquitecturas transferibles para reconocimiento de imágenes escalable. En Proc. Cómputo IEEE. Soc. Conf. computar Vis. Reconocimiento de patrones. 8697–8710 (IEEE, 2018).

Huang, G., Zhuang, L., van der Maaten, L. & Weinberger, KW Redes convolucionales densamente conectadas. En CVPR 2017 (2017).

Suthaharan, S. Modelos y algoritmos de aprendizaje automático para la clasificación de Big Data (Springer, 2016).

Gonzalez, RC & Woods, RE Digital Image Processing (Addison-Wesley Longman Publishing Co., 2001).

Haralick, RM, Shanmugam, K. & Dinstein, I. Características texturales para la clasificación de imágenes. Trans. IEEE. sist. Hombre cibernético. https://doi.org/10.1190/segam2015-5927230.1 (1973).

Dalal, N., Triggs, B. & Europe, D. Histogramas de gradientes orientados para detección humana. En 2005, Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones (CVPR'05) (2005).

Brownlee, J. Una introducción suave a la agrupación de capas para redes neuronales convolucionales. Dominio del aprendizaje automático https://machinelearningmastery.com/pooling-layers-for-convolutional-neural-networks/ (2019).

Hanley, JA & Mcneil, BJ El significado y uso del área bajo una curva característica del receptor (ROC). Radiología 143, 29–36 (1982).

Artículo CAS PubMed Google Académico

Descargar referencias

Estos autores contribuyeron por igual: A. Mencattini, M. D'Orazio.

Departamento de Ingeniería Electrónica, Universidad de Roma Tor Vergata, 00133, Roma, Italia

A. Mencattini, M. D'Orazio, P. Casti, MC Comes, D. Di Giuseppe, G. Antonelli, J. Filippi, C. Di Natale & E. Martinelli

Centro interdisciplinario de estudios avanzados sobre aplicaciones de laboratorio en chip y órgano en chip (IC-LOC), Universidad de Roma Tor Vergata, 00133, Roma, Italia

A. Mencattini, M. D'Orazio, P. Casti, MC Comes, D. Di Giuseppe, G. Antonelli, J. Filippi, F. Corsi & E. Martinelli

Departamento de Biología, Universidad de Roma Tor Vergata, 00133, Roma, Italia

F. Corsi y L. Ghibelli

Inserm U830, Laboratorio de Estrés y Cáncer, Institut Curie, Centro de Investigación, Universidad de Investigación de Ciencias y Letras de París, 75005, París, Francia

I. Veith y MC Parrini

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Conceptualización: AM y EM Metodología: AM, MDO, MCP, PC, IV, FC, CDN y EM Software: MDO, MCC, JF, DDG y GA Análisis formal: AM, MDO, LG, MPC y EM Escritura— borrador original: Redacción AM y EM—revisión y edición: Todos los autores. Visualización: AM, MCP y EM

Correspondencia a E. Martinelli.

Los autores declaran no tener conflictos de intereses. El software es gratuito para usos no comerciales.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Mencattini, A., D'Orazio, M., Casti, P. et al. Deep-Manager: una herramienta versátil para la selección óptima de funciones en el análisis de imágenes de células vivas. Comun Biol 6, 241 (2023). https://doi.org/10.1038/s42003-023-04585-9

Descargar cita

Recibido: 08 julio 2022

Aceptado: 13 febrero 2023

Publicado: 03 marzo 2023

DOI: https://doi.org/10.1038/s42003-023-04585-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.