Predicción de aprendizaje automático y clasificación de la selección de comportamiento en un programa de detección olfativa canina | Grupo de interruptores táctiles de Guangdong

Scientific Reports volumen 13, número de artículo: 12489 (2023) Citar este artículo

218 Accesos

2 altmétrico

Detalles de métricas

Existe un interés creciente en la investigación del comportamiento canino específicamente para perros de trabajo. Aquí aprovechamos un conjunto de datos de una cohorte de detección olfativa de la Administración de Seguridad en el Transporte de 628 Labrador Retrievers para realizar estudios de predicción y clasificación de aprendizaje automático (ML) de rasgos de comportamiento y efectos ambientales. Los datos estuvieron disponibles para cuatro momentos durante un período de acogida de 12 meses, después del cual los perros fueron aceptados en un programa de entrenamiento o eliminados. Tres algoritmos de ML supervisados tuvieron un rendimiento sólido a la hora de predecir correctamente qué perros serían aceptados en el programa de entrenamiento, pero un rendimiento deficiente a la hora de distinguir aquellos que fueron eliminados (~ 25 % de la cohorte). El período de prueba de 12 meses arrojó la mejor capacidad para distinguir los perros aceptados y eliminados (AUC = 0,68). Los estudios de clasificación que utilizan el análisis de componentes principales y la eliminación recursiva de características mediante validación cruzada revelaron la importancia de los rasgos relacionados con el olfato y la posesión para una prueba de búsqueda y recuperación de una terminal de aeropuerto, y los rasgos de posesión, confianza e iniciativa para una prueba ambiental. Nuestros hallazgos sugieren qué pruebas, entornos, rasgos de comportamiento y el transcurso del tiempo son más importantes para la selección del perro de detección olfativa. Discutimos cómo este enfoque puede guiar investigaciones futuras que abarquen los efectos cognitivos y emocionales, sociales y ambientales.

El aprendizaje automático (ML) es un subcampo de la Inteligencia Artificial (IA) que utiliza una combinación de algoritmos y estadísticas para realizar una variedad de funciones analíticas en una amplia gama de tipos de datos. El aprendizaje automático se divide en dos clases de algoritmos: aprendizaje supervisado para datos de entrenamiento etiquetados y no supervisado para datos no etiquetados. Los métodos supervisados permiten aprender de entradas y salidas conocidas con el fin de predecir salidas desconocidas a partir de entradas conocidas (análisis de regresión), o para determinar qué categorías de datos son las más importantes para predecir resultados (análisis de clasificación). Las aplicaciones de aprendizaje automático supervisadas en el comportamiento canino han utilizado sensores inerciales montados en perros para crear etogramas caninos automatizados sensibles a las diferencias individuales1,2 y vídeos para clasificar comportamientos similares al TDAH3. Los estudios de aprendizaje automático canino no supervisados han utilizado vídeos y datos del cuestionario de comportamiento C-BARQ para análisis exploratorios4, y datos de sensores para predecir el éxito del perro guía5. En humanos, el ML supervisado utilizando datos de pruebas relevantes para tareas no basados en sensores se ha aplicado para predecir el éxito en el desempeño laboral6, pero desconocemos estudios de este tipo en perros. Aquí utilizamos métodos supervisados para predecir qué perros tendrán éxito durante un programa de preentrenamiento de detección de olores o fracasarán por razones de comportamiento. Si bien esta investigación ha aplicado su uso en perros de trabajo, también es probable que contribuya a nuevos conocimientos sobre el aprendizaje y el desempeño laboral en los mamíferos en general, incluidos los humanos. Sin embargo, la genética del comportamiento humano tiende a estar marcada por altos niveles de heterogeneidad, poligenicidad y, debido a la selección evolutiva negativa de variaciones incluso débilmente nocivas, tamaños de efecto diminutos de las variaciones individuales. Por lo tanto, los estudios en humanos requerirían un poder mucho mayor y las variaciones identificadas carecerían de utilidad directa. Por el contrario, los perros tienen una heterogeneidad, poligenicidad y selección negativa muy reducidas, y una fuerte selección positiva para diversos rasgos7. El efecto final es que los perros presentan un poder dramáticamente mayor para mapear genéticamente todo tipo de rasgos. La desventaja es que el desequilibrio de ligamiento es varias veces más extenso en los perros, lo que resulta en grandes intervalos de mapeo. Sin embargo, esto puede mitigarse mediante el mapeo genético mestizo de variaciones que son comunes entre razas8,9,10.

Los perros detectores olfativos se han utilizado durante mucho tiempo para detectar explosivos, sustancias controladas, otros materiales regulados (p. ej., insectos, alimentos y plantas) y olores humanos para la seguridad pública11,12. Más recientemente, las funciones de detección de olores caninos incluyen afecciones médicas (p. ej., marcador de niveles bajos de glucosa en sangre en la diabetes e infección por SARS-CoV-213). En los Estados Unidos, la mayoría de los perros militares y policiales están entrenados como caninos de doble propósito: realizan tanto detección de olores como protección. Los otros grupos principales de perros de trabajo son los perros guía para personas con ceguera o baja visión y los perros de servicio para ayudar a personas con otras discapacidades. El rango de costos para la mayoría de los perros de trabajo previamente entrenados es de 40 000 a 80 000 dólares14, y los precios continúan aumentando porque la demanda supera la oferta. Esos costos pueden duplicarse aproximadamente si se tiene en cuenta el entrenamiento. Como resultado de estos hechos y de que la tasa general de entrenamiento exitoso es inferior al 50 %, existe un gran impulso para producir y entrenar perros de trabajo de manera más eficiente11,15. Si bien se han realizado estudios exploratorios y prospectivos sobre nuevos esquemas de pruebas en perros de trabajo de detección y asistencia, todavía no se han implementado ampliamente16. Sin embargo, existen grandes conjuntos de datos de perros de trabajo sobre entrenamiento, rendimiento y salud de instituciones federales y privadas que aún no se han analizado en profundidad15,17. Por lo tanto, sigue siendo posible que los conjuntos de datos estandarizados existentes, que se continúan recopilando y que ya son grandes y, por lo tanto, ideales para el aprendizaje automático, puedan ser la ruta más eficiente y productiva para mejorar la comprensión de los rasgos de comportamiento necesarios para los perros de trabajo.

El presente trabajo es un estudio del éxito del pre-entrenamiento y la eliminación por razones de comportamiento en el programa de entrenamiento y cría de detección olfativa canina de la Administración de Seguridad en el Transporte (TSA). Los datos se recopilaron de perros acogidos y evaluados en el período de 2002 a 2013. Durante su período de acogida de 15 meses, los perros fueron llevados a las instalaciones del programa TSA cada 3 meses, comenzando a la edad de 3 meses, para ser evaluados en una serie de pruebas. Las pruebas evaluaron rasgos dependientes del olfato, como la capacidad de encontrar objetos basándose en el olor y otros rasgos relevantes, como la motivación para poseer juguetes o jugar al tira y afloja. En esos mismos momentos, los guías también calificaron a los perros en una variedad de otros rasgos, incluida la cooperación con los guías y el desempeño durante las tareas. Al final del período de prueba de 12 meses, los perros fueron aceptados en el programa de entrenamiento (58,9%) o eliminados por razones médicas (17,2%) o de comportamiento (23,9%).

Durante varias décadas se han utilizado pruebas de entrenamiento y preentrenamiento de detección de olores similares18. Los métodos de calificación del comportamiento utilizados en ellos se han estudiado y validado de diferentes maneras, incluso mostrando efectos comparables de los enfoques de calificación y codificación en perros de detección olfativa de TSA19,20,21,22,23. Un estudio similar al nuestro20, de los cuales 106 perros se superpusieron a nuestra población canina durante el mismo período de tiempo, no se puede comparar directamente con el nuestro debido a las muchas diferencias. Entre ellos, ese estudio tenía criterios de exclusión a priori que eliminaban perros que probablemente serían eliminados por razones de comportamiento, tenía seis veces menos perros en total, incluía tres razas frente a una en la nuestra, y la cohorte se dividió de forma no arbitraria en dos grupos de 50 % (uno utilizado para desarrollar etogramas para codificaciones de comportamiento y el otro para comparar enfoques de calificación versus codificación). Un hallazgo importante de ese trabajo (y la pregunta principal del estudio) fue mostrar que los métodos/datos de calificación utilizados en ese estudio y el nuestro son comparables a los métodos de codificación en cuanto a validez predictiva. Esto también es importante porque sus pruebas de codificación requirieron entre dos y varias veces más tiempo para realizarse.

Recientemente mapeamos genéticamente el rasgo de eliminación previa al entrenamiento por razones de comportamiento en la misma cohorte de TSA17. La razón real de la eliminación en ese trabajo y en el presente no está claramente definida, excepto que se distinguieron la eliminación conductual y médica. En el estudio mencionado anteriormente, de 106 perros de la misma población de perros de trabajo que se superpuso al período nuestro, el motivo de la eliminación de dos perros fue que "mostraron signos de estrés extremo durante las pruebas en múltiples ocasiones"20. Otros rasgos de comportamiento que son incompatibles con la selección de perros de detección olfativa incluyen una socialización humana o canina deficiente, poca energía y niveles elevados de excitabilidad, distracción, agresión y diversos tipos de ansiedad o miedo. Por tanto, el desafío es que los efectos que intentamos identificar pueden ser sutiles y complejos.

En este estudio, aplicamos algoritmos de ML supervisados para probar qué tan bien se puede predecir el éxito o la eliminación por razones de comportamiento y para identificar los rasgos más importantes en cada momento o lugar de la prueba. Nuestro estudio de la clasificación de características tiene como objetivo revelar diferencias en las pruebas de comportamiento que resultaron en importantes efectos temporales o ambientales en la eliminación del comportamiento. Este trabajo es parte de un esfuerzo continuo por utilizar métodos analíticos y genómicos para mejorar la selección de perros durante su fase previa al entrenamiento. Nuestros hallazgos sugieren efectos biológicos y de desarrollo, y nuevos enfoques.

Los rasgos puntuados en la cohorte representan medidas de confianza/miedo, calidad de los comportamientos relacionados con la caza y características de interacción entre perros y adiestradores19,20. Los rasgos Persecución/Recuperación, Posesión Física y Posesión Independiente se midieron tanto en la prueba de la Terminal del Aeropuerto como en la Ambiental, mientras que otros cinco y siete rasgos más fueron específicos de cada prueba, respectivamente (Tabla 1). Las pruebas de la terminal del aeropuerto incluyen la búsqueda de una toalla perfumada colocada en una terminal simulada y la observación de la capacidad de respuesta de un perro hacia el guía. Esto representa el trabajo real de detección de olores que se espera de perros completamente entrenados y desplegados. Debido a que las tareas fueron consistentes entre los períodos de tiempo, las pruebas de la terminal del aeropuerto demuestran mejoras de los perros con la edad. Todas las puntuaciones de los rasgos, excepto Posesión física y Posesión independiente, aumentaron con el tiempo, con el mayor aumento entre las pruebas de 6 y 9 meses (Fig. 1a). Esto puede deberse a que los cachorros tienen una mayor posesividad y falta de entrenamiento a edades más tempranas. La mejora general con el tiempo podría deberse a la mayor edad de los perros o a la experiencia adquirida en las pruebas. En comparación con los perros aceptados, los eliminados del programa por razones de comportamiento obtuvieron puntuaciones medias más bajas en todos los rasgos.

(a) Gráficos de radar de las puntuaciones medias para cada uno de los rasgos de las pruebas de la terminal del aeropuerto. (b) Gráficos de radar de las puntuaciones medias para cada uno de los rasgos en las pruebas ambientales; M03 = BX (tienda de regalos), M06 = Carpintería, M09 = Carga del aeropuerto, M12 = Terminal del aeropuerto.

Las pruebas ambientales implicaron sacar a pasear a los perros, realizar una búsqueda y jugar con juguetes en un lugar ruidoso que cambiaba en cada momento. Los rasgos midieron una variedad de comportamientos de los perros mientras se movían por los lugares y su desempeño al interactuar con los juguetes. Los perros aceptados obtuvieron puntuaciones más altas y más consistentes en las pruebas (Fig. 1b). La mayor separación de puntuaciones entre los perros aceptados y los eliminados por comportamiento se produjo a los 6 meses, en Woodshop. Eso sugiere que esta combinación de prueba y entorno podría predecir mejor qué perros serán aceptados en el programa de entrenamiento. Entre los rasgos que mostraron la mayor separación entre los dos resultados se encuentran la posesión física e independiente y la confianza.

Se emplearon tres algoritmos de aprendizaje automático de clasificación diferentes para predecir la aceptación en función de su capacidad para manejar clasificadores binarios: regresión logística, máquinas de vectores de soporte y bosque aleatorio. Los datos se dividieron en conjuntos de datos de entrenamiento (70%) y pruebas (30%) con proporciones equivalentes de éxito y estado de eliminación del comportamiento como el conjunto de datos principal. Después del entrenamiento del modelo, se informaron métricas para la calidad del modelo como se describe en los Métodos. La predicción del éxito de las pruebas de la terminal del aeropuerto arrojó precisiones consistentemente altas, entre el 70 y el 87 % (Tabla 2). La capacidad de predecir perros exitosos mejoró con el tiempo, y lo mejor correspondió a los 12 meses según las puntuaciones F1 y AUC. En particular, este patrón se produjo con una reducción general tanto en el número de perros como en la proporción de perros exitosos y eliminados (Tabla complementaria 1). El mejor rendimiento observado fue para el modelo Random Forest a los 12 meses: precisión del 87 %, AUC de 0,68 y media armónica de recuperación y precisión “F1” de 0,92 y 0,53 para perros aceptados y eliminados, respectivamente. El modelo de regresión logística tuvo un desempeño marginalmente peor a los 12 meses. Tomando la media de los cuatro puntos temporales para la precisión, el AUC y la F1 aceptada y eliminada, la regresión logística fue ligeramente mejor que el bosque aleatorio para los primeros tres elementos y viceversa para el cuarto. El modelo Support Vector Machines tuvo resultados desiguales en gran parte debido a la mala recuperación de los perros eliminados (0,09 frente a 0,32 y 0,36 para los otros modelos).

La predicción del éxito de las pruebas ambientales arrojó resultados peores y más variables (Tabla 2). Un factor que contribuyó al peor desempeño puede haber sido el menor número medio de perros con datos de prueba en comparación con la prueba de la terminal del aeropuerto (56% frente a 73% de la cohorte). En general, el modelo de regresión logística fue más eficaz para predecir el éxito según las puntuaciones F1 y AUC. Ese modelo mostró un patrón de mejora del rendimiento a medida que avanzaban los meses. A los 12 meses, la precisión fue del 80 %, el AUC fue de 0,60 y la F1 fue de 0,88 y 0,36 para los perros aceptados y eliminados, respectivamente. Las mejores puntuaciones, observadas a los 12 meses, coincidieron con la menor presencia de perros eliminados por motivos de comportamiento. Las máquinas de vectores de soporte tuvieron una F1 extremadamente baja o nula para los perros eliminados en todos los momentos. Los tres modelos tuvieron su mayor precisión (0,82–0,84) y la F1 más alta o la segunda más alta para los perros aceptados (0,90–0,91) a los 3 meses. Sin embargo, los tres modelos tuvieron un rendimiento deficiente en la predicción de la eliminación a los 3 meses (F1 ≤ 0,10).

Para maximizar el rendimiento predictivo, se empleó un análisis predictivo secuencial directo con los datos combinados. Este análisis combinó datos tanto de la terminal del aeropuerto como de Medio Ambiente en el período de 3 meses y ejecutó los tres modelos de ML, luego agregó el período de 6 meses y así sucesivamente. El análisis se diseñó para utilizar todos los datos disponibles para determinar el momento más temprano para predecir el éxito de un perro (Tabla 3). En general, los conjuntos de datos combinados no tuvieron un rendimiento mucho mejor que los conjuntos de datos individuales al considerar sus valores de F1 y AUC. Los únicos casos en los que los conjuntos de datos combinados tuvieron un rendimiento ligeramente mejor fueron M03 RF sobre Environmental M03, M03 + M06 + M09 LR sobre Environmental y Airport Terminal M09, todos los datos SVM sobre Airport Terminal M12 y todos los datos LR sobre Environmental M12. Las puntuaciones F1 y AUC para los casos en los que las pruebas secuenciales combinadas no funcionaron mejor mostraron que los modelos ML fueron peores a la hora de distinguir los perros exitosos y eliminados cuando se combinaron los conjuntos de datos.

Se emplearon dos métodos de selección de características para identificar los rasgos más importantes para predecir el éxito en cada momento: Análisis de componentes principales (PCA) y Eliminación recursiva de características mediante validación cruzada (RFECV). El PCA se realizó con los datos de rasgos para cada prueba y no fue evidente ninguna separación entre los perros aceptados y eliminados en la gráfica de los Componentes Principales 1 y 2 (PC1/2). Se generaron gráficos de pedregal para mostrar la varianza porcentual explicada por cada PC, y se generaron mapas de calor de las 2 PC principales para visualizar el impacto de los rasgos dentro de ellas. Dentro de los mapas de calor, los rasgos superiores o inferiores fueron los que explicaron la mayor variación dentro del componente respectivo. Se utilizó RFECV con clasificación Random Forest para cada prueba con 250 repeticiones, identificando al menos una característica por repetición. Además, se generaron 2500 réplicas de un clasificador Naïve Bayes (NB) y un modelo de bosque aleatorio (RF) para identificar casos en los que RF funcionó mejor que una clasificación ingenua.

Los gráficos de pedregal de las pruebas de la terminal del aeropuerto mostraron una fuerte caída en PC2, lo que indica que la mayor parte de la variación del rasgo se explica por PC1. La variación explicada por las dos PC principales osciló entre 55,2 y 58,2%. Los mapas de calor (Fig. 2a) mostraron que los vectores PC1/2 con los efectos más fuertes fueron H1/2 a los 3 y 6 meses, y PP a los 9 y 12 meses, los cuales aparecieron en el cuadrante superior izquierdo (es decir, , negativo en PC1 y positivo en PC2). Varios rasgos mostraron efectos temporales dentro de las PC: (i) a los 3 meses, PC1 tenía puntuaciones H1 más bajas que H2, pero eso se revirtió y su efecto aumentó en los otros puntos temporales; (ii) a los 3 y 6 meses, PC2 tuvo una señal positiva para H1/2, pero ambas se volvieron negativas a los 9 y 12 meses; (iii) a los 3 meses, HG fue negativo, pero ese efecto estuvo ausente en otros momentos; (iv) a los 3 y 6 meses, PC2 tuvo una señal negativa para PP, pero cambió a fuertemente positiva a los 9 y 12 meses. Cuando se ejecutó el RFECV con los mismos datos de la prueba del aeropuerto, se observó un patrón similar de número creciente de rasgos seleccionados con puntos de tiempo avanzados como en el PCA (Tabla 4). Al igual que los resultados de la PCA, el H2 estuvo entre los más fuertes en todos los momentos excepto en el de 6 meses, aunque apareció por primera vez entre las réplicas a los 9 meses. Se compararon las medias de los modelos NB y RF (Tabla complementaria 2) y mostraron que los resultados de M06 y M12 fueron los más prometedores para la clasificación. Esto sugirió que los rasgos compartidos, como todos los rasgos de posesión (MP, IP y PP) y la segunda prueba de caza (H2) son los más importantes para identificar perros exitosos durante estas pruebas; sin embargo, la naturaleza distinta de la evaluación en cada momento no lo hace. no permite una interpretación longitudinal.

Resultados del Análisis de Componentes Principales (PCA) para las pruebas de la terminal (a) y ambiental (b) del aeropuerto. Cada punto de tiempo muestra un mapa de calor que muestra la cantidad relativa de variación capturada por cada rasgo dentro de los 2 componentes principales.

Los resultados de PCA para las pruebas ambientales arrojaron gráficos de pedregal que tuvieron una fuerte caída en PC2 en todos los puntos de tiempo excepto en 9 meses (Fig. 2b). La cantidad de variación explicada por los dos componentes principales disminuyó con el aumento de los puntos temporales de 62,7 a 49,8. Los mapas de calor mostraron que el vector PC1/2 con el efecto más fuerte fue para el rasgo de posesión de juguetes IP, que apareció en el cuadrante superior izquierdo en todos los momentos (CR y PP tuvieron un efecto similar en magnitudes reducidas). Dentro de las observaciones de PC se incluyeron las siguientes: (i) en PC1, la confianza y la iniciativa fueron negativas en todos los momentos, y (ii) en PC2, la concentración y la excitabilidad fueron positivas a los 3 meses y aumentaron a los 6, 9 y 9 meses. 12 meses. Cuando se ejecutó la RFECV con las puntuaciones de las pruebas ambientales (Tabla 4), todos los rasgos de los meses 9 y 12 estuvieron representados en los resultados. A los 3 meses, solo estaban representadas Confianza e Iniciativa y a los 6 meses, solo aquellas y Capacidad de Respuesta. También se compararon las medias de los modelos NB y RF (Tabla complementaria 2) y se demostró que M03 y M12 fueron los más significativos para la clasificación. Estas pruebas corresponden a la primera prueba en la tienda de regalos y a la última prueba en una terminal de aeropuerto activa. Los rasgos principales compartidos incluyen confianza e iniciativa, siendo los rasgos relacionados con la posesión y la concentración los más importantes en el último momento.

Este estudio exploratorio probó la viabilidad de utilizar enfoques de aprendizaje automático supervisado para extraer conocimientos útiles de un gran conjunto de datos existente de pruebas previas al entrenamiento, rasgos de comportamiento y contextos ambientales para perros de trabajo Labrador Retriever. Utilizamos el 70% de los perros para aprender y el 30% para probar la predicción de qué perros tuvieron éxito en un programa de preentrenamiento o fueron eliminados por razones de comportamiento. Vimos el mejor rendimiento para el modelo Random Forest a los 12 meses en la prueba de la terminal del aeropuerto, con una precisión del 87 % y un AUC (la capacidad de distinguir entre perros aceptados y eliminados) de 0,68. En general, un AUC de 0,5 a 0,7 se considera deficiente y de 0,7 a 0,8 aceptable. La métrica más débil para ese modelo, prueba y momento fue la de recuerdo (la capacidad de encontrar todos los casos positivos) para los perros eliminados de 0,36 (frente a 1,0 para los perros aceptados). Esto resultó en una F1 (la media armónica de recuerdo y precisión) de 0,53 (frente a 0,92 para los perros aceptados). Una consideración para este resultado es que la prueba de la Terminal del Aeropuerto tuvo una media del 73% del total de 628 perros con datos en todos los rasgos (y solo el 56% para la prueba Ambiental). Un segundo factor es la selección reproductiva ejercida sobre nuestra cohorte y las poblaciones más amplias de Labrador Retriever de las que se deriva.

Anteriormente informamos sobre el mapeo genético de la eliminación por razones de comportamiento en la misma cohorte17. Allí hicimos referencia a la selección de comportamiento relacionada con esta cohorte y la población general de Labrador Retrievers de “línea de caza”. Los hallazgos de ese trabajo mostraron que las variaciones que están asociadas con conductas problemáticas, y que son comunes en las mascotas Labrador Retrievers, son raras o están ausentes en la presente cohorte. Por ejemplo, un alelo del cromosoma X asociado con el miedo, la ansiedad y la agresión (probablemente debido a una variante de codificación en IGSF18,10) tiene una frecuencia alélica del 18 % en las mascotas Labrador Retriever, pero no se detectó en ~ 300 perros de esta cohorte. . De manera similar, nuestros haplotipos mapeados con efectos más fuertes sobre la eliminación por razones de comportamiento tendieron a estar presentes solo en el estado heterocigoto. De esta manera, la selección genética da como resultado el agotamiento de los alelos asociados con conductas problemáticas de efectos moderados a grandes observadas en la población general de mascotas; por lo tanto, una reducción tanto de la variación del comportamiento como de las tasas de eliminación hace que su descubrimiento sea más desafiante en cohortes especializadas8,9,10.

Los resultados predictivos de los modelos para la prueba medioambiental fueron más variables y peores. La precisión del modelo de regresión logística de mejor rendimiento fue del 80 % a los 12 meses. El AUC fue de 0,60 y el F1 de 0,88/0,36 para los perros aceptados y eliminados, respectivamente (principalmente como resultado de tasas de recuperación de 0,94/0,26). Una advertencia importante para el modelo de regresión logística es que algunos rasgos mostraron una distribución sesgada hacia valores de puntuación más altos, lo que puede sesgar las métricas informadas. El patrón de métricas fue diferente en las dos pruebas. En la prueba de la terminal del aeropuerto, todas las métricas principales fueron para Random Forest a los 12 meses y todas las segundas mejores para Regresión logística a los 12 meses. Por el contrario, la prueba ambiental tuvo la métrica superior o segunda más alta de precisión y aceptó la precisión y el recuerdo del perro (y, por lo tanto, F1) a los 3 meses. Sin embargo, los tres modelos tuvieron una tasa de recuperación para perros eliminados de 0,05 (y F1 de 0,09 a 0,10). Esto sugiere que los perros con más probabilidades de ser aceptados (~ 60 % de la cohorte) pueden reconocerse a través de las características de nuestros datos durante 3 meses. Ese no es el caso de la identificación de los perros que probablemente serán eliminados (~ 25% de la cohorte; el resto eliminado por razones médicas). Dado que la tasa de recuperación de perros eliminados es cinco veces mayor en momentos posteriores tanto para el modelo de Regresión Logística como para el de Bosque Aleatorio, puede ser posible determinar el momento de desarrollo de los rasgos responsables del éxito previo al entrenamiento.

El PCA de la prueba ambiental fue menos variable a lo largo del tiempo que la prueba de la terminal del aeropuerto. Esto parece sorprendente dados los resultados más variables observados en el modelado predictivo de la prueba ambiental. También es inesperado considerando que la prueba ambiental se realizó en diferentes tipos de lugares elegidos para presentar diferentes tipos de estímulos. Las dos primeras PC explicaron una proporción decreciente de la varianza a medida que avanzaban los puntos temporales, del 62,7 al 49,8%. El efecto más fuerte presente para la combinación PC1/2 fue para el rasgo de posesión de juguetes IP, que se ubica en el cuadrante superior izquierdo en todos los momentos. Chase/Retrieve y el PP tuvieron efectos similares pero menores. Las observaciones individuales de PC incluyeron que la confianza y la iniciativa fueron de moderadas a fuertemente negativas en PC1 en todos los momentos. Entre los efectos temporales en PC2, la concentración y la excitabilidad fueron débilmente positivas a los 3 meses y aumentaron ligeramente a los 6 y nuevamente a los 9 y 12 meses. La ejecución del RFECV mostró que todos los rasgos a los 9 y 12 meses fueron positivos en los resultados. La confianza y la iniciativa estuvieron representadas en todos los puntos temporales, y la confianza tuvo los valores de clasificación más consistentemente altos (100, 88,7, 20,7 y 63,3% en orden creciente de puntos temporales. A los 3 y 6 meses, la confianza fue más alta (100 y 63,3%). 88,7%); a los 9 meses, el IP era (93,3%); y a los 12 meses, el PP era (80,7%).

En general, nuestros algoritmos de aprendizaje automático no fueron efectivos para predecir el éxito durante un programa de preentrenamiento para la detección de explosivos. También mostraron una escasa capacidad para distinguir adecuadamente entre los perros exitosos y los eliminados, lo que hacía que la aplicación de estos modelos no fuera adecuada para un uso sin supervisión. Esto puede deberse en parte a que nuestros datos carecen de documentación exhaustiva sobre las bases para graduar o eliminar perros. Esto podría ayudar a explicar la mejora del rendimiento del algoritmo con el tiempo; sin embargo, la separación también podría deberse al desarrollo conductual y al aprendizaje de los perros. Si bien las puntuaciones del AUC no fueron sólidas, los resultados de la clasificación arrojan luz sobre los rasgos más sólidos que son importantes para el éxito. Estos resultados son consistentes con estudios previos que utilizaron principalmente PCA y análisis factorial para identificar rasgos importantes en una cohorte superpuesta que contenía múltiples razas y combinaba todos los puntos temporales en algunos casos22. Esos estudios demostraron que la capacidad de respuesta, la iniciativa, la confianza y la concentración (con valores de carga de PC1 de 0,92, 0,86, 0,81 y 0,67, respectivamente) contribuyeron más al éxito del perro en las pruebas ambientales. Además, Posesión Mental, Posesión Independiente, Oculto 1, Oculto 2 y Posesión Física (con valores de carga de PC1 de 0,74, 0,66, 0,64, 0,60 y 0,55) contribuyeron más al éxito del perro en la prueba de la Terminal del Aeropuerto20,22. Esos resultados fueron consistentes con nuestras tareas de clasificación PCA y ML. Otro estudio mostró un fenómeno similar de cambios en la consistencia de las puntuaciones (por ejemplo, con seguridad ambiental y rasgos relacionados con la posesión) entre puntos temporales23 utilizando PCA. Esta tendencia puede reflejar el desarrollo del comportamiento de los perros a medida que crecen entre los 3 y los 12 meses de edad, aunque probablemente también refleja la experiencia con las tareas y algunos cambios debido al poco entrenamiento que se espera de los cuidadores durante este período previo al entrenamiento.

Este estudio proporcionó una visión preliminar del poder predictivo de los algoritmos de aprendizaje automático para seleccionar Labrador Retrievers exitosos en un programa de preentrenamiento de detección olfativa canina. Los resultados demostraron un subconjunto de rasgos que pueden ser más importantes que los demás para la selección de perros exitosos, lo que tiene el potencial de simplificar las evaluaciones de rasgos en el programa. Si bien la capacidad para distinguir entre perros exitosos y eliminados por comportamiento fue deficiente, nuestros datos solo representan una pequeña cohorte de perros con pocos rasgos. Nuestros hallazgos indican que existen grandes oportunidades para ampliar el programa al incluir rasgos de comportamiento adicionales, información médica y otros datos longitudinales.

Los datos para el estudio se obtuvieron de un programa de entrenamiento y cría de perros de detección olfativa dirigido por la TSA en el período de 2002 a 2013. Estos datos contenían puntuaciones de 628 Labrador Retrievers que fueron llevados para pruebas cada 3 meses a partir de los 3 años. meses durante un período de acogida de 15 meses. Estos períodos de prueba corresponden a un período de 3, 6, 9 y 12 meses en los que se realizaron dos pruebas separadas. La primera prueba, llamada prueba de Terminal del Aeropuerto (AT), se realizó en una terminal de aeropuerto simulada vacía y tenía como objetivo simular el entrenamiento intensivo que realizarían los perros si pasaban el programa de preentrenamiento. Esta prueba implicó que los guías pasearan a los perros por la terminal del aeropuerto simulada, dos búsquedas separadas de una toalla perfumada en recipientes esparcidos por toda la terminal y el enfrentamiento con un juguete. Los rasgos midieron el desempeño de los perros al identificar la toalla perfumada, las cualidades del perro durante las tareas y el nivel de compromiso con el guía, la toalla y el juguete. Esta prueba tenía como objetivo demostrar cuán entrenable sería el perro si tuviera éxito.

La segunda prueba, llamada prueba ambiental (Env), se realizó en diferentes lugares alrededor de la base en cada momento. La prueba involucró al perro caminando con los guías con una correa, intentando una búsqueda y interactuando con un juguete y el guía en un ambiente ruidoso y lleno de gente. Las ubicaciones incluyeron una concurrida tienda de regalos de intercambio de bases (BX), una carpintería con ruidos fuertes y espacios cerrados oscuros (Woodshop), un área de carga con tráfico en movimiento y ruido (Airport Cargo) y varias ubicaciones de pasajeros en el aeropuerto (Airport Terminal), respectivamente. a los cuatro puntos temporales. Esta prueba complementó la prueba en la terminal del aeropuerto, ya que no había otras personas en la terminal del aeropuerto simulada para distraer a los perros de la tarea en cuestión. La prueba ambiental capturó rasgos que midieron varias características de los perros cuando se encontraban en estos lugares estimulantes y su capacidad para concentrarse en los diversos aspectos del entrenamiento.

De los 628 perros incluidos, se puntuó una fracción en cada momento. Eso osciló entre 351 y 564 para las pruebas de la terminal del aeropuerto y entre 291 y 410 para las pruebas ambientales. Todos los perros habían aceptado o eliminado el estado por razones médicas o de comportamiento (de lo contrario no especificadas), y sus recuentos generales se resumen en la Tabla complementaria 1. Los perros eliminados por razones médicas se incluyeron en este estudio de comportamiento ya que sus condiciones médicas no fueron descritas, y por los que se encontraron fueron principalmente problemas que limitarían la longevidad de un perro en el programa (por ejemplo, displasia de cadera) y no necesariamente afectarían el comportamiento.

Los datos de los perros se dividieron según el tipo de prueba y el período de tiempo, y los perros con puntuaciones faltantes sustanciales (> 25%) se descartaron de esas pruebas. Las distribuciones de las puntuaciones de los rasgos se visualizaron dividiendo primero los conjuntos de datos en función de si los perros fueron aceptados o eliminados por razones de comportamiento (ver código). La puntuación media para cada rasgo se calculó y se representó en un gráfico de radar utilizando matplotlib v3.4.2 y plotly v5.3.1, paquetes de Python 3.8.12. Los datos y el código de Jupyter Notebook están disponibles en https://github.com/AWEyre7147/2013TSA-Trait-ML-Project.

Todo el aprendizaje automático se realizó utilizando los kits de herramientas correspondientes en scikit-learn v0.24.2 con un estado aleatorio de 101, a menos que se indique lo contrario24. Se seleccionaron modelos de aprendizaje automático predictivo por su capacidad para manejar clasificadores binarios y medios únicos para hacer predicciones. Para las tareas predictivas, los datos se dividieron en conjuntos de entrenamiento/prueba utilizando un tamaño de prueba del 30 %. Se ejecutó un modelo de regresión logística utilizando la configuración predeterminada. Se ejecutó un modelo de Support Vector Machine usando la configuración predeterminada, luego se realizó un intento de refinar el modelo usando una búsqueda de cuadrícula con un rango de valores C y gamma (ver código). Se ejecutó un modelo de bosque aleatorio utilizando 100 estimadores. La calidad de todos los modelos se evaluó mediante informes de clasificación y el cálculo de la estadística AUC. La precisión es el porcentaje de perros clasificados correctamente ((verdaderos positivos + verdaderos negativos)/(verdaderos positivos + falsos negativos + verdaderos negativos + falsos positivos). La recuperación es la capacidad de un clasificador de encontrar todos los casos positivos (verdaderos positivos / ( falsos negativos + verdaderos positivos)). La precisión es la proporción de predicciones positivas que son correctas (verdaderos positivos/(falsos positivos + verdaderos positivos)). F1 es la media armónica de recuerdo y precisión (Puntuación F1 = (2 * Puntuación de precisión * Recall Score)/(Precision Score + Recall Score)). También se creó la curva de características operativas del receptor (ROC) y se calculó el AUC, que es la capacidad de un modelo para distinguir entre clases positivas y negativas.

Para las tareas de clasificación de aprendizaje automático, se realizó un análisis de componentes principales (PCA) y se generaron diagramas de scree para visualizar el porcentaje de varianza explicada por los componentes. Se seleccionaron los dos primeros componentes porque se encuentran antes del punto de inflexión de la curva del diagrama de pedregal; y se generó un mapa de calor para visualizar qué rasgos impactaron más en cada componente. Para identificar qué características son más importantes, se realizó una eliminación recursiva de características con validación cruzada (RFECV) utilizando un modelo de clasificador de bosque aleatorio. RFECV elige el número óptimo de características mediante validación cruzada (CV). Empleamos este método para demostrar que el número y la importancia de cada rasgo aumentan a medida que los perros están más entrenados. Se ejecutó buscando un mínimo de 1 característica y una puntuación de reemplazo basada en la precisión, luego se ejecutó el arranque 250 veces con estados aleatorios que oscilaban entre 1 y 250. Se recopilaron los rasgos que se seleccionaron después de cada ejecución, luego el porcentaje de ejecuciones que ocurrió cada rasgo se informó para cada prueba y período de tiempo. Para proporcionar una línea de base para comparar las precisiones predictivas de RF y proporcionar validez a los resultados de RFECV, se calcularon 250 ejecuciones replicadas del clasificador Naïve Bayes y del bosque aleatorio para cada punto temporal y se probaron con la media y la desviación estándar informadas con pruebas Z calculadas para cada par. .

Los datos y el código informático están disponibles en https://github.com/AWEyre7147/2013TSA-Trait-ML-Project.

Cámaras, RD et al. Clasificación de aprendizaje profundo del comportamiento canino mediante un único acelerómetro montado en un collar: validación en el mundo real. Animales 11(6), 1–19 (2021).

Artículo de Google Scholar

Gerencsér, L., Vásárhelyi, G., Nagy, M., Vicsek, T. & Miklósi, A. Identificación del comportamiento en perros que se mueven libremente (Canis familiaris) utilizando sensores inerciales. MÁS UNO 8(10), 1–14 (2013).

Artículo de Google Scholar

Fux, A. y col. Evaluación objetiva basada en vídeo del comportamiento canino similar al TDAH mediante aprendizaje automático. Animales 11(10), 1–27 (2021).

Artículo de Google Scholar

Menaker, T., Monteny, J., de Beeck, LO y Zamansky, A. Agrupación para el descubrimiento automatizado de patrones exploratorios en datos de comportamiento animal. Frente. Veterinario. Ciencia. 9, 1-12 (2022).

Artículo de Google Scholar

Cleghern, Z., et al. Análisis conductual y ambiental de posibles perros guía con datos de sensores de IoT informados por Expert Insight. Serie de actas de la conferencia internacional ACM, agosto de 2021. (2020).

Jenkins, JR, Caballero, WN y Hill, RR Predecir el éxito en la formación de pilotos de la Fuerza Aérea de los Estados Unidos utilizando técnicas de aprendizaje automático. Socioeconomía. Planificar. Ciencia. 79, 1-14 (2022).

Artículo de Google Scholar

Ostrander, EA, Wayne, RK, Freedman, AH & Davis, BW Historia demográfica, selección y diversidad funcional del genoma canino. Nat. Rev. Genet. 18(12), 705–720 (2017).

Artículo CAS PubMed Google Scholar

Zapata, I., Serpell, JA & Alvarez, CE Mapeo genético del miedo y la agresión canina. BMC Genomics 17(1), 1–21 (2016).

Artículo de Google Scholar

MacLean, EL, Evan, L., Snyder-Mackler, N., vonHoldt, BM & Serpell, JA Diferencias raciales altamente hereditarias y funcionalmente relevantes en el comportamiento del perro. Proc. R. Soc. B 286, 1–9 (2019).

Artículo de Google Scholar

Zapata, I., Hecht, EE, Serpell, JA y Alvarez, CE Las exploraciones genómicas del comportamiento canino implican una red genética subyacente a la psicopatología en los mamíferos, incluidos los humanos. BioRxiv https://doi.org/10.1101/2020.07.19.211078 (2021).

Artículo de Google Scholar

Bray, EE y cols. Mejora de la selección y rendimiento de los perros de trabajo. Frente. Veterinario. Ciencia. 8, 430 (2021).

Artículo de Google Scholar

Otto, CM y cols. Pautas de la AAHA para perros de trabajo, asistencia y terapia. Mermelada. Animación. Hosp. Asociación. 57, 253–277 (2021).

Artículo PubMed Google Scholar

Sakr, R. y col. Detección de COVID-19 por perros: de la fisiología a la aplicación en el campo: un artículo de revisión. Postgrado. Medicina. J. 98, 212–218 (2022).

Artículo PubMed Google Scholar

Registro Nacional de Animales de Servicio (2022). ¿Cuánto cuesta un perro de servicio? Una guía para el comprador de su perro de servicio. https://www.nsarco.com/cuanto-cuesta-un-perro-de-servicio-una-guia-de-compradores-para-su-perro-de-servicio/

Chen, FL y cols. Avanzar en la selección genética y la genómica del comportamiento de los perros de trabajo a través de la ciencia colaborativa. Frente. Veterinario. Ciencia. 8 (septiembre), 1-14 (2021).

Anuncios Google Scholar

MacLean, EL & Hare, B. Selección mejorada de perros de asistencia y detección de explosivos mediante medidas cognitivas. Frente. Veterinario. Ciencia. 5, 236 (2018).

Artículo PubMed PubMed Central Google Scholar

Eyre, AW y cols. Escaneo del genoma de la selección de comportamiento en una cohorte de cría de detección olfativa canina. Ciencia. Rep. 12(1), 1-12 (2022).

Artículo de Google Scholar

Champness, KA Desarrollo de un programa de cría para perros detectores de drogas (págs. 1–314) (1996).

Fratkin, JL y cols. ¿Ves lo que veo? ¿Pueden los no expertos con una formación mínima reproducir las calificaciones de los expertos en las evaluaciones del comportamiento de los perros de trabajo? Comportamiento. Proc. 110 (SEPTIEMBRE), 105-116 (2015).

Artículo de Google Scholar

McGarrity, ME, Sinn, DL, Thomas, SG, Marti, CN y Gosling, SD Comparación de la validez predictiva de codificaciones y calificaciones de comportamiento en un programa de cría de perros de trabajo. Aplica. Animación. Comportamiento. Ciencia. 179, 82–94. https://doi.org/10.1016/j.applanim.2016.03.013 (2016).

Artículo de Google Scholar

Munch, KL, Wapstra, E., Thomas, S., Fisher, M. y Sinn, DL ¿Qué estamos midiendo? Los principiantes están de acuerdo entre ellos (pero no siempre con los expertos) en su valoración del comportamiento canino. Etología 125 (4), 203–211 (2019).

Artículo de Google Scholar

Sinn, DL, Hixon, G. y Gosling, SD (sin fecha). Preparado para la Dirección de Ciencia y Tecnología del Departamento de Seguridad Nacional de EE. UU., Contrato HSHQDC-10-C-00085: “Mejora de la eficacia de la selección y el entrenamiento de perros detectores mediante la medición del comportamiento y el temperamento”.

Sinn, DL, Gosling, SD y Hilliard, S. Personalidad y desempeño en perros de trabajo militares: confiabilidad y validez predictiva de las pruebas de comportamiento. Aplica. Animación. Comportamiento. Ciencia. 127(1–2), 51–65 (2010).

Artículo de Google Scholar

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

MathSciNet MATEMÁTICAS Google Scholar

Descargar referencias

Agradecemos al liderazgo y al personal del Programa Canino Nacional de Detección de Explosivos de la TSA, Lackland AFB, por brindarnos información y acceso a su programa. Agradecemos a los líderes del Servicio Veterinario de Perros de Trabajo Militar (Ejército) del Departamento de Defensa, Lackland AFB, por las discusiones y la información. Los datos estuvieron disponibles a través de un acuerdo cooperativo de investigación y desarrollo entre el Departamento de Seguridad Nacional y la Universidad de Pensilvania (Expediente No. DHS-2013-0064).

Este trabajo fue apoyado por la Dirección de Ciencia y Tecnología (C&T) del Departamento de Seguridad Nacional, Contrato No.70RSAT19CB0000014 con Battelle Memorial Institute (Investigadores principales CEA, CMO, JAS; y AWE, IZ y EH). CEA también recibió el apoyo de subvenciones del American Kennel Club CHF (01660) y del Scottish Deerhound Club of America. Los datos estuvieron disponibles a través de un acuerdo cooperativo de investigación y desarrollo 14-EXD-002 entre el Penn Vet Working Dog Center y la Dirección de Ciencia y Tecnología del Departamento de Seguridad Nacional.

Centro de Investigación Clínica y Traslacional, Instituto de Investigación Abigail Wexner del Nationwide Children's Hospital, Columbus, OH, 43205, EE. UU.

Alejandro W. Eyre

Departamento de Ciencias Biomédicas, Facultad de Medicina Osteopática de la Universidad Rocky Vista, Parker, CO, 80134, EE. UU.

Issain Zapata

Dog Genetics LLC, Astoria, Nueva York, 11102, EE. UU.

Elizabeth Liebre

Penn Vet Working Dog Center, Departamento de Ciencias Clínicas y Medicina Avanzada, Facultad de Medicina Veterinaria, Universidad de Pensilvania, Filadelfia, PA, 19146, EE. UU.

Elizabeth Hare y Cynthia M. Otto

Departamento de Ciencias Clínicas y Medicina Avanzada, Facultad de Medicina Veterinaria, Universidad de Pensilvania, Filadelfia, PA, 19104, EE. UU.

James Serpell

Departamentos de Pediatría y Ciencias Clínicas Veterinarias, Facultades de Medicina y Medicina Veterinaria de la Universidad Estatal de Ohio, Columbus, OH, 43210, EE. UU.

Carlos E. Alvarez

También puedes buscar este autor en PubMed Google Scholar.

AWE, diseñó y realizó los análisis con contribuciones de IZ y CEAEH, generó y procesó el conjunto de datos de la TSA. CMO, JAS y EH aportaron su experiencia en comportamiento canino y perros de trabajo para interpretación y debate. AWE y CEA escribieron la mayor parte del manuscrito con la ayuda de IZ y las contribuciones y edición de EH, CMO y JAS.

Correspondencia a Carlos E. Álvarez.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Eyre, AW, Zapata, I., Hare, E. et al. Predicción de aprendizaje automático y clasificación de la selección de comportamiento en un programa de detección olfativa canina. Representante científico 13, 12489 (2023). https://doi.org/10.1038/s41598-023-39112-7

Descargar cita

Recibido: 17 de febrero de 2023

Aceptado: 20 de julio de 2023

Publicado: 01 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-39112-7

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.