Modelos de lenguaje natural en la investigación científica: una descripción técnica.
Modelos de lenguaje natural en la investigación científica: una descripción técnica
Natural Language Models in Scientific Research: A Technical Overview
Jairo Eduardo Márquez Díaz
Ph. D. en Educación.
Mtr. en Seguridad de la Información Empresarial, y Mtr. en Bioética.
Ingeniero de Sistemas y licenciado en Matemáticas y Física.
Docente investigador, Facultad de Ingeniería, Universidad de Cundinamarca
Miembro de la Asociación Colombiana para el Avance de la Ciencia
Introducción
La investigación científica es un proceso intrincado que requiere esfuerzos sustanciales para recopilar, analizar e interpretar información relevante, que brinde apoyo en la generación de respuestas precisas y completas. Los chatbots impulsados por la inteligencia artificial como ChatGPT, Big y Bard, entre otros, son variantes de la arquitectura GPT-3.5 (Brown et al., 2020), que ofrecen un enfoque innovador para respaldar y aumentar la investigación científica, y han venido ganando popularidad debido a su capacidad para interactuar con los usuarios y proporcionar respuestas en diversos temas.
Estos modelos poseen un vasto conocimiento y comprensión del lenguaje, que los convierte en poderosas herramientas de ayuda para los investigadores en numerosos campos, facilitando la recopilación y síntesis de información científica, así como en la comunicación de conceptos complejos a diferentes audiencias.
Capacidades de los modelos de lenguaje natural
Los modelos de procesamiento del lenguaje natural (PNL) como ChatGPT, Big, Bard, T5, Bert (Devlin et al., 2019), Ora.sh, Vicuna, Copilot, you.com, Writesonic, Perplexity, Simplified, entre otros, han sido entrenados con un vasto corpus de texto, imágenes y audio que les permite comprender e interpretar literatura científica compleja (Radford et al., 2018). Pueden captar los matices de los conceptos, teorías y terminologías científicas, que resultan ser fundamentales en las revisiones de literatura, la formulación de hipótesis y el análisis de datos, entre otros aspectos.
Un sistema de PNL debe ser capaz de comprender el contexto de una oración para poder interpretarla correctamente (Liu et al., 2019; Yang et al., 2019; Peters et al., 2018). Para su desarrollo se toma en cuenta diferentes componentes que se resumen en la siguiente tabla:
Tabla 1. Componentes de un sistema de procesamiento de lenguaje natural
Proceso |
Descripción |
Ejemplo |
---|---|---|
Tokenización |
División del texto en sus palabras o tokens individuales. |
NLTK, spaCy, Stanford CoreNLP |
Etiquetado de parte del discurso |
Asignación de etiquetas de parte del discurso a cada token en una oración. Se identifica el papel de cada palabra en una oración, como sustantivo, verbo, adjetivo, etc. |
TreeTagger, NLTK, spaCy |
Análisis morfológico |
Identificación de las características morfológicas de cada palabra en una oración, que incluyen: parte del discurso de la palabra, tiempo, número, género, etc. |
MorphAdorner, NLTK, Stanford CoreNLP |
Análisis sintáctico |
Determinación de la estructura sintáctica de una oración, es decir, cómo las palabras se organizan para formar una oración gramaticalmente correcta. |
SyntaxNet, Stanford Parser, NLTK |
Análisis semántico |
Determinación del significado de una oración, tomando en cuenta el contexto, el significado y las relaciones entre las palabras. |
WordNet, FrameNet, ConceptNet |
Análisis del discurso |
Comprensión de la estructura y el significado de un texto más grande, como un párrafo o un documento. Se toma en cuenta las relaciones. entre las oraciones, el tema general del texto y la audiencia prevista. |
Discourse Analysis Toolkit, Coh-Metrix, Rhetorical Structure Theory |
Fuente: elaboración propia.
Los sistemas de PNL se utilizan en una amplia variedad de aplicaciones como la traducción automática, la recuperación de información, el resumen de un texto, respuesta a preguntas y análisis de sentimiento (Conneau et al., 2020; Raffel et al., 2019; Wang et al., 2018). En el campo científico se destaca:
-
Recuperación de información: el comprender las consultas en lenguaje natural, pueden ayudar a los investigadores a encontrar rápidamente artículos, documentos y conjuntos de datos relevantes. Esta capacidad reduce significativamente el tiempo y el esfuerzo dedicados a la búsqueda de literatura, que permite a los investigadores centrarse más en el análisis y la experimentación.
-
Análisis de datos: con la capacidad para procesar y comprender grandes cantidades de datos textuales y tabulares, estos modelos pueden ayudar en las tareas de análisis de datos. Pueden ayudar en el preprocesamiento de datos, a la extracción de características y análisis estadístico, facilitando a los investigadores descubrir patrones e información significativa a partir de conjuntos de datos.
-
Asistencia en la redacción científica: permite generar artículos en un estado intermedio, informes y resúmenes científicos de alta calidad que puede ser una tarea abrumadora. Estos modelos pueden servir como asistentes de escritura, brindando sugerencias para estructurar, mejorar la claridad y refinar el lenguaje utilizado.
-
Revisión de literatura: los modelos de PNL pueden analizar y resumir grandes volúmenes de literatura relevante, identificando conceptos clave, autores y tendencias, brindando una descripción general que ayuda a los investigadores a comprender el estado del arte e identificar brechas en la investigación.
-
Diseño experimental: la capacidad de los modelos de inteligencia artificial (IA) para comprender conceptos científicos e hipótesis los convierte en valiosos colaboradores en el diseño experimental. Los investigadores pueden articular sus objetivos de investigación y restricciones a los modelos, que luego pueden proporcionar sugerencias para configuraciones, controles y mediciones experimentales. Este proceso iterativo puede mejorar la fase de diseño experimental y mejorar la calidad de los resultados de la investigación.
-
Integración y síntesis del conocimiento: los modelos de lenguaje natural pueden ayudar a sintetizar información de diversas fuentes, ayudando a los investigadores a desarrollar conocimientos interdisciplinarios. Al analizar y correlacionar la información en varios campos, estos modelos pueden contribuir al surgimiento de nuevas hipótesis y paradigmas científicos.
-
Comunicación científica: la comunicación efectiva de los hallazgos científicos a audiencias más amplias es esencial para un impacto social esperado. Estos modelos pueden ayudar a los investigadores a traducir la jerga científica compleja a un lenguaje accesible, facilitando la comunicación científica para audiencias diversas. Pueden generar resúmenes sencillos, ayudas visuales y narraciones explicativas que hacen que los conceptos científicos sean más comprensibles y atractivos.
Recursos computacionales e infraestructura
Aprovechar los modelos de lenguaje natural en la investigación científica a menudo requiere una infraestructura y recursos computacionales sustanciales (Singhal et al., 2021; Shu et al., 2021).
Los investigadores deben garantizar el acceso a suficiente potencia de cómputo, almacenamiento y capacidad de memoria para utilizar estos modelos de manera efectiva. La colaboración de expertos informáticos y el empleo de clústeres de alto rendimiento pueden aliviar las limitaciones de recursos (Maharjan, 2021).
A continuación, se incluye en la tabla 2 una selección de herramientas basadas en IA comúnmente utilizadas en proyectos de investigación. Las áreas de aplicación enumeradas no son exhaustivas y pueden variar según el campo de investigación específico y los requisitos del proyecto.
Tabla 2. Herramientas basadas en IA que los investigadores pueden usar en sus proyectos
Herramienta |
Descripción |
Áreas de aplicación |
---|---|---|
ChatGPT |
Modelo de lenguaje natural basado en arquitectura GPT-3.5, 4.0 y próximamente 5.0. |
Revisión de literatura, diseño experimental y redacción. |
Big |
Variante de la arquitectura GPT-3.5 con capacidades mejoradas. |
Análisis de datos, recuperación de información y síntesis. |
Bard |
Variante GPT-3.5 diseñada específicamente para investigación científica. |
Diseño experimental, análisis de datos, redacción. |
Poe y HuggingFace |
Chatbot de IA que permite conectar varios bots como ChatGPT 3.5 y GPT-4, entre otros. |
Servicio todo en uno de chatbots avanzados. |
TensorFlow |
Marco de aprendizaje automático de código abierto. |
Modelado de datos, desarrollo de redes neuronales |
PyTorch |
Biblioteca de aprendizaje profundo de código abierto |
Desarrollo de redes neuronales, procesamiento de imágenes. |
Scikit-learn |
Biblioteca de aprendizaje automático para análisis de datos |
Clasificación, regresión y agrupamiento. |
Keras |
API de redes neuronales de alto nivel |
Aprendizaje profundo, reconocimiento de imágenes. |
Pandas |
Biblioteca de manipulación y análisis de datos. |
Preprocesamiento de datos, análisis exploratorio de datos. |
Jupyter Notebook |
Entorno de codificación interactivo. |
Análisis de datos, experimentación y visualización. |
MATLAB |
Entorno informático numérico patentado. |
Análisis de datos, procesamiento de señales y simulaciones (Márquez, 2021). |
IBM Watson |
Plataforma impulsada por IA para la comprensión del lenguaje natural. |
Chatbots, procesamiento del lenguaje, análisis de sentimientos. |
Google Cloud AI |
Conjunto de herramientas y servicios de inteligencia artificial proporcionados por Google Cloud. |
Aprendizaje automático, procesamiento de lenguaje natural. |
Microsoft Azure AI |
Colección de servicios y herramientas de IA de Microsoft. |
Visión por computadora, reconocimiento de voz, IA de lenguaje. |
Imagebind |
Modelo avanzado de IA que vincula datos en seis modalidades in situ (imágenes, video, audio, texto, profundidad y unidades de medida térmicas e inerciales). |
Combinación de modelos generativos mediante la combinación de las diferentes modalidades. |
Supercomputadoras de IA de NVIDIA |
Sistema avanzado que proporciona un rendimiento de 1 Exaflop y 144 TB de memoria compartida. |
Visión por computador, modelos de lenguaje de IA generativa preentrenados, análisis de datos masivo y sistemas de recomendación. |
Fuente: elaboración propia.
Para maximizar los beneficios de los modelos de lenguaje en la investigación científica, la colaboración y el compromiso de la comunidad son vitales. Los investigadores deben interactuar activamente en foros de intercambio de conocimientos, participar en debates y contribuir a la mejora de estos modelos. Los esfuerzos de colaboración pueden conducir al desarrollo de conjuntos de datos y modelos específicos, mejorando aún más su aplicabilidad a la investigación científica.
Experiencia e interpretación
Si bien los modelos de lenguaje natural pueden brindar una asistencia valiosa, los investigadores deben mantener su experiencia y ejercitar el pensamiento crítico al interpretar y validar los resultados. Estos modelos pueden generar resultados plausibles que requieren un escrutinio cuidadoso y una validación frente a los principios científicos establecidos.
Cada modelo presenta sus propias limitaciones e incertidumbres (Osaba et al., 2021). Los investigadores deben ser conscientes de ello y comprender los límites dentro de los cuales operan. Reconocer las incertidumbres inherentes y los errores potenciales en los resultados generados es crucial para la toma de decisiones (Gorman et al., 2020). Por lo tanto, es aconsejable trabajar como mínimo dos modelos, esto ayuda al investigador a comparar información e inferir posibles falencias (Liu et al., 2021). No obstante, es fundamental complementar su uso con fuentes confiables y especializadas para garantizar la precisión y la veracidad de la información obtenida.
Consideraciones éticas
El PNL es un campo de rápido crecimiento en el que se desarrollan nuevas aplicaciones permanentemente (Macêdo et al., 2021). A medida que los sistemas se vuelvan más potentes, tendrán un profundo impacto en la forma en que interactuamos con los sistemas inteligentes. Es por ello, que se han impuesto límites a estos modelos, conducentes a garantizar la seguridad y ética, de tal forma que no se genere contenido inapropiado. Sin embargo, existen excepciones mediante el uso de los jailbreaks; que son comandos o prompts diseñados para que un chatbot ignore las restricciones impuestas, manipulando el etiquetado de discurso de los tokens.
Si bien aprovechar los modelos de lenguaje natural en la investigación científica ofrece numerosos beneficios, es esencial tomar en cuenta algunas consideraciones éticas para garantizar un uso responsable e imparcial, como son:
-
Sesgo y equidad: los modelos de lenguaje natural se entrenan con grandes conjuntos de datos que pueden contener sesgos presentes en las fuentes de estos. Es necesaria una cuidadosa evaluación y validación de los resultados generados para garantizar la ecuanimidad e imparcialidad.
-
Privacidad y seguridad de los datos: la investigación científica a menudo involucra datos sensibles y confidenciales. Al utilizar modelos de lenguaje natural, los investigadores deben emplear técnicas adecuadas de anonimización y cifrado de datos para salvaguardar información personal y de propiedad.
-
Propiedad intelectual y plagio: los investigadores deben tener cuidado para evitar posibles violaciones de la propiedad intelectual y plagio cuando utilicen modelos de lenguaje natural. Si bien estos modelos brindan asistencia para escribir y generar contenido, es fundamental asegurarse de que el trabajo producido sea original y se atribuya adecuadamente a sus fuentes legítimas.
-
Transparencia y explicabilidad: el funcionamiento interno de los grandes modelos de lenguaje puede ser complejo y difícil de interpretar. Los investigadores deben tener presente la transparencia y la explicabilidad en la utilización de estos modelos. Documentar la metodología, las técnicas y las limitaciones empleadas puede mejorar la credibilidad y la reproducibilidad de la investigación.
Conclusiones
La integración de los modelos de lenguaje natural en la investigación científica tiene un potencial significativo para avanzar en el conocimiento y acelerar los descubrimientos. Al aprovechar sus capacidades de comprensión del lenguaje, recuperación de información relevante, análisis de datos y redacción científica, los investigadores pueden mejorar su productividad y obtener información valiosa. Sin embargo, las consideraciones éticas, la experiencia del usuario, las limitaciones del modelo y el compromiso colaborativo deben abordarse cuidadosamente para garantizar un uso responsable y eficaz de estos modelos en la investigación científica.
Referencias
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M. Wu, J. Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, LL., & Amodei, D.. (2020). Language models are few-shot learners. arXiv. https://arxiv.org/abs/2005.14165
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoye, L., & Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. En Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 8440-8451). Association for Computational Linguistics. https://aclanthology.org/2020.acl-main.747/
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 4171-4186), Association for Computational Linguistics. https://aclanthology.org/N19-1423/
Gorman, K., Bedrick, S., & Sproat, R. (2020). What's wrong with these sentences? A survey of annotation practices for error detection in natural language processing. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 2449-2461).
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoye, L., & Stoyanov, V. (2019). RoBERTa: A robustly optimized BERT pretraining approach. arXiv. https://arxiv.org/abs/1907.11692
Liu, Z., Li, G., & Cheng, J. (2021). Hardware acceleration of fully quantized bert for efficient natural language processing. Automation & Test in Europe Conference & Exhibition (DATE) (pp. 513-516). IEEE.
Macêdo, D., Ren, T. I., Zanchettin, C., Oliveira, A. L., & Ludermir, T. (2021). Entropic out-of-distribution detection: Seamless detection of unknown examples. IEEE Transactions on Neural Networks and Learning Systems, 33(6), 2350-2364.
Maharjan, D., Agüero, M., Mascarenas, D., Fierro, R., & Moreu, F. (2021). Enabling human–infrastructure interfaces for inspection using augmented reality. Structural Health Monitoring, 20(4), 1980-1996.
Márquez Díaz, J. E. (2021). Matlab para ciencias e ingeniería. Editorial Neogranadina. https://doi.org/10.18359/97895851032
Osaba, E., Villar-Rodriguez, E., Del Ser, J., Nebro, A. J., Molina, D., LaTorre, A., ... & Herrera, F. (2021). A tutorial on the design, experimentation and application of metaheuristic algorithms to real-world optimization problems. Swarm and Evolutionary Computation, 64, 100888.
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, Ch., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. arXiv. https://arxiv.org/abs/1802.05365
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training [preprint. Work in progress]. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv. https://arxiv.org/abs/1910.10683
Singhal, T., Liu, J., Blessing, L. T., & Lim, K. H. (2021). Analyzing scientific publications using domain-specific word embedding and topic modelling. In 2021 IEEE International Conference on Big Data (Big Data) (pp. 4965-4973). IEEE.
Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). GLUE: A multi-task benchmark and analysis platform for natural language understanding. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (pp. 1-11). https://aclanthology.org/W18-5446/
Yang, Z., Dai, Z., Yang, Y., Carbonell, J. G., Salakhutdinov, R., & Le, Q. V. (2019). XLNet: Generalized autoregressive pretraining for language understanding. arXiv. https://arxiv.org/abs/1906.08237