Extracción de conocimiento mediante traducción automatizada a Cypher con aprendizaje zero-shot

Autores/as

DOI:

https://doi.org/10.5281/zenodo.14876949

Palabras clave:

aprendizaje con cero muestras de entrenamiento, inteligencia artificial, modelos de lenguajes a gran escala, MSC 68

Resumen

Este trabajo se centra en abordar la complejidad inherente a la consulta de bases de datos en forma de grafo, como Neo4J. Estas bases de datos a menudo requieren un conocimiento especializado en lenguajes de consulta, lo que limita su accesibilidad a un grupo reducido de usuarios con habilidades técnicas avanzadas. Para superar esta limitación, proponemos la aplicación del aprendizaje con cero muestras de entrenamiento (zero-shot), un enfoque innovador en el procesamiento del lenguaje natural. En esta investigación, se lleva a cabo un experimento basado en el modelo GPT-4 para traducir consultas de lenguaje natural a código Cypher. La evaluación se realiza utilizando el conjunto de datos de evaluación MetaQA, que abarca una amplia variedad de ejemplos de consultas. Los resultados obtenidos fueron del 76,53%, 43,45% y 31,03% para los tres lotes de evaluación del benchmark utilizado, mejorando de esta forma el mejor resultado de modelos de lenguaje en la traducción de lenguaje natural a código Cypher sobre MetaQA mediante el aprendizaje zero-shot

Descargas

Los datos de descargas todavía no están disponibles.

Citas

AI, Nomic: GPT4All. https://nomic-ai.com/, 2023. https://nomic-ai.com/, Accedido el: 12/13/2023.

Alpaca: Alpaca-Lora. https://alpaca.com/, 2023. https://alpaca.com/, Accedido el: 12/13/2023.

Archive, Web: Creación de una base de conocimiento.

https://lc.cx/T9w20p, 2023. https://lc.cx/T9w20p.

Bazaga, A., N. Gunwant y G. Micklem: Translating synthetic natural language to database queries with a polyglot deep learning framework. Scientific Reports, 11:18462, 2021. https://doi.org/10.1038/s41598-021-98019-3.

Bui, N. D. Q., H. Le, Y. Wang, J. Li, A. D. Gotmare y S. C. H. Hoi: CodeTF: One-stop Transformer Library for State-of-the-art Code LLM, 2023. https://doi.org/10.48550/arXiv.2306.00029, Accedido el: 05 de diciembre, 2023.

Deng, N., Y. Chen y Y. Zhang: Recent Advances in Textto-SQL: A Survey of What We Have and What We Expect. En Proceedings of the 29th International Conference on Computational Linguistics, páginas 2166–2187, Online, October 2022. https://aclanthology.org/2022.coling-1.190.pdf, Presented at the 29th International Conference on Computational Linguistics, October 12-17, 2022.

GenAI, Meta: Llama 2: Open Foundation and Fine-Tuned Chat Models. Informe técnico, Simons Foundation, member institutions, 2023. https://arxiv.org/abs/2307.09288.

Huang, L., W. Yu, W. Ma, W. Zhong, Z. Feng, H. Wang, Q. Chen, W. Peng, X. Feng, B. Qin y T. Liu: A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. arXiv preprint arXiv:2311.05232, 2023. https://arxiv.org/abs/2311.05232.

Humza, N., U. K. Asad, Q. Shi, S. Muhammad, A. Saeed, U. Muhammad, A. Naveed, B. Nick y M. Ajmal: A Comprehensive Overview of Large Language Models. ArXiv, 2023. https://arxiv.org/pdf/2307.06435.pdf.

insights, SAP: ¿Qué es el ¿modelado de datos? https://www.sap.com/latinamerica/products/technology-platform/datasphere/what-is-data-modeling.html, 2023. https://www.sap.com/latinamerica/products/technology-platform/datasphere/what-is-data-modeling.html.

Li, P., T. Sun, Q. Tang, H. Yan, Y. Wu, X. Huang y X. Qiu: Large Code Generation Models are Better Few-Shot Information Extractors. En Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, volumen 1, páginas 15339–15353, Associationfor Computational Linguistics, 2023. https://aclanthology.org/2023.acl-long.855.pdf, Accedido el: 05 de diciembre, 2023.

Liu, A., X. Hu, L. Wen y P. S. Yu: A Comprehensive Evaluation of Chat-GPTâs Zero-Shot Text-to-SQL Capability. ArXiv, abs/2303.13547, 2023. https://arxiv.org/abs/2303.13547.

MAPFRE, Fundación: ¿Cuánta información se genera y almacena en el mundo? https://lc.cx/1pCjng, 2023. https://lc.cx/1pCjng.

OpenAI: GPT-4 Technical Report. Informe técnico, Simons Foundation, member institutions, 2023. https://arxiv.org/abs/2303.08774.

Parkhi, O. M., S. M. Ali, M. Elgammal y C. K. I. Williams: Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly. ArXiv, 2017. https://arxiv.org/pdf/1707.00600.pdf.

Site, Neo4J Official: Neo4J Graph Database: The mosted trusted database for intelligent applications. https://neo4j.com/product/neo4j-graph-database/, 2023. https://neo4j.com/product/neo4j-graph-database/.

Site, Neo4J Official: Query a Neo4J Database using Cypher. https://neo4j.com/docs/getting-started/cypher-intro/, 2023. https:

//neo4j.com/docs/getting-started/cypher-intro/.

Sun, R., S. Ã. Arik, H. Nakhost, H. Dai, R. Sinha, P. Yin y T. Pfister: SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL. ArXiv, abs/2306.00739,2023. https://arxiv.org/abs/2306.00739.

Vicuna: Vicuna 7b. https://vicuna.com/, 2023. https://vicuna.com/, Accedido el: 12/13/2023.

Wayne, X. Z., Z. Kun, L. Junyi, T. Tianyi, W. Xiaolei, H. Yupeng, M. Yingqian, Z. Beichen, Z. Junjie, D. Zican, D. Yifan, Y. Chen, C. Yushuo, C. Zhipeng, J. Jinhao, R. Ruiyang, L. Yifan, T. Xinyu, L. Zikang, L. Peiyu, N. Jian-Yun y W. Ji-Rong: A Survey of Large Language Models. ArXiv, 2023. https://arxiv.org/pdf/2307.06435.pdf.

Website, IBM Official: Lenguaje de consulta estructurada (SQL). https://n9.cl/lenguajeconsulta, 2023. https://n9.cl/lenguajeconsulta.

Wikipedia: Graph database. https://n9.cl/n7atf, 2023. https://n9.cl/n7atf.

Yuyu, Z., D. Hanjun, K. Zornitsa, J. S. Alexander y S. Le: Variational Reasoning for Question Answering with Knowledge Graph. En Proceedings of the 31st AAAI Conference on Artificial Intelligence, 2017. https: //arxiv.org/abs/1709.04071.

Descargas

Publicado

2025-02-15 — Actualizado el 2024-06-27

Versiones

Cómo citar

[1]
Sánchez Ramos, R. 2024. Extracción de conocimiento mediante traducción automatizada a Cypher con aprendizaje zero-shot. Ciencias matemáticas. 38, 1 (jun. 2024), 61–68. DOI:https://doi.org/10.5281/zenodo.14876949.

Número

Sección

Artículo Original