Comparación de modelos generativos compactos para respuesta automática en español mediante RAG
Contenido principal del artículo
Resumen
Este estudio compara cinco modelos generativos compactos (≤ 8 mil millones de parámetros) para respuesta automática en español integrados a un esquema de generación aumentada con recuperación (RAG) y ejecutados localmente. Se evalúa la calidad mediante F1, BLEU-4 y un juicio semántico externo (LLM-Judge), junto con indicadores de eficiencia (latencia P95, memoria, GPU/CPU). Los resultados muestran que Mistral 7B alcanza el mejor desempeño medio en F1 y valoración global, mientras que OpenHermes 7B ofrece una precisión prácticamente equivalente con la menor huella de memoria. Zephyr 7B-β destaca en documentos extensos y Phi-3 Mini reduce las colas de latencia bajo condiciones adversas. Un análisis de Pareto F1–RAM identifica a Mistral 7B y OpenHermes 7B como soluciones no dominadas, proporcionando pautas de selección según el objetivo operativo (precisión absoluta vs. eficiencia de recursos). El trabajo aporta una comparación reproducible en español bajo RAG y criterios accionables para despliegues locales.
Detalles del artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Cuando un autor crea un artículo y lo publica en una revista, los derechos de autor pasan a la revista como parte del acuerdo de publicación. Por lo tanto, la revista se convierte en la dueña de los derechos de reproducción, distribución y venta del artículo. El autor conserva algunos derechos, como el derecho a ser reconocido como el creador del artículo y el derecho a utilizarlo para sus propios fines académicos o de investigación, a menos que se acuerde lo contrario en el contrato de publicación.
Cómo citar
Referencias
J. Cañete, G. Chaperon, R. Fuentes, J.-H. Ho, H. Kang, and J. Pérez, “Spanish Pre-trained BERT Model and Evaluation Data,” Aug. 2023, Accessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2308.02976
J. Cañete, S. Donoso, F. Bravo-Marquez, A. Carval-lo, and V. Araujo, “ALBETO and DistilBETO: Lightweight Spanish Language Models,” 2022 Lan-guage Resources and Evaluation Conference, LREC 2022, pp. 4291–4298, Apr. 2022, Accessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2204.09145
A. Gutiérrez-Fandiño et al., “MarIA: Spanish Lan-guage Models,” Procesamiento del Lenguaje Natural, vol. 68, pp. 39–60, Apr. 2022, doi: 10.26342/2022-68-3.
P. Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks,” Adv Neural Inf Process Syst, vol. 2020-December, May 2020, Ac-cessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2005.11401
K. Guu, K. Lee, Z. Tung, P. Pasupat, and M. W. Chang, “REALM: Retrieval-Augmented Language Model Pre-Training,” 37th International Conference on Machine Learning, ICML 2020, vol. PartF168147-6, pp. 3887–3896, Feb. 2020, Accessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2002.08909
P. Lewis, B. Oguz, R. Rinott, S. Riedel, and H. Schwenk, “MLQA: Evaluating Cross-lingual Extrac-tive Question Answering,” Proceedings of the Annual Meeting of the Association for Computational Linguistics, pp. 7315–7330, Oct. 2019, doi: 10.18653/v1/2020.acl-main.653.
A. Grattafiori et al., “The Llama 3 Herd of Models,” Jul. 2024, Accessed: Aug. 11, 2025. [Online]. Availa-ble: https://arxiv.org/pdf/2407.21783
A. Q. Jiang et al., “Mistral 7B,” Oct. 2023, Accessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2310.06825
“HuggingFaceH4/zephyr-7b-beta · Hugging Face.” Accessed: Aug. 11, 2025. [Online]. Available: https://huggingface.co/HuggingFaceH4/zephyr-7b-beta
M. Abdin et al., “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone,” Apr. 2024, Accessed: Aug. 11, 2025. [Online]. Avail-able: https://arxiv.org/pdf/2404.14219
“teknium/OpenHermes-7B · Hugging Face.” Ac-cessed: Aug. 11, 2025. [Online]. Available: https://huggingface.co/teknium/OpenHermes-7B
T. Dettmers, M. Lewis, Y. Belkada, and L. Zettle-moyer, “LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale,” Adv Neural Inf Process Syst, vol. 35, Aug. 2022, Accessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2208.07339
J. Johnson, M. Douze, and H. Jegou, “Billion-scale similarity search with GPUs,” IEEE Trans Big Data, vol. 7, no. 3, pp. 535–547, Feb. 2017, doi: 10.1109/TBDATA.2019.2921572.
M. Douze et al., “The Faiss library,” Jan. 2024, Ac-cessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2401.08281
K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “BLEU,” in Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL ’02, Morristown, NJ, USA: Association for Computation-al Linguistics, 2001, p. 311. doi: 10.3115/1073083.1073135.
T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger, and Y. Artzi, “BERTScore: Evaluating Text Generation with BERT,” 8th International Conference on Learning Representations, ICLR 2020, Apr. 2019, Accessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/1904.09675
C.-Y. Lin, “ROUGE: A Package for Automatic Eval-uation of Summaries,” 2004. Accessed: Aug. 11, 2025. [Online]. Available: https://aclanthology.org/W04-1013/
Y. Gao et al., “Retrieval-Augmented Generation for Large Language Models: A Survey,” Proceedings - 2024 Conference on AI, Science, Engineering, and Tech-nology, AIxSET 2024, pp. 166–169, Dec. 2023, doi: 10.1109/AIxSET62544.2024.00030.
H. Yu, A. Gan, K. Zhang, S. Tong, Q. Liu, and Z. Liu, “Evaluation of Retrieval-Augmented Genera-tion: A Survey,” Communications in Computer and In-formation Science, vol. 2301, pp. 102–120, Jul. 2024, doi: 10.1007/978-981-96-1024-2_8.
E. Frantar, S. Ashkboos, T. Hoefler, and D. Alistarh, “GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers,” 11th Interna-tional Conference on Learning Representations, ICLR 2023, Oct. 2022, Accessed: Aug. 11, 2025. [Online]. Available: https://arxiv.org/pdf/2210.17323