Tipo de artículo: Artículo original

Fecha de recibido: 15/03/2025

Fecha de aceptado: 13/05/2026

Fecha de publicado: 15/06/2026

Introducción

La era digital se caracteriza por un acceso sin precedentes a la información, con más de 5280 millones de usuarios de internet en el mundo, la exposición a contenidos digitales es masiva (Astudillo Muñoz, 2024). Sin embargo, este flujo informativo conlleva un desafío que ha dado lugar a lo que se denomina la “infodemia” (Balakrishnan et al., 2022). Este entorno de posverdad, donde las emociones y creencias a menudo prevalecen sobre los hechos, representa un reto significativo para la formación de ciudadanos críticos y responsables (De La Peña, 2022).

Este problema adquiere una gravedad particular en el contexto latinoamericano, donde la consolidación en las redes sociales ha amplificado el alcance y la circulación de información no verificada (Castro-Paredes & Tomailla-Sandoval, 2024). En Ecuador, los estudios revelan que los medios digitales se han convertido en entornos donde la desinformación fluye rápidamente, erosionando la confianza en las instituciones y acentuando la polarización social (Córdova Medina et al., 2025). El ámbito universitario no es ajeno a esta realidad, si bien se presume que en este entorno debería primar el rigor metodológico, la evidencia indica que tanto estudiantes como docentes pueden presentar debilidades en sus competencias informacionales, sobreestimando su capacidad en múltiples aspectos para evaluar críticamente las fuentes digitales (Carina Volotão & Marielle Barros de Moraes, 2023; Pegalajar Palomino & Rodríguez Torres, 2023). Esta brecha de habilidades no solo afecta la integridad académica, sino que limita la capacidad de los estudiantes para desempeñarse como profesionales y ciudadanos de una sociedad digital compleja (Volotão & Moraes, 2022).

Ante este escenario, la alfabetización informacional emerge como una competencia fundamental, definida como la capacidad de acceder, evaluar y utilizar la información de manera ética y efectiva, fomentando una postura crítica y resiliente (Echeverría & Rodríguez Cano, 2023). El desarrollo del pensamiento crítico es el pilar central de esta competencia, necesario para “contrarrestar la desinformación producto del bombardeo informacional” (Carina Volotão & Marielle Barros de Moraes, 2023). La urgencia de fortalecer estas habilidades en la educación superior es clara.

En la búsqueda de soluciones, los chatbots educativos han ganado terreno como herramientas de apoyo al aprendizaje, investigaciones previas, como el desarrollo de “EduChat” por Dinh y Tran (2023), demuestra la viabilidad de los enfoques híbridos (Jiménez-García et al., 2025). No obstante, una revisión sistemática identifica que los sistemas basados únicamente en reglas carecen de flexibilidad, mientras que los chatbots puramente generativos pueden priorizar la inmediatez de las respuestas sobre la profundidad pedagógica (Garzón-Quiroz et al., 2025). Aunque herramientas de IA ChatGPT pueden ofrecer apoyo personalizado y retroalimentación inmediata, su integración en el aula implica desafíos relacionados con la formación y gestión de la tecnología (Rodríguez Almazán et al., 2023). Asimismo, diversos estudios enfatizan la necesidad de una supervisión pedagógica continua para asegurar su adecuado funcionamiento educativo (Norman-Acevedo, 2023). Esta limitación señala una brecha importante en el diseño de asistentes conversacionales para la educación, la necesidad de un sistema que no solo informe, sino que fundamentalmente cuestione para fomentar la autonomía cognitiva.

Para abordar esta brecha, este estudio propone la integración de dos marcos pedagógicos en un entorno de chatbot, el método socrático y la estrategia SIFT, el método socrático se basa en el uso de preguntas abiertas y el diálogo como estrategia para promover la reflexión profunda y el desarrollo del pensamiento crítico en los estudiantes, favoreciendo el análisis de argumentos en contextos educativos complejos (Rodríguez Rodríguez et al., 2024). Por su parte, la estrategia SIFT, que representa los pasos de Stop (Detenerse), Investigate the source (Investiga la fuente), Find better coverage (Encontrar cobertura) y Trace claim to the source (Rastrear la afirmación), se erige como una técnica efectiva para desarrollar la capacidad de evaluación de fuentes, fomentando un “escepticismo informado” (Hendrigan et al., 2024). La combinación de estos dos enfoques dentro de un diálogo guiado por IA tiene el potencial de crear una herramienta que simule el rol de un tutor socrático, facilitando el desarrollo de habilidades de pensamiento crítico de manera escalable.

Tecnológicamente, la arquitectura del chatbot se construye sobre un enfoque híbrido que integra reglas para asegurar comportamientos consistentes, mientras que un modelo de lenguaje permite generar interacciones más naturales, esta combinación proporciona una base equilibrada entre control y flexibilidad conversacional, tal como se señala en investigaciones previas (Garzón-Quiroz et al., 2025). Sobre este fundamento técnico, se incorpora la estrategia SIFT y un modelo de lenguaje grande (LLM) para generar preguntas socráticas adaptativas, elementos específicos del diseño propuesto en este proyecto.

La elección de un modelo de la familia LLaMA 3 en su variante Instruct de código abierto se fundamenta en su equilibrio entre rendimiento y eficiencia (Bruneti Severino et al., 2025), además de que pueden ser usados en equipos con bajo rendimiento por lo que es viable para entornos académicos con recursos computacionales limitados. Asimismo, los modelos Instruct de la familia LLaMA 3 han sido entrenados para seguir instrucciones y resolver tareas de razonamiento de propósito general (Grattafiori et al., 2024), lo que los hace adecuados para aplicaciones educativas. Su implementación a través de GPT4ALL permite la ejecución local del modelo, evitando la transferencia de datos a servicios externos, lo que contribuye a la protección de la privacidad del usuario en contextos educativos (Anand et al., 2023).

La relevancia de este desarrollo radica en su potencial para radica en su implementación basada en inteligencia artificial, el chatbot no está diseñado para evaluar o calificar al estudiante, sino para actuar como un tutor virtual socrático que, mediante un diálogo estructurado, fomente la reflexión y ser crítico sobre la información en internet, se espera que sus respuestas sean preguntas abiertas que guíen al estudiante a través de los cuatro pasos del SIFT, ayudándoles a detenerse y cuestionar su primera impresión, investigar el origen y contexto de la información, buscar cobertura mediática alternativa para contrastar y rastrear las afirmaciones hasta su fuente primaria, de esta manera, el chat busca ayudar a los estudiantes a construir sus propios criterios de evaluación y no dejarse influenciar frente a la desinformación.

Por lo tanto, este estudio se guía por la siguiente pregunta de investigación: ¿En qué medida un chatbot socrático, basado en un modelo híbrido con LLaMA 3.2 Instruct y la estrategia SIFT, logra generar respuestas coherentes, relevantes y lógicas para fortalecer el pensamiento crítico y la alfabetización informacional en estudiantes universitarios?, además el objetivo de esta investigación es desarrollar y validar dicho chatbot socrático. La estrategia implementada para lograrlo sigue la metodología de Desarrollo Rápido de Aplicaciones (RAD), permitiendo un ciclo iterativo de diseño, construcción y evaluación con los usuarios, lo que facilita la integración efectiva de los componentes pedagógicos y tecnológicos, tal como se respalda en revisiones metodológicas de desarrollo de software que destacan la utilidad de enfoques iterativos con RAD para ajustar el diseño según retroalimentación continua (Sanmocte & Costales, 2025) y estudios que reportan implementaciones exitosas de RAD en proyectos reales mediante ciclos rápidos de prueba y mejora (Singgalen, 2024).

Materiales y métodos

El presente estudio se enmarca en un diseño de desarrollo tecnológico aplicado a la educación, la investigación se llevó a cabo en el contexto de una universidad ecuatoriana, para la construcción del chatbot socrático, se adoptó la metodología de Desarrollo Rápido de Aplicaciones (RAD), la cual combina flexibilidad con una complejidad manejable, permitiendo realizar ajustes de forma rápida según la retroalimentación obtenida durante el proceso, en línea con el análisis comparativo que describen que metodologías como RAD reducen tiempos de planificación y favorecen ciclos iterativos (Sanmocte & Costales, 2025). Este enfoque también coincide con experiencias de implementación donde RAD simplificó, mediante pruebas continuas con usuarios para mejorar gradualmente el sistema (Singgalen, 2024). El proceso de la metodología RAD está detallado a continuación, la figura 1 ilustra el flujo de esta metodología.

Figura 1. Fases de la metodología RAD Desarrollo Rápido de Aplicación.

Fase 1: Planificación de necesidades y diseño conceptual

En esta fase inicial se establecieron los cimientos pedagógicos y tecnológicos del asistente conversacional, tomando como referencia la problemática de la infodemia descrita en el artículo (Balakrishnan et al., 2022) y la necesidad de fortalecer el pensamiento crítico en estudiantes universitarios, pues otros estudios evidencian limitaciones en esta dimensión (Pegalajar Palomino & Rodríguez Torres, 2023), se definió el objetivo central de desarrollar un chatbot que, a diferencia de los asistentes tradicionales que no proporcionan respuestas directas sino que guiará un proceso de reflexión crítica autónoma.

La base pedagógica del sistema se sustenta en la integración de dos marcos metodológicos, por un lado se eligió la estrategia SIFT, porque la literatura reportada indica que favorece el desarrollo de un “escepticismo informado” y apoya a los estudiantes en la evaluación crítica de fuentes digitales (Hendrigan et al., 2024). Mientras que desde una perspectiva pedagógica, el método socrático concibe el aprendizaje como un proceso de diálogo en el que el cuestionamiento continuo permite al estudiante examinar, contrastar y justificar sus razonamientos, fortaleciendo así el pensamiento crítico y la comprensión profunda de los contenidos (Rodríguez Rodríguez et al., 2024). Se conceptualizó un flujo conversacional progresivo donde cada uno de los cuatro pasos de SIFT se asociaría a un tipo específico de pregunta socrática, creando una estructura dialéctica que guía al estudiante desde la suspensión del juicio hasta el rastreo del origen de la información.

El propósito educativo central del flujo es transformar cada paso de SIFT en una oportunidad para el desarrollo de habilidades específicas de pensamiento crítico, para ello se definió que las respuestas no son afirmaciones, sino preguntas socráticas orientadas a lograr los siguientes objetivos de aprendizaje, en “Stop”: Hacer una pausa antes de opinar y e identificar las inclinaciones personales al evaluar información, en “Investigate”: Promover la verificación de la credibilidad del autor y el propósito de la publicación, en “Find”: Promover la revisión de múltiples fuentes y la identificación de información consistente, en “Trace”: fomentar la habilidad de ver el origen real y confirmar qué tan cierto es cada afirmación. Esta estructura busca que el estudiante, guiado por el chatbot no reciba un veredicto sobre la veracidad, sino que aprenda y aplique un método sistemático para llegar a sus propias conclusiones fundamentadas.

Tecnológicamente, se optó por una arquitectura híbrida que permite alcanzar un equilibrio entre control y flexibilidad en la interacción conversacional (Garzón-Quiroz et al., 2025). Combinando reglas pedagógicas con un modelo de lenguaje natural, esta decisión permitió garantizar la aplicación estructurada del método SIFT mientras se mantenía la naturalidad y adaptabilidad del diálogo, el proceso de selección de herramientas se consideraron criterios de eficiencia, privacidad y adecuación al contexto educativo.

Python fue seleccionado como el lenguaje de programación principal debido a su sintaxis sencilla y a su capacidad para facilitar el desarrollo rápido de soluciones informáticas(Vidal-Silva et al., 2021). El framework Flask ofrece un enfoque flexible para construir aplicaciones y permitir extender funcionalidades según la evolución del proyecto(Albesher & Alfayez, 2024). Se seleccionó un modelo Instruct de la familia LLaMA 3, dado que estos modelos de lenguaje de propósito general han sido entrenados para seguir instrucciones, generar texto coherente y abordar tareas de razonamiento (Grattafiori et al., 2024), accesible localmente a través de la plataforma GPT4ALL, lo que permite prescindir de servicios externos y favorece el control local de los datos del usuario (Anand et al., 2023).

Flask-session se configuró para gestionar el contexto conversacional de forma temporal y segura, almacenando el historial de diálogo y el paso actual del método SIFT sin conservar datos personales de manera persistente. Gevent se implementó para convertir el servidor Flask en asíncrono, permitiendo manejar múltiples conexiones de usuarios simultáneamente sin bloqueos. AJAX y JSON se integraron para permitir “el intercambio de datos con el servidor y la actualización parcial de una página sin necesidad de recargarla completamente” (Li & Bao, 2024). Se planificó el uso de expresiones regulares (Regex) para detectar y redirigir conversaciones fuera del contexto educativo.

Fase 2: Diseño interactivo con el usuario y desarrollo del prototipo

La segunda fase se centró en la construcción y refinamiento progresivo de un prototipo funcional, incorporando activamente la retroalimentación de los usuarios en ciclos iterativos de diseño, el proceso inició con el desarrollo de un prototipo básico utilizando Flask y el motor de plantillas Jinja2, implementando una interfaz de chat web con funcionalidades esenciales, una ruta raíz (/) para cargar la interfaz principal y una ruta /enviar para procesar asincrónicamente los mensajes del usuario mediante peticiones AJAX.

Una vez establecida la interfaz mínima viable, se procedió al diseño detallado del flujo conversacional basado en SIFT, cada fase del método fue operacionalizada en acciones concretas dentro del chat por ejemplo, Stop mediante preguntas que invitan a la pausa reflexiva, Investigate con preguntas sobre autor y contexto de publicación, Find orientada a cobertura alternativa y Trace focalizada en el origen primario de la información. Para garantizar que el modelo siguiera esta secuencia de manera consistente se aplicaron técnicas formales de ingeniería de prompts, se colocaron instrucciones estructuradas que definirán el rol, límites, formato de respuesta y criterios de verificación, permitiendo así controlar la conducta del LLM sin sacrificar la adaptabilidad conversacional (Velazquez-Solis et al., 2017). Sobre esta base se construyeron indicaciones específicas para encaminar LLaMA 3.2-3B Instruct hacia un estilo socrático y una secuencia coherente con SIFT, manteniendo además salvaguardas para el contexto educativo y la privacidad.

Paralelamente, se implementó un conjunto de detectores basados en expresiones regulares (Regex) con bordes de palabras (\b) para detectar y redirigir conversaciones fuera de contexto educativo, como saludos, intentos de “Jailbreak” o consultas factuales simples redirigiéndolas hacia los objetivos pedagógicos sin interrumpir las expresiones del usuario.

El prototipo fue sometido a ciclos de pruebas con estudiantes universitarios, quienes interactuaron con el sistema de sesiones en las que simulaban el análisis de noticias dudosas o correos electrónicos sospechosos, la retroalimentación recogida permitió identificar áreas de mejora específicas, se ajustó la longitud y claridad de las respuestas generadas por el modelo, se refinó la naturalidad de las respuestas, se optimizó la transición entre los diferentes pasos del método SIFT y se mejoró la detección de patrones conversacionales atípicos. Siguiendo el enfoque interactivo característico de la metodología RAD, documentado en implementaciones reales donde cada fase del desarrollo incorpora retroalimentación de los usuarios y producen nuevas versiones más refinadas del prototipo (Singgalen, 2024). Este proceso de diseño centrado en el usuario aseguró que el prototipo final no solo fuera tecnológicamente sólido, sino también pedagógicamente efectivo y alineado con las necesidades reales de su público objetivo.

Evaluación planificada con usuarios

La evaluación del chatbot busca validar si cumple su propósito pedagógico de guiar una reflexión crítica, midiendo con una encuesta Likert la calidad percibida del diálogo educativo en tres dimensiones coherencia con el análisis SIFT, relevancia para analizar noticias o correo, y sentido lógico para promover la reflexión.

Esto validará si el chatbot genera un diálogo guiado pedagógicamente sólido, esta encuesta se realizará al final de desarrollar el prototipo, por lo que se planea realizar un estudio con una muestra de estudiantes universitarios, la muestra será seleccionada mediante un muestreo no probabilístico por conveniencia, buscando reclutar aproximadamente 90 estudiantes, entre 3 a 6 cursos distintos, lo que permitirá una evaluación inicial robusta de la habilidad y efectividad percibida del sistema, la herramienta de evaluación consistirá en una encuesta de percepción basada en una escala Likert del 1 al 5, diseñada para medir 3 dimensiones claves de la respuesta del chatbot, que previamente mencionamos que son, coherencia, relevancia y sentido lógico, con los datos recopilados se calculará un índice de calidad de chatbot (ICC), obtenido mediante la fórmula:

Esta fórmula donde C es el promedio de coherencia, R el promedio de relevancia y S el promedio de sentido lógico, esto nos permitirá cuantificar la calidad del diálogo en base a la experiencia del usuario al momento de usarlo.

Fase 3: Construcción e implementación del sistema

Esta fase tuvo como objetivo integrar todos los componentes definidos en el diseño para construir un sistema funcional y estable, el foco principal fue implementar la lógica que permite el chatbot mantener un diálogo socrático guiado por la estrategia SIFT, esto implicó no solo la conexión entre el servidor web y el modelo de lenguaje, sino también los mecanismos de control que analizan la conversación y generan preguntas reflexivas de manera automática y coherente.

Integración técnica de componentes

Se desarrolló un servidor web empleando Flask como framework principal, aprovechando su ligereza y amplia adopción en el desarrollo de aplicaciones web en Python (Albesher & Alfayez, 2024). La interfaz del usuario se construyó con HTML, CSS y Javascript, utilizando Jinja2 para renderizado dinámico de los mensajes, mientras que AJAX se empleó para habilitar la comunicación asincrónica entre cliente y servidor, permitiendo el intercambio de datos sin necesidad de recargar la página y mejorar la fluidez de la interacción (Li & Bao, 2024). Para el procesamiento del lenguaje natural, se integró el modelo LLaMA 3.2 Instruct mediante la plataforma GPT4ALL, lo que permitió ejecutar el modelo de forma local, reduciendo la dependencia de servidores externos y favoreciendo la preservación de la privacidad de los datos del usuario (Anand et al., 2023). Adicionalmente, el servidor fue configurado para manejar múltiples solicitudes concurrentes usando Gevent, evitando que una sesión afecte el funcionamiento de las demás.

Mecanismo de control para el flujo pedagógico.

El elemento central de esta fase fue un sistema de control con tres capas coordinadas para mantener cada interacción dentro del objetivo educativo. La primera capa es el control de contexto conversacional, usando Flask-session, el sistema almacena de forma temporal y asegura el estado actual de la interacción de cada usuario, esto incluye en qué paso el método SIFT se encuentra el estudiante (Stop, Investigate, Find, Trace), el historial reciente de la conversación y un contador para evitar que el diálogo se repita o estanque, este contexto es la memoria que permite al chatbot dar continuidad lógica al análisis, haciendo referencia a lo que el usuario ha dicho antes, además se aplica un filtrado del historial para evitar que los saludos iniciales en mensajes triviales contaminen el contexto pedagógico que se está enviando al modelo.

La segunda capa es el control del contenido mediante expresiones regulares (Regex), este módulo actúa como un filtro inicial que escanea cada mensaje enviado por el usuario antes de que sea procesado por el modelo de lenguaje, su función es detectar y manejar mensajes que podrían desviar el propósito pedagógico, como saludos simples, intentos de hacer preguntas técnicas de programación, solicitudes de roleplay no educativo o intentos de instruir a modelo para que ignore su rol (jailbreak), cuando se detecta un patrón de este tipo, el sistema puede generar una respuesta automática que redirige suavemente la conversación hacia el análisis crítico, sin necesidad de involucrar el modelo de lenguaje y evitando así respuestas incoherentes o fuera de contexto.

La tercera y más importante capa es el sistema de generación de respuestas socrática, en este nivel, la ingeniería de prompts se aplica de manera fundamental, entendida como un proceso sistemático para diseñar y refinar instrucciones del lenguaje natural que orientan al comportamiento del modelo hacia respuestas contextualizadas, coherentes con el objetivo pedagógico y sensibles al estado de la interacción (Velásquez-Henao et al., 2023). El sistema lo envía el mensaje del usuario directamente al modelo LLaMA en su lugar construye un prompt estructurado que combina tres elementos clave, primero una instrucción del rol que define al chatbot como un tutor socrático especializado en el análisis de información digital utilizando el método SIFT, segundo el contexto de la sesión, que incluye el paso SIFT actual y el historial reciente de la conversación, tercero el mensaje actual del usuario.

Este prompt estructurado guía al modelo para que su respuesta no sea una afirmación, sino una intervención pedagógica que cumple dos funciones, la primera es validar y reformular la inquietud del estudiante, utilizando expresiones como” parece que…” o “es comprensible que…”, con el fin de demostrar comprensión y genera un clima de diálogo, la segunda y más crítica, es formular una pregunta socrática que impulse al estudiante hacia el siguiente eslabón lógico del análisis según el método SIFT, por ejemplo, si el usuario describe una noticia viral (fase Stop), el modelo, guiado por el prompt y el contexto almacenado, genera una pregunta orientada a investigar la fuente (Investigate), si el usuario ya identificó la fuente o la plataforma, el sistema lo conduce a buscar confirmaciones externas (Find), invitándolo a contrastar la afirmación con otras fuentes confiables, finalmente cuando los estudiantes han encontrado información alternativa o evidencia adicional, el modelo formula preguntas que lo lleve a rastrear el origen, la intención y la trayectoria del contenido (Trace), cerrando el ciclo completo del método SIFT y fortaleciendo su capacidad para analizar críticamente mensajes digitales.

Pruebas interactivas de la lógica conversacional

Una vez integrados todos los componentes, se ejecutaron ciclos de pruebas orientados a analizar el comportamiento emergente del sistema, más allá de su correcto funcionamiento técnico, estas pruebas permitieron verificar la coherencia del flujo conversacional a lo largo de las etapas SIFT, así como la capacidad del sistema para generar preguntas abiertas que fomenten la reflexión y mantener el diálogo dentro de un marco educativo entre interacciones imprevistas. Este proceso de evaluación y ajustes progresivos respondió a un enfoque interactivo propio de la metodología de RAD, qué prioriza el refinamiento continuo el sistema mediante ciclos de pruebas y retroalimentación (Khair, 2024). Desde una perspectiva más general, este tipo de metodologías se caracteriza por su flexibilidad y capacidad de adaptación a lo largo del desarrollo, especialmente en contextos donde los requerimientos evolucionan (Sanmocte & Costales, 2025).

Fase 4: Transición y entrega

La cuarta fase de la metodología RAD se orientó a poner el sistema en manos de los usuarios finales, quienes pertenecían a la Facultad de Ingeniería Civil de la Universidad Técnica de Machala, además de evaluar su desempeño recolecto la retroalimentación cuantitativa que posteriormente sería analizada en la sección de resultados, esta etapa marcó la transición desde una idea hasta un prototipo funcional evaluado. Mientras que la fase 3 consolidó el funcionamiento técnico del chatbot, la fase 4 se centró en su despliegue accesible, la interacción con estudiante y la aplicación del instrumento de evaluación, los resultados obtenidos se presentarán en la sección de resultados y discusión.

Despliegue del sistema mediante Cloudflared Tunnel

Para que los estudiantes accedieran al chatbot fuera del entorno local, se utilizó un despliegue mediante Cloudflared Tunnel, una herramienta que expone un servidor local a internet de forma segura, toda la arquitectura se ejecutó en una laptop que funcionó simultáneamente como backend del chatbot y como punto de generación del enlace público.

El despliegue incluyó un túnel temporal que enlaza la instancia local con una URL pública accesible desde cualquier navegador, verificando su estabilidad en sesiones prolongadas, validando el rendimiento con múltiples usuarios simultáneos y revisando el comportamiento del servidor mediante Gevent para garantizar un procesamiento asíncrono eficiente, el servidor se configuró con un pool de greenlets (Gevent) para gestionar solicitudes simultáneas de forma controlada, evitando colapsos, este mecanismo permitió que los estudiantes participaran sin instalaciones adicionales, replicando la experiencia de un servicio en línea.

Aplicación de encuestas tipo Likert

Una vez desplegado el sistema se aplicó un instrumento de evaluación con 9 preguntas basado en escalas Likert para recopilar la percepción de los usuarios respecto a la calidad del chatbot, las encuestas se diseñaron para medir la coherencia, relevancia y el sentido lógico. Los participantes interactuaron con casos reales como publicaciones virales, mensajes dudosos, noticias y videos de TikTok o X, y evaluaron su experiencia mediante una encuesta Likert de cinco niveles, aplicada a 91 estudiantes de 5 cursos, los datos recolectados fueron almacenados y procesados para más adelante calcular el índice de calidad del chatbot (ICC), cuyo análisis se presenta en la sección de resultados y discusión.

Resultados y discusión

A continuación, se presentan los resultados que provienen de la evaluación de 91 estudiantes universitarios en tres dimensiones que son coherencia, relevancia y sentido lógico, cada dimensión fue medido mediante tres preguntas en escala Likert de 5 niveles. La evaluación se basó en una interacción única de 15 a 20 minutos por participante, por lo que los resultados reflejan una percepción inicial de corto plazo, una limitación a considerar al interpretar los hallazgos. El análisis presenta primero los resultados por dimensión con sus tablas, luego el índice de calidad del chatbot (ICC) y finalmente la discusión de los hallazgos.

La coherencia mide la capacidad del chatbot para mantener el hilo conversacional, recordar respuestas previas y no desviarse del tema, aspecto crucial para aplicar la secuencia del método SIFT, se formularon 3 preguntas sobre memoria del contexto, enfoque y orden lógico.

Tabla 1. Distribución de respuestas para la dimensión coherencia (n=91).

Pregunta	Totalmente en desacuerdo	En desacuerdo	Ni de acuerdo ni en desacuerdo	De acuerdo	Totalmente de acuerdo	Promedio
El chatbot demostró entender mis respuestas previas antes de hacer una nueva pregunta	4	5	30	39	13	3.57
El chatbot mantuvo la conversación enfocada, sin desviarse a temas irrelevantes	3	9	13	44	22	3.80
El chatbot presentó las preguntas en un orden lógico que facilitó el análisis	2	4	25	43	17	3.76

Nota: Los valores representan la cantidad de estudiantes que seleccionaron cada opción n=91

Como se observa en la Tabla 1, los promedios de coherencia oscilan entre 3.57 y 3.80, la pregunta mejor valorada fue la relacionada con el enfoque conversacional de 3.80, lo que indica que el chatbot logró mantenerse en el tema sin divagar hacia asuntos irrelevantes, esto es importante porque valida la decisión de diseño de usar un enfoque híbrido (reglas + LLM) para mejorar el control pedagógico. La memoria de contexto obtuvo el promedio más bajo de 3.57, lo que sugiere pérdida ocasional del hilo conversacional, esto puede deberse a la ventana de contexto limitada del modelo LLaMA 3.2 Instruct o a que, en sesiones cortas, algunos estudiantes no completaron todas las fases del SIFT, afectando su percepción de continuidad.

La segunda dimensión evaluada fue la relevancia, es decir, qué tan útiles resultaron las preguntas del chatbot para el objetivo principal, aprender a verificar la información de manera crítica, esta dimensión es clave porque un chatbot puede ser muy coherente pero poco útil si sus preguntas no aportan al aprendizaje, las preguntas abordan la identificación de detalles sospechosos, la relevancia para el aprendizaje y el enfoque en la información analizada.

Tabla 2. Distribución de respuestas para la dimensión relevancia (n=91)

Pregunta	Totalmente en desacuerdo	En desacuerdo	Ni de acuerdo ni en desacuerdo	De acuerdo	Totalmente de acuerdo	Promedio
Las preguntas del chatbot me ayudaron a identificar detalles sospechosos que no había notado inicialmente	2	11	28	34	16	3.56
La interacción con el chatbot fue relevante para el objetivo de aprender a verificar información	5	10	18	38	20	3.64
El chatbot mantuvo sus preguntas centradas en la información analizada	4	4	15	49	19	3.82

Nota: Los valores representan la cantidad de estudiantes que seleccionaron cada opción n=91

La Tabla 2 muestra que la relevancia tuvo promedios entre 3.56 y 3.82, la pregunta con mayor puntuación fue sobre mantener las preguntas sobre la información analizada (3.82), lo que nuevamente confirma que el sistema logró mantenerse enfocado en el contenido que el estudiante estaba analizando. La pregunta más baja fue la de identificar detalles sospechosos con un 3.56, esto es comprensible, es una sesión corta, los estudiantes probablemente solo recorrieron las primeras fases del SIFT, sin alcanzar las fases más profundas donde se identifican detalles finos, además esta habilidad se desarrolla con la práctica, y una sola sesión es insuficiente para notar una mejora significativa.

La tercera dimensión evaluada fue el sentido lógico, entendido como la racionalidad, apropiación y capacidad reflexiva de las preguntas generadas por el chatbot, esta dimensión mide si el estilo socrático fue efectivo o sí, por el contrario, las preguntas se sintieron forzadas, fuera de lugar o poco naturales.

Tabla 3. Distribución de respuestas para la dimensión del sentido lógico (n=91)

Pregunta	Totalmente en desacuerdo	En desacuerdo	Ni de acuerdo ni en desacuerdo	De acuerdo	Totalmente de acuerdo	Promedio
Las preguntas en el chatbot fueron razonables y apropiadas	4	4	18	47	18	3.78
Las preguntas del chatbot fomentaron la revisión crítica de mis ideas iniciales sobre la información	2	6	20	39	2	3.85
El estilo de las preguntas socráticas del chatbot fue efectivo para fomentar mi propia reflexión	3	2	22	42	22	3.86

Nota: Los valores representan la cantidad de estudiantes que seleccionaron cada opción n=91

La Tabla 3 muestra los promedios más altos de la encuesta con un 3.78 y 3.86, la pregunta mejor evaluada con 3.86 fue la relacionada con la efectividad del estilo socrático para fomentar la reflexión propia, un hallazgo importante porque ese era precisamente el objetivo pedagógico del chatbot, no dar respuestas directas, sino hacer preguntas que lleven al estudiante a reflexionar por sí mismo. La pregunta sobre si las preguntas socráticas fueron razonables y apropiadas obtuvo 3.78, ligeramente más bajo pero aún aceptable, lo que indica que la mayoría no percibió preguntas absurdas o fuera de contexto.

Índice de Calidad del Chatbot (ICC)

Figura 2. Promedio de puntuación por dimensión evaluada

Como se muestra en la Figura 2, la dimensión mejor evaluada fue el sentido lógico con un 3.83, seguida por la coherencia con un 3.71 y relevancia con 3.67, la diferencia de 0.16 puntos indica un desempeño relativamente equilibrado sin debilidades extremas, si aplicamos la fórmula, se obtiene la media de las tres.

El índice de calidad del chatbot obtenido es de 3.74 sobre 5, este valor se ubica por encima del punto medio de la escala (3.0), indicando una percepción favorable pero no sobresaliente, en otras palabras, los estudiantes consideraron que el chatbot cumple aceptablemente con su función de guiar un diálogo socrático, pero reconocen que hay espacio para mejorar.

Para identificar fortalezas y debilidades específicas, resulta útil comparar directamente las preguntas con mayor y menor puntuación.

Figura 3. Comparación de preguntas mejor y peor evaluadas.

La Figura 3 evidencia una diferencia de 0.30 puntos entre la pregunta mejor evaluada y la peor evaluada, si bien la diferencia no es enorme, sí es considerable y reveladora, el chatbot es percibido como efectivo en su estilo pedagógico, pero menos efectivo para lograr que los estudiantes noten detalles específicos que no habrían visto por sí mismos. Esto tiene sentido desde la perspectiva pedagógica, la estrategia SIFT, en sus primeras fases, se enfoca más en detener y cuestionar la fuente que en encontrar detalles ocultos, las fases más profundas son donde realmente se descubren detalles sospechosos al contrastar fuentes y rastrear afirmaciones hasta su origen, como los estudiantes tuvieron sesiones cortas, probablemente no llegaron a esas fases avanzadas.

Discusión

El ICC de 3.74 muestra una percepción favorable pero moderada, consistente con estudios previos sobre chatbots en educación superior, donde se evidencia que estas herramientas tienen un impacto positivo en el proceso de enseñanza y aprendizaje, así como en la interacción con los estudiantes (Jiménez-García et al., 2025). Así mismo, coinciden con lo señalado por (Garzón-Quiroz et al., 2025), quienes identifica que los chatbots basados en reglas son adecuados para tareas estructuradas pero limitados en interacciones complejas, mientras que los basados en LLM permiten interacciones más adaptativas y personalizadas, aunque requieren mayores recursos, en este contexto, el enfoque híbrido de reglas para control y LLM para preguntas, logra un equilibrio entre control y adaptabilidad, reflejado en que la dimensión mejor evaluada fue el sentido lógico con un 3.83, asociada a la coherencia de las interacciones.

En comparación con estudios previos sobre la aplicación del método SIFT en contextos educativos, como el de (Hendrigan et al., 2024), dicho enfoque ha sido implementado principalmente mediante actividades formativas orientadas al desarrollo de habilidades de búsqueda y evaluación de fuentes, en ese estudio, los estudiantes aplican de manera desigual los componentes del método, aunque lo percibían como útil para analizar la credibilidad de la información, las diferencias en nuestros resultados no pueden interpretarse como una desventaja directa, ya que responden a condiciones de implementación distintas, el formato conversacional introduce dinámicas diferentes a las actividades tradicionales, lo que puede influir en el ritmo de avance dentro de las fases del SIFT, una comparación más precisa requeriría condiciones equivalentes en términos de tiempo y estructura de aplicación.

La relevancia fue la dimensión más baja, y dentro de ella la pregunta sobre identificación de detalles sospechosos obtuvo el puntaje más bajo de toda la encuesta, y puede atribuirse a múltiples factores, primero, la sesión corta probablemente no fue suficiente para recorrer las fases del SIFT y son las dos últimas donde realmente se identifican esos detalles, segundo, existe una diferencia entre disfrutar la experiencia y sentir que se aprendió algo nuevo, algo común en herramientas educativas, tercero, algunos estudiantes esperaban respuestas directas y al recibir preguntas en su lugar, sintieron que no ayudaba, el método socrático incomoda al principio porque cuestiona en lugar de responder, un desafío pedagógico real.

Deben reconocerse varias limitaciones, la evaluación se basó en una sola sesión corta, midiendo solo una primera impresión, no sabemos cómo cambiaría la percepción tras meses de uso, tampoco se midió aprendizaje real, solo percepción, una cosa es que los estudiantes digan que el chatbot les ayudó y otra muy distinta que puedan aplicar la estrategia SIFT por sí mismos sin la herramienta, la muestra de 91 estudiantes es por conveniencia y no representa a toda la población universitaria ecuatoriana, por lo que los resultados pueden generalizarse sin cuidado, finalmente se usó LLaMA 3.2 Instruct de 3B parámetros por eficiencia y privacidad, pero modelos más grandes como LLaMA 3 de 7B, 13B o GPT-4 mini, podrían generar preguntas más profundas y coherentes, a costa de mayores requerimientos o pérdida de privacidad por APIs externas.

Un ICC de 3.74 indica que los estudiantes se sitúan entre neutral y de acuerdo respecto al funcionamiento del chatbot, no es una puntuación sobresaliente, pero demuestra que la herramienta es funcional, aceptablemente coherencia con 3.71 y el sentido lógico con 3.83, la relevancia de 3.67 es el punto más débil, aunque podría mejorar con sesiones más largas, este chatbot no es revolucionario, pero constituye una herramienta viable para contextos educativos con recursos limitados, sin pretender reemplazar al docente.

Conclusiones

Los resultados de esta investigación permiten concluir que el chatbot socrático basado en un modelo híbrido con LLaMA 3.2 Instruct y la estrategia SIFT logra un desempeño funcionalmente aceptable para guiar el pensamiento crítico en estudiantes universitarios. En un índice de calidad del chatbot de 3.74 sobre 5, la dimensión mejor evaluada fue el sentido lógico, lo que confirma que el estilo socrático de preguntas abiertas fue percibido como efectivo para fomentar la reflexión propia, mientras que la coherencia y la relevancia obtuvieron las puntuaciones más bajas, lo que sugiere que la duración limitada de las sesiones restringió el avance hacia las fases más avanzadas del método SIFT, afectando la profundidad del análisis.

Se concluye también que el enfoque híbrido de reglas + LLM implementado en este estudio representa un avance práctico en el diseño de sistemas conversacionales para entornos educativos con recursos computacionales limitados, al demostrar que es posible ejecutar localmente un modelo de 3B parámetros sin depender de servicios externos, preservando la privacidad de los datos del usuario, esta contribución es relevante para contextos latinoamericanos donde las universidades enfrentan restricciones tecnológicas y económicas. Como trabajos futuros, se recomienda realizar evaluaciones longitudinales que midan el aprendizaje real de la estrategia SIFT tras varias semanas de uso, así como probar el chatbot con modelos de mayor tamaño para comparar la calidad de las preguntas socráticas generadas.

Referencias

Albesher, L., & Alfayez, R. (2024). An Observational Study on Flask Web Framework Questions on Stack Overflow (SO). IET Software, 2024(1), 1905538. https://doi.org/10.1049/sfw2/1905538

Anand, Y., Nussbaum, Z., Treat, A., Miller, A., Guo, R., Schmidt, B., Community, G., Duderstadt, B., & Mulyar, A. (2023). GPT4All: An Ecosystem of Open Source Compressed Language Models (arXiv:2311.04931). arXiv. https://doi.org/10.48550/arXiv.2311.04931

Astudillo Muñoz, J. (2024). Desinformación: Aproximación conceptual, riesgos y remedios. Derecho PUCP, (93), 55-97. https://doi.org/10.18800/derechopucp.202402.002

Balakrishnan, V., Ng, W. Z., Soo, M. C., Han, G. J., & Lee, C. J. (2022). Infodemic and fake news – A comprehensive overview of its global magnitude during the COVID-19 pandemic in 2021: A scoping review. International Journal of Disaster Risk Reduction, 78, 103144. https://doi.org/10.1016/j.ijdrr.2022.103144

Bruneti Severino, J. V., Basei De Paula, P. A., Berger, M. N., Loures, F. S., Todeschini, S. A., Roeder, E. A., Veiga, M. H., Guedes, M., & Marques, G. L. (2025). Benchmarking open-source large language models on Portuguese Revalida multiple-choice questions. BMJ Health & Care Informatics, 32(1), e101195. https://doi.org/10.1136/bmjhci-2024-101195

Carina Volotão & Marielle Barros de Moraes. (2023). ¿Preparados o vulnerables? Conocimiento sobre fake news en docentes universitarios. Informatio, 28(2). https://doi.org/10.35643/Info.28.2.14

Castro-Paredes, A. P., & Tomailla-Sandoval, J. G. (2024). Las fake news sobre la COVID-19 en Latinoamérica 2020-2022. Una revisión sistemática. INNOVA Research Journal, 9(1), 147-167. https://doi.org/10.33890/innova.v9.n1.2024.2431

Córdova Medina, H. M., Macías Rodríguez, L. E., Cabrera-Almeida, S., & Del Campo Saltos, G. (2025). Impact of digital media on misinformation and social health during the Metástasis case in Ecuador. Salud, Ciencia y Tecnología, 5, 1595. https://doi.org/10.56294/saludcyt20251595

De La Peña, R. (2022). Noticias falsas en tiempos de la posverdad. Revista Mexicana de Opinión Pública, (33), 88-103. https://doi.org/10.22201/fcpys.24484911e.2022.33.82237

Echeverría, M., & Rodríguez Cano, C. A. (2023). ¿La alfabetización digital activa la incredulidad en noticias falsas? Eficacia de las actitudes y estrategias contra la desinformación en México. Revista de Comunicación. https://doi.org/10.26441/RC22.2-2023-3246

Garzón-Quiroz, M., Del Campo-Saltos, G., & Loor-Ávila, B. (2025). Análisis sistemático sobre la eficiencia comunicativa entre chatbots basados en reglas y modelos de lenguaje natural. Universitas, (42), 167-192. https://doi.org/10.17163/uni.n42.2025.07

Grattafiori, A., Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Vaughan, A., Yang, A., Fan, A., Goyal, A., Hartshorn, A., Yang, A., Mitra, A., Sravankumar, A., Korenev, A., Hinsvark, A., … Ma, Z. (2024). The Llama 3 Herd of Models (arXiv:2407.21783). arXiv. https://doi.org/10.48550/arXiv.2407.21783

Hendrigan, H., Tan, S., & Cukierman, D. (2024). Combining SIFT and the Information Needs, Types, and Qualities Approaches: A Framework-Informed Strategy for Information Literacy Instruction. The Canadian Journal for the Scholarship of Teaching and Learning, 15(2). https://doi.org/10.5206/cjsotlrcacea.2024.2.15558

Jiménez-García, E., Ruiz-Lázaro, J., Martínez-Requejo, S., & Redondo-Duarte, S. (2025). Inteligencia Artificial y chatbots para una educación superior sostenible: Una revisión sistemática. RIED-Revista Iberoamericana de Educación a Distancia, 28(2). https://doi.org/10.5944/ried.28.2.43240

Khair, R. (2024). Application of Rapid Application Development (RAD) in the E-Career System: A Startup Approach. The Indonesian Journal of Computer Science, 13(6). https://doi.org/10.33022/ijcs.v13i6.4450

Li, X., & Bao, Z. (2024). The Application of AJAX and JSON in the Case. World Journal of Innovation and Modern Technology, 7(5), 113-119. https://doi.org/10.53469/wjimt.2024.07(05).13

Norman-Acevedo, E. (2023). La inteligencia artificial en la educación: Una herramienta valiosa para los tutores virtuales universitarios y profesores universitarios. Panorama, 17(32), 1-11. https://doi.org/10.15765/pnrm.v17i32.3681

Pegalajar Palomino, M. D. C., & Rodríguez Torres, Á. F. (2023). Digital literacy in university students of education degrees in Ecuador. Frontiers in Education, 8, 1299059. https://doi.org/10.3389/feduc.2023.1299059

Rodríguez Almazán, Y., Parra-González, E. F., Zurita-Aguilar, K. A., Mejía Miranda, J., & Bonilla Carranza, D. (2023). ChatGPT: La inteligencia artificial como herramienta de apoyo al desarrollo de las competencias STEM en los procesos de aprendizaje de los estudiantes. ReCIBE, Revista electrónica de Computación, Informática, Biomédica y Electrónica, 12(1), C5-12. https://doi.org/10.32870/recibe.v12i1.291

Rodríguez Rodríguez, A., Domínguez Gálvez, D. L., & Solórzano Álava, W. L. (2024). Comparación del Método Socrático y el Constructivismo en la Educación Moderna. Revista Científica de Innovación Educativa y Sociedad Actual «ALCON», 4(4), 105-117. https://doi.org/10.62305/alcon.v4i4.212

Sanmocte, E. M. T., & Costales, J. A. (2025). Exploring Effectiveness in Software Development: A Comparative Review of System Analysis and Design Methodologies. International Journal of Computer Theory and Engineering, 17(1), 36-43. https://doi.org/10.7763/IJCTE.2025.V17.1367

Singgalen, Y. A. (2024). Implementation of Rapid Application Development (RAD) for Community-based Ecotourism Monitoring System. Journal of Information System Research (JOSH), 5(2), 520-530. https://doi.org/10.47065/josh.v5i2.4749

Velásquez-Henao, J. D., Franco-Cardona, C. J., & Cadavid-Higuita, L. (2023). Prompt Engineering: A methodology for optimizing interactions with AI-Language Models in the field of engineering. DYNA, 90(230), 9-17. https://doi.org/10.15446/dyna.v90n230.111700

Velazquez-Solis, P. E., Flores-Rios, B. L., Astorga-Vargas, M. A., Ibarra Esquer, J. E., González Navarro, F. F., & Pino, F. J. (2017). Evidencia Empírica de la Minería de Procesos en la Implantación de CMMI-DEV - Empiric Evidence of Process Mining in CMMI-DEV Implementation. ReCIBE, Revista electrónica de Computación, Informática, Biomédica y Electrónica, 5(3), V. https://doi.org/10.32870/recibe.v5i3.69

Vidal-Silva, C. L., Sánchez-Ortiz, A., Serrano, J., & Rubio, J. M. (2021). Experiencia académica en desarrollo rápido de sistemas de información web con Python y Django. Formación universitaria, 14(5), 85-94. https://doi.org/10.4067/S0718-50062021000500085

Volotão, C., & Moraes, M. B. D. (2022). A PROMOÇÃO DA COMPETÊNCIA EM INFORMAÇÃO PARA A PREVENÇÃO E CONTROLE DA DESINFORMAÇÃO NA UNIVERSIDADE: O PAPEL DAS BIBLIOTECAS UNIVERSITÁRIAS. Revista EDICIC, 2(3). https://doi.org/10.62758/re.v2i3.152