Informe comparativo multi-modelo: Claude, GPT y Gemini 3.1 Pro
Framework de análisis: Teoría de la Relatividad Semántica (TRS)
Documento: HSBC Principles for the Ethical Use of Data and AI (julio 2024)
Nota preliminar sobre el análisis de riesgo interpretativo
Este informe analiza un documento público de HSBC Holdings plc utilizando un framework de análisis semántico aplicado a tres arquitecturas de modelos de lenguaje de forma independiente. El análisis se basa exclusivamente en materiales públicos y no implica acceso a sistemas internos, documentos confidenciales ni información privilegiada de la institución. Su naturaleza es técnica e interpretativa.
Identificadores de modelo: Claude (run independiente), GPT (run independiente; identificador de versión tal como fue proporcionado por la plataforma), Gemini 3.1 Pro (run independiente). Los tres modelos ejecutaron el mismo benchmark modular sobre el mismo texto fuente, sin hipótesis TRS como contexto interpretativo y sin acceso a los outputs de los otros modelos.
Scorecard de entrada
| Criterio de evaluación | Claude | GPT | Gemini 3.1 Pro |
|---|---|---|---|
| Completitud de mapeo textual | PASS | PASS | FAIL (truncado declarado en P4; 72% sin correspondencia verificable) |
| Disciplina de cita | PASS | PASS | MINOR (cumple en secciones, inconsistente en formato y afectada por truncado en P4) |
| Integridad de modalidad normativa | PASS | PASS | MINOR (tendencia a normalización léxica que puede desplazar fuerza modal) |
| Trazabilidad terminológica | MINOR (sustituciones en P1: «data»→»information», «privacy»→»confidentiality», «data subject»→»information subject») | PASS (MINOR en reestructuración de voz) | FAIL (sustituciones de términos de arte: «shareholders»→»investors», «governance»→»regulation», «explainable»→»comprehensible») |
| Identificación de condiciones y excepciones | PASS | PASS | MINOR (retención inconsistente entre secciones: presente en S1 y Z2, omitida en síntesis abstractiva de S3) |
| Tratamiento de ausencia de enforcement | PASS | PASS | MINOR (escalación confundida con enforcement en E3) |
Método
Tres modelos ejecutaron el mismo benchmark modular sobre el mismo texto fuente, sin hipótesis TRS como contexto interpretativo y sin acceso a los outputs de los otros modelos. Se evaluaron seis criterios: completitud de mapeo, disciplina de cita, integridad de modalidad normativa, trazabilidad terminológica, identificación de condiciones y excepciones, y tratamiento de la ausencia de enforcement. Las divergencias entre modelos se reportan como diferencias de mecanismo, no como juicios de calidad sobre el modelo.
Nivel 1. Marco de referencia: el diagnóstico TRS como sistema de coordenadas
El análisis TRS aplicado al documento HSBC identificó cinco vectores de riesgo antes de ejecutar ningún benchmark. Estos vectores actúan como sistema de coordenadas contra el que se mide el comportamiento de cada modelo.
El primer vector es la homogeneización semántica: la tendencia de los modelos a fusionar el lenguaje específico del documento con el lenguaje genérico de AI ethics, borrando matices operativos. El documento HSBC es especialmente vulnerable por su baja especificidad institucional.
El segundo vector es el vacío de titular operativo: el documento usa exclusivamente la primera persona plural corporativa sin atribuir responsabilidad a ningún cargo, función ni órgano específico. No puede reconstruirse un titular operativo específico (cargo, órgano o función) más allá del sujeto colectivo «We».
El tercer vector es la inflación de autoridad: el documento mezcla lenguaje aspiracional («seek to», «aim to») con lenguaje operativo («establish», «ensure», «must»). Bajo síntesis AI, el lenguaje aspiracional tiende a ser elevado al nivel del operativo, produciendo garantías que el texto nunca otorgó.
El cuarto vector es la deriva de alcance: ciertos principios, especialmente el Principio 6 sobre terceros, pueden ser interpretados por síntesis AI como garantías de cadena de suministro cuando el texto únicamente establece que HSBC aplica sus propios principios a su uso de productos de terceros.
El quinto vector es la ausencia de mecanismos de contestación y remedio: el documento no provee, en el propio texto, ningún mecanismo explícito de contestación, reclamación, apelación u override asociado a estos principios. Bajo síntesis AI, esta ausencia puede ser interpretada como incontestabilidad.
Estos cinco vectores constituyeron las hipótesis de trabajo antes de ejecutar los benchmarks. El propósito del análisis multi-modelo es determinar cuáles se confirman, con qué intensidad, y qué dimensiones adicionales emergen.
Nivel 2. Matriz de confirmación por modelo
Vector 1: Homogeneización semántica
Claude confirma este vector de forma moderada. En P1, el modelo produce sustituciones léxicas menores («data»→»information», «privacy»→»confidentiality», «data subject»→»information subject») que no alteran el significado de forma crítica pero indican tendencia a reencuadre terminológico. En S3, Claude muestra que su propia síntesis abstractiva tiende a omitir excepciones explícitas, incluyendo la excepción de interés público, y a describir formulaciones más prescriptivas en términos más generales.
GPT confirma el vector con un mecanismo diferente. La estrategia de conversión de primera persona autodeclarativa a tercera persona en P3 («We hold ourselves accountable» pasa a ser descrito como comportamiento externo) preserva el contenido declarativo pero reduce la fuerza performativa del compromiso. El riesgo no es de pérdida de contenido sino de distanciamiento del acto de compromiso. Las diferencias identificadas en S3 son de nivel estructural, no modal, lo que indica mayor conservación de modalidad normativa pero desplazamiento del riesgo hacia la performatividad.
Gemini 3.1 Pro confirma el vector con la mayor intensidad de los tres. Produce sustituciones léxicas sistemáticas que no son homogeneización estilística sino alteración del estándar de interpretación de términos con contenido técnico y legal específico: «shareholders» por «investors», «governance» por «regulation», «explainable» por «comprehensible», «accountability» por «responsibility», «audit» por «inspection». La sustitución «shareholders» por «investors» es la de mayor gravedad: en contexto financiero regulatorio, ambos términos no son sinónimos y sus titulares tienen derechos distintos.
Conclusión comparativa: No se observan contradicciones directas a este vector; se observan diferencias de intensidad y mecanismo por modelo. Claude produce reencuadre terminológico menor y pérdida de excepciones en síntesis. GPT produce distanciamiento de compromisos. Gemini 3.1 Pro produce sustitución de términos de arte con consecuencias interpretativas de mayor alcance.
Vector 2: Vacío de titular operativo
Claude confirma el vector. Los módulos E1 y E2 retornan «DOES NOT APPLY», confirmando ausencia de enforcement; E4 confirma ausencia de gradación. El benchmark deja además sin resolver la titularidad operativa de la obligación más allá del «We»: el sujeto colectivo existe, pero no puede reconstruirse el cargo, órgano o función responsable.
GPT confirma el vector con mayor precisión conceptual. La formulación «self-referential We» captura que la autoridad es circular: HSBC se obliga a sí mismo mediante una declaración que solo HSBC puede verificar. El template de enforcement queda completamente vacío en todos sus campos: Trigger, Authority, Consequence, Severity, Timing, Remediation.
Gemini 3.1 Pro confirma el vector y lo amplía. El módulo C4 identifica una ambigüedad no señalada por ningún benchmark anterior: incluso el destinatario interno de la escalación es indeterminado. «We escalate and address concerns to appropriate accountable executives» no especifica quién es un «appropriate accountable executive» para decisiones sobre AI. El vacío no es solo de consecuencia externa; es también de destinatario interno.
Conclusión comparativa: Es el hallazgo más consistente entre los tres modelos. GPT aporta la formulación más precisa del mecanismo; Gemini 3.1 Pro aporta la extensión más relevante al diagnóstico.
Vector 3: Inflación de autoridad
Claude documenta este vector de forma explícita en Z4, identificando cinco afirmaciones que el texto no hace. Las más relevantes son la imposibilidad de inferir que HSBC garantiza privacidad o ausencia de sesgo desde el lenguaje de «seek to», y la imposibilidad de inferir accountability ejecutable desde «We hold ourselves accountable» sin mecanismo de reclamación asociado.
GPT confirma el vector. Z4 señala que la prohibición de Principio 1 es condicional y no absoluta, y que «We establish clear accountability» no equivale a accountability ejecutable. La confirmación es estructuralmente correcta.
Gemini 3.1 Pro confirma el vector y lo produce en tiempo real. En E3, el modelo usa «We escalate and address concerns to appropriate accountable executives» como primera cita de cobertura para el escenario de enforcement, confundiendo estructura de escalación con mecanismo de enforcement. El modelo no describe el riesgo de inflación: lo ilustra al ejecutar el benchmark.
Conclusión comparativa: No se observan contradicciones directas. La confirmación más valiosa es la de Gemini 3.1 Pro en E3 porque no describe el riesgo sino que lo produce como comportamiento observable.
Vector 4: Deriva de alcance en Principio 6
Claude documenta este vector con la formulación más directa en Z4: el texto no dice que los proveedores externos de AI deban seguir los principios de HSBC. La distinción entre «HSBC aplica sus principios a su uso de productos de terceros» y «los terceros deben adoptar los principios de HSBC en sus propias operaciones» es operativamente crítica en contextos de due diligence.
GPT confirma el vector reformulándolo como ambigüedad de umbral en C4 Ambigüedad 3: «where appropriate» en el vetting de terceros puede ser interpretado como obligación por defecto o como discrecionalidad interna. Mismo vector de riesgo, metodología de localización distinta.
Gemini 3.1 Pro confirma el vector en C3, donde extrae la regla correspondiente al Principio 6, y lo activa en el escenario E3, que involucra precisamente a un vendor de terceros.
Conclusión comparativa: Es el vector más consistentemente documentado. Los tres modelos lo identifican desde ángulos complementarios: Claude lo nombra, GPT lo localiza en «where appropriate», Gemini lo activa en el escenario de prueba.
Vector 5: Ausencia de mecanismos de contestación y remedio
Claude confirma el vector a través de E3, que retorna «CANNOT BE DETERMINED» para la aplicación de enforcement en el escenario de sesgo sistemático. Hay cobertura principial pero no consecuencia operativa; el benchmark no puede ejecutar su función de enforcement porque el material no existe en el texto.
GPT confirma el vector con idéntica estructura: cobertura principial confirmada, enforcement «DOES NOT APPLY», missing datum formulado en los mismos términos. La consistencia entre estos dos benchmarks sobre este vector es total.
Gemini 3.1 Pro confirma el vector y añade la dimensión del destinatario indefinido. No hay consecuencia cuando se detecta un fallo y tampoco está claro a quién se escala internamente. La ausencia de mecanismos de contestación se combina con la ausencia de destinatario para producir un vacío de accountability estructuralmente completo.
Conclusión comparativa: Es el único vector donde no se observa variación de intensidad ni de mecanismo entre modelos. Los tres producen la misma conclusión desde ángulos distintos.
Nivel 3. Hallazgos emergentes por modelo
Cada modelo identificó dimensiones de riesgo que el análisis TRS no había anticipado. Estos hallazgos son la evidencia más valiosa del análisis multi-modelo porque demuestran que el riesgo interpretativo tiene dimensiones que solo se revelan bajo arquitecturas específicas.
Hallazgos emergentes de Claude
Claude identificó que las pérdidas bajo síntesis son predecibles en su orden de vulnerabilidad. Las condiciones y excepciones son los elementos más vulnerables; las prohibiciones explícitas son los más resistentes. Esta jerarquía de vulnerabilidad permite establecer qué partes de un documento de este tipo son más fiables bajo procesamiento AI y cuáles requieren verificación prioritaria.
Hallazgos emergentes de GPT
GPT identificó la reducción de performatividad como categoría de riesgo independiente de la inflación de autoridad. La conversión sistemática de primera persona autodeclarativa a discurso reportado en tercera persona no eleva ni degrada el contenido declarativo: lo distancia del acto de compromiso. En contextos de due diligence legal o de auditoría, la distinción entre «We establish clear accountability» y «HSBC states that it establishes clear accountability» es operativa porque la primera es un acto de lenguaje y la segunda es una descripción de ese acto.
GPT también localizó el riesgo de discrecionalidad ilimitada en la excepción de interés público con mayor precisión que cualquier otro análisis. Al ser «e.g.» y no una lista exhaustiva, las situaciones en que HSBC puede invocar interés público para no ser transparente no están acotadas por el documento.
Hallazgos emergentes de Gemini 3.1 Pro
Gemini 3.1 Pro generó tres hallazgos nuevos de distinta naturaleza.
El primero es la sustitución de términos de arte técnicos y legales. «Shareholders» tiene derechos fiduciarios específicos en derecho corporativo que «investors» no posee necesariamente. «Governance» designa control interno; «regulation» designa imposición externa. «Explainable» es un término técnico del campo de XAI con una comunidad de práctica específica; «comprehensible» es un término de uso general sin ese contenido. Si estas sustituciones persisten en documentos downstream, el estándar de interpretación de las obligaciones de HSBC puede cambiar sin que nadie lo haya declarado explícitamente.
El segundo es el efecto de campo ciego en P4. Gemini recortó el mapeo a 10 de 35 frases y lo indicó como «truncation», pero no preservó completitud. El efecto práctico es que los principios sobre sesgo, accountability, governance y contribución a mejores prácticas quedaron sin correspondencia verificable. Un documento downstream basado en este output daría por cubiertos los principios 4 a 7 sin que lo estén. El riesgo no es la degradación visible sino la ausencia con apariencia de cobertura.
El tercero es la vaguedad operativa como categoría de riesgo independiente. El análisis TRS había identificado la ausencia de especificidad como problema de voz distintiva. Gemini 3.1 Pro señala que esta ausencia tiene consecuencias operativas concretas: no hay definición de frecuencia de revisión de sistemas AI, no hay umbrales para las inversiones en tecnología, no hay departamentos nombrados como responsables. Un sistema AI que procese preguntas sobre estos temas producirá respuestas aparentemente informativas que son operativamente vacías porque el texto en el que se basan nunca tuvo el contenido que el interlocutor asume.
Nivel 4. Síntesis ejecutiva
Lo que el análisis de riesgo interpretativo demuestra
Tres modelos de lenguaje de arquitecturas distintas, procesando el mismo documento público bajo un framework estandarizado, confirman de forma independiente y convergente los cinco vectores de riesgo identificados por el análisis TRS. No se observan contradicciones directas a ninguno de los cinco vectores; se observan diferencias de intensidad y mecanismo según modelo. Cuatro dimensiones adicionales emergieron que el análisis TRS no había anticipado.
Esta convergencia no es trivial. Significa que el riesgo interpretativo documentado no es un artefacto de un modelo específico ni del diseño de un prompt particular. Es una propiedad del documento bajo análisis que se manifiesta consistentemente a través de arquitecturas diferentes.
Implicación interpretativa para organizaciones que usen este documento
Una organización que trate este documento como garantía operativa puede sobre-inferir: el texto no especifica consecuencias ante incumplimientos, no define umbrales de actuación, no establece frecuencia de revisión, no nombra responsables operativos concretos y no contiene mecanismos de contestación o remedio para terceros afectados. Estos elementos no están implícitos en el documento; simplemente no están. Su ausencia no es detectable sin análisis explícito porque el documento tiene apariencia de completitud normativa.
Por qué el análisis multi-modelo es necesario
Un análisis basado en un solo modelo produciría conclusiones válidas pero incompletas. La sustitución de términos de arte que produce Gemini 3.1 Pro no aparece en Claude ni en GPT. La reducción de performatividad que produce GPT no aparece en los otros dos. El efecto de campo ciego de Gemini 3.1 Pro es invisible si solo se usa un modelo que no trunca.
El riesgo interpretativo de un documento no es una propiedad fija: es la distribución de probabilidades de degradación semántica sobre el espacio de modelos que pueden procesarlo. Un análisis de un solo modelo da un punto en esa distribución; el análisis multi-modelo da la forma de la curva.
Tabla resumen de hallazgos en el análisis de riesgo interpretativo
| Vector de riesgo TRS | Claude | GPT | Gemini 3.1 Pro | Universalidad |
|---|---|---|---|---|
| Homogeneización semántica | Reencuadre terminológico menor; pérdida de excepciones en síntesis | Distanciamiento de compromisos por cambio de voz | Sustitución de términos de arte con impacto interpretativo | Universal, mecanismo diferente por modelo |
| Vacío de titular operativo | Enforcement vacío; sujeto colectivo sin cargo identificable | «Self-referential We»; template vacío en todos los campos | Destinatario interno de escalación indefinido | Universal, Gemini amplía el diagnóstico |
| Inflación de autoridad | 5 afirmaciones no hechas documentadas en Z4 | Condición omisible en Principio 1 | Escalación tratada como enforcement en E3 (producido, no descrito) | Universal, Gemini lo produce en tiempo real |
| Deriva de alcance en P6 | Terceros no obligados (Z4) | Ambigüedad de «where appropriate» (C4) | Activo en escenario E3 con vendor de terceros | Universal, el más consistente |
| Ausencia de contestación y remedio | CANNOT BE DETERMINED en E3 | Enforcement DOES NOT APPLY; E3 confirma cobertura principial sin consecuencia y missing datum | Vacío estructural completo con destinatario indefinido | Universal sin variación |
| Reducción de performatividad | No detectado | Hallazgo emergente: primera persona→discurso reportado | No detectado | Específico de GPT |
| Excepción de interés público ilimitada | Identificado estructuralmente | Localizado en «e.g.» con precisión textual | Retención inconsistente entre secciones | GPT más preciso en localización |
| Sustitución de términos de arte | No detectado | No detectado | Hallazgo emergente: 5 sustituciones críticas documentadas | Específico de Gemini 3.1 Pro |
| Efecto de campo ciego por truncado | No detectado | No detectado | Hallazgo emergente: 72% sin mapeo con apariencia de cobertura | Específico de Gemini 3.1 Pro |
| Vaguedad operativa | No detectado explícitamente | No detectado explícitamente | Hallazgo emergente: frecuencia, umbrales y departamentos ausentes | Específico de Gemini 3.1 Pro |
| Disciplina de taxonomía hard/soft obligations | Reconoce matices modales; tiende a formalizar compromisos | Identifica el único «must» explícito; lista «We ensure» como obligación | Mezcla commitments y obligations; truncado amplifica el efecto | Universal, nivel de precisión varía por modelo |
Análisis de riesgo interpretativo está elaborado con base en materiales públicos únicamente. No implica acceso a sistemas internos, documentos confidenciales ni información privilegiada de HSBC Holdings plc. Este informe es de naturaleza técnica e interpretativa.
Si los sistemas de IA median cómo su información llega a las partes interesadas, reguladores, clientes o sistemas de decisión, la interpretación no es opcional. Un análisis de riesgo interpretativo es una acción responsable.