Unleash the full potential of your business in the digital world


¿Cómo sabemos si un texto fue generado por IA?

Enfoques estadísticos para detectar textos generados por IA.

James Huang | 2023.05.25

En el fascinante y rápidamente avanzado mundo de la inteligencia artificial, uno de los avances más emocionantes ha sido el desarrollo de la generación de textos por inteligencia artificial. Modelos de inteligencia artificial, como GPT-3Lo siento, pero no has proporcionado ningún texto para traducción. Por favor, proporcione el texto que desea que se traduzca. FlorLo siento, pero no has proporcionado ningún texto para traducción. Por favor, proporcione el texto que desea que se traduzca. BERTLo siento, pero no has proporcionado ningún texto para traducción. Por favor, proporcione el texto que desea que se traduzca. AlexaTMLos grandes modelos de lenguaje, como, y otros, pueden producir textos sorprendentemente similares a los escritos por humanos. Esto es emocionante y preocupante al mismo tiempo. Estos avances tecnológicos nos permiten ser creativos de maneras que antes no podíamos, pero también abren la puerta a la decepción. Y cuanto más avanzados sean estos modelos, más difícil será distinguir entre el texto escrito por un humano y el generado por inteligencia artificial.

Desde el lanzamiento de ChatGPTEn todo el mundo, las personas han estado poniendo a prueba los límites de modelos de IA similares y utilizándolos para adquirir conocimientos. Sin embargo, algunos estudiantes incluso los han utilizado para resolver deberes y exámenes, lo cual desafía las implicaciones éticas de dicha tecnología. Especialmente, dado que estos modelos se han vuelto lo suficientemente sofisticados como para imitar los estilos de escritura humanos y mantener el contexto a lo largo de múltiples pasajes, aún necesitan ser corregidos, incluso si sus errores son menores.

Eso plantea una pregunta importante, una pregunta que suelo escuchar con bastante frecuencia:

¿Cómo podemos saber si un texto está escrito por un humano o generado por AI?

Esta pregunta no es nueva en el mundo de la investigación, detectar textos generados por AI se llama "detección de texto deep fake". Hoy en día, existen diferentes herramientas que puedes utilizar para detectar si un texto fue escrito por un ser humano o si fue generado por AI, como GPT-2 de OpenAI. ¿Pero cómo funcionan tales herramientas?

En la actualidad se utilizan diferentes enfoques para detectar el texto generado por IA. Se están investigando y aplicando nuevas técnicas para detectar este tipo de texto a medida que los modelos utilizados para generarlo se vuelven más avanzados.

Este artículo explorará 4 enfoques estadísticos diferentes que pueden ser utilizados para detectar texto generado por IA.

Vamos directo al grano...

Análisis de n-gramas.

Análisis N-gram.

Un N-grama es una secuencia de N palabras o tokens de una muestra de texto dada. El "N" en N-grama es cuántas palabras hay en el N-grama. Por ejemplo:

  1. Nueva York (2-gramos).
  2. Los Tres Mosqueteros (trigrama).
  3. El grupo se reunía regularmente (4-gramos).

Analizar la frecuencia de diferentes N-gramos en un texto hace posible determinar patrones. Por ejemplo, entre los tres ejemplos de N-gramos que revisamos, el primero es el más común y el tercero es el menos común. Al rastrear los diferentes N-gramos, podemos decidir que son más o menos comunes en el texto generado por IA que en el texto escrito por humanos. Por ejemplo, una IA podría utilizar frases específicas o combinaciones de palabras con más frecuencia que un escritor humano. Podemos encontrar la relación entre la frecuencia de N-gramos utilizados por la IA y los humanos entrenando nuestro modelo en datos generados por humanos y por IA.

Perplejidad

Perplejidad

Si buscas en el diccionario inglés la palabra "perplexed", encontrarás que se define como sorprendido o impactado. Pero, en el contexto de la inteligencia artificial y el procesamiento del lenguaje natural, la perplejidad mide qué tan confiadamente un modelo de lenguaje predice un texto. Estimar la perplejidad de un modelo se hace cuantificando cuánto tiempo necesita el modelo para responder a un nuevo texto. En otras palabras, qué tan "sorprendido" está el modelo por el nuevo texto. Por ejemplo, un texto generado por IA podría disminuir la perplejidad de un modelo; mejorando la predicción del texto del modelo. La perplejidad es rápida de calcular, lo que le da una ventaja sobre otros enfoques.

Explosividad.

Explosividad.

En PNL, Slava Katz define la explosividad como el fenómeno en el cual ciertas palabras aparecen en "ráfagas" dentro de un documento o un conjunto de documentos. La idea es que cuando una palabra se utiliza una vez en un documento, es probable que se utilice de nuevo en el mismo documento. Los textos generados por IA exhiben patrones diferentes de explosividad que los escritos por un humano. Como no tienen los procesos cognitivos necesarios para elegir otros sinónimos, tienden a repetir la misma palabra varias veces.

Estilometría

Estilometría

La estilometría es el estudio del estilo lingüístico y se puede utilizar para identificar autores o, en este caso, la fuente de un texto (humano vs. IA). Todo el mundo utiliza el lenguaje de manera diferente. Algunos prefieren frases cortas y otros prefieren frases largas y conectadas. Las personas usan punto y coma y guiones largos (y otros signos de puntuación diferentes) de manera distinta de una persona a otra. Además, algunas personas usan más la voz pasiva que la activa o usan un vocabulario más complejo. Un texto generado por IA puede exhibir diferentes características estilísticas, incluso escribiendo sobre el mismo tema más de una vez. Dado que una IA no tiene un estilo, estos estilos diferentes se pueden utilizar para detectar si una IA escribe un texto.

Pensamientos Finales.

A medida que avanzamos en la IA, necesitaremos herramientas más avanzadas y complejas para detectar el texto generado por AI y evitar la desinformación y el engaño. Aunque esta es un área muy activa de investigación en la actualidad, los investigadores han desarrollado herramientas para detectar texto escrito por AI. Un ejemplo de este trabajo lo hizo Edward Tian de la Universidad de Princeton. Tian desarrolló una herramienta experimental llamada... GPTZero (no es necesario traducirlo ya que es un acrónimo / nombre propio). que usa "perplejidad" y "explosividad" para estimar la probabilidad de que un contenido generado por IA sea genuino. Otro ejemplo es Noah Smith, profesor e investigador de NLP en la Universidad de Washington, cuya investigación se centra en la calidad única de la intencionalidad del texto escrito por humanos. La IA suele generar texto que necesita ser más intencional y coherente, lo que puede cambiar a medida que estos modelos de lenguaje mejoren. Ninguno de los enfoques explorados en este artículo es infalible; a menudo se utiliza una combinación de diferentes técnicas y un extenso conjunto de entrenamiento para construir clasificadores de texto generados por AI en la vida real.


¿Cómo sabemos si un texto fue generado por IA?
MERCURY TECHNOLOGY SOLUTION, James Huang 25 mayo, 2023
Compartir
Perros que prueban su propia comida desde casa.
Cómo Mercury construyó el reemplazo de nuestro blog de SEO.