La IA ya ‘devoró’ casi todos los datos existentes en internet

La industria ya explora como solución a esta problemática hacer uso de datos sintéticos, te explicamos en qué consisten y cuáles son sus riesgos.

La Inteligencia Artificial Generativa (IAG) ya es víctima de su propio éxito y rápida evolución: Se están agotando las grandes cantidades de datos con las que se entrenan los Chatbots de las principales empresas propietarias de esta tecnología, lo que demuestra que la información y los textos conversacionales alojados en internet no son infinitos.
La industria ya explora como solución a esta problemática hacer uso de datos sintéticos, es decir, utilizar los mismos productos generados por la IA para que esta se entrene a sí misma.
De acuerdo con el Supervisor Europeo de Protección de Datos, se trata de “datos artificiales” que se generan a partir de información original u orgánica cuya autoría es humana.
Ante la previsión de que, a más tardar en 2026, el contenido de internet se agotará por completo para alimentar a la IAG, y considerando las diversas demandas por derechos de autor que enfrentan los consorcios creadores de Chatbots, los datos sintéticos o artificiales representan una opción para que el sector siga siendo competitivo y redituable económicamente.
El problema es que los errores, alucinaciones, inexactitudes y sesgos de los datos sintéticos podrían generar en la IA una espiral que acentúe estas limitaciones, afectando la calidad de las actualizaciones de los Chatbots, y las consecuentes ganancias económicas de los consorcios tecnológicos.
Es por eso que ahora también se está hablando del “Horizonte de Sucesos” (Event Horizon) de la Inteligencia Artificial, un término tomado de la astrofísica que, en los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) significa llegar a un punto crítico.
En ese tenor, Sam Altman, director ejecutivo de OpenAI, la firma creadora de ChatGPT, reconoció en una entrevista que la IAG va necesitar nuevas técnicas para ser entrenada, pues es ingenuo pensar que los Chatbots escalarán solo con los “tokens” obtenidos de internet.
En el procesamiento del lenguaje natural (NLP por sus siglas en inglés), el texto que alimenta a los LLM se convierte en tokens, estos son palabras, símbolos o caracteres que constituyen el insumo básico con el que la Inteligencia Artificial Generativa aprende.

Implicaciones éticas
Para contar con nuevas versiones de Chatbots se requieren datos actuales y de calidad, con el fin de que la IAG siga produciendo textos, voces e imágenes que emulan a las creaciones humanas.
En lo inmediato, ante el agotamiento de la información de internet, el uso de datos sintéticos es la alternativa más viable para actualizar y seguir entrenando a la Inteligencia Artificial.
No obstante, la utilización de este tipo de datos también plantea varios dilemas éticos: Por un lado, una parte de los datos sintéticos tiene como origen información que habría sido obtenida, sin permiso, de obras protegidas por el derecho de autor.
Al menos así lo aseguran escritores, periodistas, fotógrafos, ilustradores y dibujantes que han demandado en Estados Unidos a varias empresas de Inteligencia Artificial Generativa.
Si las Cortes les dan la razón a los creadores, la trasgresión a la propiedad intelectual sería continua, porque los datos sintéticos en realidad serían información derivada de infracciones normativas.
Por el otro, debido a que la calidad de los datos artificiales depende de las fuentes con las que se han entrenado los Chatbots, si antes no se realiza un proceso de curaduría y verificación, se corre el riesgo de que la IAG produzca información falsa o errónea de manera generalizada en internet.
Sin respuestas certeras
En este punto aún hay más interrogantes que respuestas: Por ejemplo, ¿los Chatbots incluirán en sus resultados que estos tienen como fuente datos sintéticos y no orgánicos?, ¿producir datos sintéticos a partir de datos también sintéticos realmente es un avance para la Inteligencia Artificial?
Si los datos sintéticos que producirá la IAG provendrán de un entrenamiento hecho con datos que se generaron por los mismos Chatbots, ¿se afectará la integridad de internet, es decir, cambiará, y en qué grado, la coherencia de la web?
Para seguir entrenando a la IAG, ¿las empresas están tomando información de redes sociales? Si la respuesta es afirmativa, ¿las firmas creadoras de Chatbots son capaces de detectar que una parte de ese contenido ya no es orgánico, sino que se trata de publicaciones producidas por la misma IAG?
Considerando que la mayoría de las instrucciones (prompts) que se introducen en un Chatbot tienen una autoría humana, ¿esta tecnología los distingue como datos orgánicos, o en el proceso de entrenamiento de la IAG pasan a formar parte de su acervo de datos sintéticos?
La solución a todas estas dudas se sigue discutiendo no solo al interior de las empresas que utilizan los modelos de transformadores generativos preentrenados (GPT, Generative Pretrained Transformer), sino también en la academia, y en los ámbitos jurídicos y gubernamentales.
El desafío no es menor, ya que -de las respuestas que se obtengan- depende el futuro, económico y tecnológico, de la Inteligencia Artificial.
MÁS NOTICIAS:
- Adiós al INAI: Esto pierde México en transparencia y acceso a la información
- Johnson & Johnson anuncia inversión por 55,000 mdd en Estados Unidos
- Fed registra pérdidas por 77,600 mdd en 2024: hila dos años en déficit
- Dow Jones avanza 1.2% e interrumpe racha de dos semanas de pérdidas
- Musk, ¿en crisis? La cifra de dueños que reemplazan sus Tesla alcanza máximos históricos
