La marcha de China de la imitación a la innovación: el caso de DeepSeek
James A. Dorn dice que mientras los líderes de China mantengan el monopolio del poder del PCCh y repriman la libertad de pensamiento, el Estado obstaculizará las mejoras en la IA, al igual que el surgimiento de una sociedad armoniosa.
Escucha la noticia
Por James A. Dorn1
Cuando la empresa china de inteligencia artificial DeepSeek lanzó su innovador modelo R1 a finales de enero, un modelo de código abierto que funciona muy bien con modelos desarrollados a un costo mucho mayor por empresas tecnológicas líderes, el mundo de la inteligencia artificial se sorprendió.
El inversor de capital riesgo estadounidense Marc Andreessen calificó a R1 como “uno de los avances más asombrosos e impresionantes que he visto en mi vida”. Se basa en el modelo V3 de DeepSeek, lanzado en 2024, que utiliza chips de menor costo y está optimizado para ejecutar modelos predictivos de lenguaje grande (LLM) con capacidades de razonamiento. El 27 de enero, R1 perturbó las acciones tecnológicas, y el valor de mercado del superastro fabricante de chips Nvidia cayó en casi 600 000 millones de dólares ante la expectativa de que la demanda de sus chips de primera categoría caería a la luz de la capacidad de DeepSeek para economizar en chips Nvidia mientras se desempeñan a altos niveles.
El auge de DeepSeek
La aparición de DeepSeek como un actor importante en el sector tecnológico se debe a los esfuerzos del multimillonario chino de 40 años Liang Wenfeng, quien utilizó capital de su fondo de cobertura cuantitativo, High-Flyer, para lanzar DeepSeek en mayo de 2023. Como empresa no estatal/privada, DeepSeek progresó por sí sola contratando a talentos de algunas de las principales universidades de China y pagando salarios altamente competitivos. La empresa se creó como una operación de investigación para avanzar en los modelos de IA y, finalmente, construir modelos que se ajustaran a los procesos de aprendizaje humano (conocidos como Inteligencia Artificial General o IAG).
Los primeros trabajos condujeron a los LLM V1 y V2, pero el verdadero avance que atrajo la atención mundial sobre DeekSeek fue el lanzamiento del V3 en diciembre de 2024 y del R1 un mes después. Los costos de formación para la V3 fueron inferiores a 6 millones de dólares, muy por debajo de los costes de formación de los LLM en las principales empresas de IA. Los modelos de IA consisten en algoritmos y los datos utilizados para entrenarlos. El entrenamiento consiste en “el proceso de alimentar un modelo de IA con conjuntos de datos seleccionados para desarrollar la precisión de su resultado” (Chen 2023).
Las características clave de V3 que la hacen atractiva son su IA de código abierto, su excepcional velocidad y eficiencia de procesamiento, y su capacidad para manejar codificación compleja, matemáticas y creación de texto. Es un modelo versátil que se espera que revolucione la IA. La aplicación de chatbot de DeepSeek, basada en V3, es ahora un líder en el campo, y V3 ha destilado las capacidades de razonamiento de R1, lo que la convierte en un modelo aún más fuerte.
Cuando Estados Unidos impuso controles de exportación en octubre de 2022 para restringir el acceso de China a semiconductores avanzados que pudieran comprometer la seguridad nacional, las empresas chinas de IA estaban decididas a encontrar formas de progresar sin acceso a los chips más avanzados de Nvidia. Liang Wenfeng sorprendió a todos al utilizar chips menos potentes junto con una ingeniería innovadora para producir modelos de IA eficientes que pudieran competir con OpenAI y otros líderes en el campo a un costo mucho menor.
Una de las innovaciones clave fue utilizar un “marco de entrenamiento de precisión mixta” de coma flotante de 8 bits (FP8) para el modelo V3 de DeepSeek. Como informó Dirox, “esta fue la primera vez que este marco se utilizó en un modelo a tan gran escala”. Al hacerlo, DeepSeek economizó en memoria y logró un aumento espectacular en la velocidad de cálculo.
Otras características mencionadas en el informe de Dirox que contribuyen al éxito de V3 como modelo de IA fundamental son:
- La “arquitectura de mezcla de expertos (MoE)”, que utiliza solo la red neuronal (“experta”) necesaria para abordar un tema específico en lugar de atar todas las redes y parámetros en el modelo para cada tarea.
- La predicción multitoken (MTP), que permite a los LLM como V3 acelerar el tiempo que tardan en generar texto.
- La atención latente multicabeza (MLA), que permite a los LLM capturar información clave de un cuerpo de texto varias veces en lugar de solo de una sola frase.
Además, hacer que V3 sea de código abierto significa que su código está disponible para cualquiera de forma gratuita y puede ser perfeccionado para mejorar los modelos de IA, aumentando así el alcance del conocimiento disponible para las personas, a pesar de que la transmisión de información de DeepSeek sobre temas políticos delicados está restringida por el Partido Comunista Chino (PCC).
De seguidor a innovador
Hasta las innovaciones de DeepSeek, se había sostenido durante mucho tiempo que solo los gigantes de la IA (como OpenAI, Google DeepMind y Meta) podían desarrollar y ejecutar modelos de IA de alto rendimiento. La mentalidad popular era que los modelos más grandes con más unidades de procesamiento gráfico (GPU) funcionan mejor que los modelos de menor coste, y que solo las empresas de IA ricas podían entrenar adecuadamente los mejores modelos.
Ese pensamiento resultó ser un mito con el desarrollo de los modelos V3/R1 de DeepSeek. Como señala el científico de datos Sahin Ahmed, “Al demostrar que la ingeniería más inteligente puede superar a la computación de fuerza bruta, Liang Wenfeng ha obligado a las grandes tecnológicas a replantearse su enfoque” (Sobre las innovaciones técnicas introducidas por los modelos de DeepSeek, véase Dirox 2024 y Ahmed 2025).
En una entrevista con el sitio de medios 36 Kr en julio de 2024 (“Hemos dejado de seguir. Es hora de liderar”), Liang reveló su opinión sobre la marcha de China de la imitación a la innovación en el campo de la IA.
Las siguientes citas de la entrevista de Liang son pertinentes:
- “No vamos a optar por el código cerrado. Creemos que es más importante establecer un ecosistema tecnológico sólido”.
- “Más inversión no se traduce necesariamente en más innovación. Si fuera así, las grandes empresas tecnológicas habrían monopolizado toda la innovación”.
- “DeepSeek sigue siendo totalmente ascendente. Tampoco asignamos funciones de antemano; surge una división natural del trabajo. Todos aportan experiencias e ideas únicas, y no es necesario presionarlos. Cuando se encuentran con desafíos, naturalmente involucran a otros en las discusiones. Sin embargo, una vez que una idea muestra potencial, asignamos recursos de arriba hacia abajo”.
- “Si alguien tiene una idea, puede aprovechar nuestros grupos de capacitación en cualquier momento sin necesidad de aprobación. Además, como no tenemos estructuras jerárquicas rígidas ni barreras departamentales, las personas pueden colaborar libremente siempre que haya un interés mutuo”.
- “La reestructuración del panorama industrial de China dependerá cada vez más de la innovación tecnológica profunda”.
- “La innovación radical no hará más que aumentar en el futuro. Ahora no se entiende mucho porque la sociedad en su conjunto necesita aprender de la realidad. Cuando esta sociedad empiece a celebrar el éxito de los innovadores de tecnología profunda, las percepciones colectivas cambiarán. Solo necesitamos más ejemplos del mundo real y tiempo para que ese proceso se desarrolle”.
A veces, Liang suena como F. A. Hayek cuando habla de la importancia de la experimentación “de abajo arriba” en el diseño de modelos de IA y de la “división natural del trabajo que surge”. Del mismo modo, cuando Hayek habla del proceso de mercado competitivo como un “procedimiento de descubrimiento”, encaja bien con la visión de Liang de la innovación.
Sin embargo, Liang está limitado en lo que puede decir sobre el uso del conocimiento en la sociedad y un verdadero orden espontáneo, como el libre mercado, basado en la propiedad privada y el estado de derecho. Los LLM de DeepSeek evitan responder a cualquier pregunta que toque temas políticos delicados, como cualquier crítica a Xi Jinping o al PCCh o lo que realmente sucedió en las protestas de Tiananmen. La falta de un mercado libre de ideas en China está destinada a obstaculizar la innovación, tanto en la calidad de los datos utilizados para entrenar modelos como en la interpretación de los resultados.
El futuro de China: ¿sociedad abierta o cerrada?
Es emocionante ver cómo DeepSeek desarrolla modelos de código abierto que otros pueden utilizar para mejorar sus propios modelos, incluidos los modelos de “razonamiento” como R1. El hecho de que DeepSeek sea una empresa de investigación privada y no estatal dirigida por un multimillonario que se ha hecho a sí mismo y que favorece la difusión del conocimiento es un buen augurio para el futuro de China.
Sin embargo, el proceso de descubrimiento e innovación científicos no puede por sí mismo convertir a China en una sociedad abierta en la que las personas sean libres de elegir y expresar sus ideas sin la amenaza de represalias políticas. Mientras los líderes de China mantengan el monopolio del poder del PCCh y repriman la libertad de pensamiento, el Estado obstaculizará las mejoras en la IA, al igual que el surgimiento de una sociedad armoniosa.
1es Vice-presidente para Estudios Monetarios y Académico Distinguido del Cato Institute.
*Artículo publicado en elcato.org el 28 de febrero de 2025