DeepSeek a principios de año publicó su último artículo titulado «mHC: Manifold-Constrained Hyper-Connections», en el que también participó el fundador Liang Wenfeng. Se trata de un artículo técnico profundo y accesible sobre la arquitectura subyacente, cuyos puntos destacados se pueden entender así:



En primer lugar, la estabilidad del entrenamiento de los modelos grandes mejora notablemente. El HC (conexiones residuales mejoradas) de versiones anteriores tenía un rendimiento realmente impresionante, pero presentaba un problema — el proceso de entrenamiento era propenso a fallar. mHC resuelve este problema mediante un mecanismo de restricción en la variedad, permitiendo que el modelo mantenga la estabilidad durante el entrenamiento en estructuras más profundas.

En segundo lugar, esto no es simplemente una acumulación de rendimiento, sino un replanteamiento desde la capa de infraestructura básica. Al introducir una nueva topología de hiperconexiones, se mejora tanto la eficiencia computacional como la capacidad de generalización y robustez del modelo.

En pocas palabras, mHC permite que los grandes modelos sean estables, rápidos y precisos. Esto tiene cierta referencia para la dirección de la optimización de modelos en toda la industria.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
BrokenRugsvip
· 01-04 12:43
Una solución integral de estabilidad, precisión y velocidad, DeepSeek realmente ha tocado la barrera esta vez --- ¿Puedes explicar el principio de la restricción de variedades para las personas comunes? --- Otra vez innovación en la arquitectura y también equilibrio en el rendimiento, esta combinación realmente funciona bien --- Por fin alguien ha abordado el problema del colapso en el entrenamiento, ¡me gusta! --- Siento que esta ruta de mejorar la capacidad de generalización es mucho más confiable --- ¿Hay datos concretos sobre la mejora en la capacidad de generalización, o hay que esperar los detalles del artículo? --- Las cosas en las que participó Liang Wenfeng, con solo echar un vistazo, ya tienen ese sabor --- Pensar desde la perspectiva de la arquitectura, eso sí que es un avance tecnológico --- Siento que el techo de la industria se ha elevado un nivel más --- El entrenamiento estable es realmente un gran problema, sería genial si esto se pudiera resolver por completo
Ver originalesResponder0
OneBlockAtATimevip
· 01-04 06:54
Por fin alguien ha aclarado esto, que entrenar sin que se colapse es la verdadera clave DeepSeek realmente ha puesto imaginación en el nivel del algoritmo esta vez, no solo acumulando parámetros El artículo en el que participó Liang Wenfeng es diferente, la estabilidad que llevaba tanto tiempo bloqueada finalmente se ha roto Que sea estable, rápido y preciso, solo esas tres palabras, toda la industria debería reflexionar sobre ello Eso es verdadera innovación, no esas campañas vacías y superficiales
Ver originalesResponder0
DoomCanistervip
· 01-04 06:54
La estabilidad finalmente ha sido tomada en serio, la estrategia anterior realmente no funcionaba Corre de manera estable, rápida y precisa, suena bastante atractivo, pero ¿realmente se puede mantener? La idea de las restricciones en variedades es interesante, parece que se ha encontrado el camino correcto ¿Otra vez involucrado Liang Wenfeng? Este grupo de DeepSeek realmente se esfuerza mucho Por cierto, ¿este tipo de mejoras se pueden aplicar en entrenamientos reales o solo quedan en teoría en los artículos?
Ver originalesResponder0
SerumSurfervip
· 01-04 06:54
¡Vaya, Liang Wenfeng ha vuelto a hacer algo interesante, finalmente han resuelto el problema de estabilidad? --- mHC realmente parece fuerte, tengo que entender bien esa técnica de restricción de variedades --- Otra vez DeepSeek, este ritmo realmente es increíblemente rápido --- Que el entrenamiento no se colapse es la verdadera necesidad urgente, por muy potente que sea el rendimiento no sirve de mucho --- Espera, ¿cómo se implementa exactamente la estructura topológica de hiperconexión? --- Estabilidad, velocidad y precisión, si realmente pueden lograr esa trifecta, definitivamente vale la pena alabarlo --- Otra publicación, la producción de DeepSeek este año ha sido bastante fuerte --- ¿La restricción de variedades, cómo siento que es una tecnología de vanguardia... --- En pocas palabras, ¿el problema sin resolver ahora está solucionado? --- ¿Esto ayuda a los modelos pequeños o solo es una buena noticia para los grandes modelos?
Ver originalesResponder0
FrogInTheWellvip
· 01-04 06:54
梁文锋 esta vez realmente está haciendo cosas, la estabilidad ha sido siempre un punto débil --- Otra innovación en la arquitectura, DeepSeek realmente está poniendo esfuerzo --- ¿Restricción de variedad? Suena profundo, pero el efecto es realmente atractivo --- Que el entrenamiento no colapse es demasiado clave, antes HC realmente era propenso a problemas --- ¿La generalización y la robustez han mejorado? Entonces definitivamente es diferente --- Corre estable, rápido y preciso, una frase que resume perfectamente, ¡genial! --- ¿Se puede tomar esto como referencia para equipos pequeños, o solo las grandes empresas pueden usarlo? --- La topología de hiperconexión parece estar resolviendo problemas fundamentales de manera seria --- Mantener la eficiencia computacional y mejorar el rendimiento, eso sí que es innovación --- DeepSeek va a volver a competir, ¿otros también podrán seguir el ritmo?
Ver originalesResponder0
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)