Utilizamos paralelismo de tuberías para dividir el modelo completo de 671GB entre dos dispositivos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
10 me gusta
Recompensa
10
5
Republicar
Compartir
Comentar
0/400
SquidTeacher
· hace21h
¿671g está haciendo una bomba nuclear?
Ver originalesResponder0
LiquidityWizard
· 09-19 02:22
teóricamente paralelización subóptima, la verdad... pérdida de eficiencia ~31.4% según mis cálculos
Ver originalesResponder0
HashBard
· 09-19 02:20
wen mac studio beats nvidia fr...
Responder0
BlockchainRetirementHome
· 09-19 02:14
Dos M2 se atreven a entrenar grandes modelos.
Ver originalesResponder0
MiningDisasterSurvivor
· 09-19 02:13
No hay problema en hacer pruebas con el modelo, ya he pasado por desastres mineros, así que no tengo miedo de nada.
Ajusta DeepSeek 🐳 con dos Mac Studios + MLX 🚀
Utilizamos paralelismo de tuberías para dividir el modelo completo de 671GB entre dos dispositivos.