Para videos con texto que ajusten caras lo que mejor me ha funcionado es combinar una de lip-sync con una de generación. Heygen y D-ID van muy bien para el tema de caras y labios sincronizados, y si quieres algo más libre puedes tirar de Pika o Runway. ¿Para qué tipo de video lo necesitas, faceless o con tu propia cara? Según eso cambia bastante la recomendación.