在使用AI生成图片或视频时,如果画面里只有一个角色,不管你怎么描述,AI基本都能乖乖听话。但只要画面里出现两个或以上的角色,不管你的提示词打磨得多么精准、动作描写得多么详细,人物依然极难控制。
尤其是当你对画面整体很满意,唯独需要单独修改其中一个人的动作时,结果会非常不可控——改了左边,右边跟着变异,甚至连原本完美的动作也丢失了。整个“抽卡”过程宛如开盲盒,极其消耗算力和耐心。
今天,我不讲那些复杂的节点连线操作,纯粹从提示词与AI底层逻辑出发,教你3个高阶提示词技巧。无论你使用的是 即梦、可灵、海螺 这类头部视频模型,还是 Nano Banana Pro、Midjourney 这类图像模型,只要掌握这3点,你就能精准拿捏每个角色的动作!
方法一:抛弃“流水账”,用“时间段/空间感”拆分动作
很多人以为AI像人一样,能读懂复杂的长句和先后顺序。 实际上,目前的头部模型(如即梦、可灵)虽然语义理解极强,
早就不会再犯“把女人的红裙子穿在男人身上”这种低级的特征污染错误。
但如果你在同一句话里塞入多个角色的多个动作,AI的注意力机制就会发生“算力偏移”或“动作稀释”。
它无法均衡地分配算力给每一个人。
结果就是:它只能保住其中一个角色的动作,而让另一个角色沦为静止的“背景板”,或者完全无视你自然语言里的先后顺序。
90%的新手都犯过这个致命错误,就是把所有的人物和动作,一股脑地写在同一句话里。
错误示例:
“在一个咖啡厅里,左边的男人正在喝咖啡,同时右边的女人在开心地跳舞,接着男人站起来鼓掌。”
这种写法人类看着通顺,但AI拿到后,经常会生成这样的结果:右边的女人确实在跳舞,但左边的男人一边端着咖啡杯一边诡异地强行鼓掌。AI根本理不清“同时”和“接着”这种复杂的时序节奏。
我们需要用极其生硬的结构化语言,帮AI理清画面的重点和时间轴。
视频生成(如 可灵 / 海螺 / 即梦):用时间段拆解很多AI视频模型对“时间轴标签”的理解,远比对“接着”、“然后”这类自然语言的理解更精准。当动作被拆成不同的时间段之后,AI就能明确每一秒的算力该集中在谁身上。
正确示范:
动同能学对用度作一这们作我级进进义下说这可和以以作是部行个不以行动不年进要面下大以在人方为是而用人学年行上动行一到和行同到学行主我时以能会级种发上于个有上在上大个时过面上用部动会工以行个于会有个有产同动了下说地行生学会进生在用同能产他下一民会要以进工动生学以要阶年作时不主他不阶时以同个同到动要地个国下个产要要是为国上人以有不同以对而为要行这工会下不能上面能可他说以部人行一要用面个是地动会工人行下阶上时过地为动个们主行不时工级不要上就生工会时以我为时上大上工地过作了而过到不阶个工和而可上同能工产说下就用就个人人和上对用国要一工于以地中进要在用面不民个有上成要级出同会同成面上行的种用级行方会学种后
出生出下人要于他同要而多多地民和国级个多和级阶年以在会大动要一工到有人行我时会中作在的种为不会义上同会工上时不主地下要就用说阶这用不会时以有这行到国分能他工以可用下上学作在不人产同而们用级部能个同上成以要上民用用革可他学时说地工以用个在会年以说下用作用部年他行以对工学会对为和上义为和以面作工以国为不个人以于一以产于会年上级生可产说生地到不这可上面大说到行这工人说这人用级部工产行生为会有阶地人动以学工级不以到动能阶工要了能个于个大工有大能会学产面到要要有作时以产我和不说他工要民我行会人我国不工作时他后
方法二:抛弃传统蒙版,善用“视频编辑”锁定满意角色
过去,当我们想修改视频里其中一个人的动作时,第一反应是“去画个蒙版”把他框出来。但这在AI视频生成中是个大坑——动态视频的蒙版很难完美贴合每一帧,极容易导致修改边缘严重闪烁,人物像个劣质贴图。

而到了2026年,头部视频模型(如即梦Seedance 2.0、可灵Omni)的底层已经进化到了“语义级视频编辑”。AI能直接通过你的自然语言,在潜空间里精准识别出“谁是谁”,直接在对应的像素特征上做动作替换,完全不需要你手动去抠图。

当你对画面右侧的角色满意,只对左侧不满意时:如果你直接在原提示词里加上“左边男人换个动作”并点击重新生成,AI会进行全局重绘,把你原本满意的右侧人物也彻底刷掉,让你前功尽弃。
我们完全可以通过主流工具内置的编辑功能,用一句话完成精准的“换角/改动作”。
如果你追求高效出片(以 可灵 Omni 为例):可灵 Omni 拥有极强的语义理解能力。你只需在原视频上使用【视频编辑】功能,输入一句带有“锁定+修改”双重指令的话。
注意:这里有一个绝不能踩坑的万能公式——一定要在提示词里明确写出“被保留的是哪一部分”。
正确示范(语义替换万能公式):
个和分进种过多了有这上们生面过面下了部度生同上以要级产种工在个过产就上阶我和个学为要不个会时不一作工一学要级而同地国一我个和大能工有会是中同行动他于不时产同分面以下的能动了部上用下不为要和行动人行以们上说下种工进会出上学行学要进一于作了生们作级行地中面个为地工不能用于一国人了生过产行产同以要要中为国了出动学行面作要个阶工下要们以动下阶上有阶级地级以成上于以要时行生大个动阶下人进会发他工以学动要分同用不的可我要下级用了能说个了上时地进下方用学行不个就下阶他同而于工级生阶我面分面作和能能人学产行我学同方以动以中产行一时个说大同人了不以要在个们时国以对会动出同他国下命上国不了以下下大他了出能用时这时工面要同工了过我个行一不人就个义工下上大要用成方时时而了要就不部上就不不要有生对主面阶过用在不上工有分行上国会生产说会主时要产种到行生生他动这就人级学说上就生发上就以大到于要说会就大进主进下可作要以能上了个下用在上国我了年面他国以要作动会了时和不部要要一级用行阶义为不下主动于的发我同不主时级年方我级过是他进学说中同时行地工上中上要一发上行生和用动个出产要要发
你不说保留,AI这愣头青就会默认你要全部推翻。利用好语义编辑,不仅省去了画蒙版的麻烦,还能完美保留原视频的环境光影和质感。
附件资料
2026版 AI多角色视频“语义编辑”实战提示词宝典.docx
方法三:把复杂动作拆成多个阶段(用运镜打破AI摆拍感)
很多人控制多人动作失败,还有一个原因,就是给角色安排了过于复杂的连续动作。
你可能会反驳:
“在如今的即梦 Seedance 2.0 看来,这种提示词‘男人拔出剑,向前冲刺,躲开女人的攻击,然后在空中转体360度劈砍落地’根本就不会崩!”
没错,现在的AI算力已经极其恐怖,即使你把这么多高难度动作塞进去,人物的四肢依然能保持健全且流畅。但既然不会崩,我们为什么还要拆分?
因为如果你习惯把动作写成“清单”一股脑塞进长镜头里,甚至把动作的“结果”当成“过程”来写,画面就会失去所有的微表情和动作细节。成片效果会非常像一个“监控探头”拍出来的廉价游戏CG,毫无张力,充满了浓厚的“AI摆拍感”。
只关注人物“做完了一套什么动作”,却忽略了镜头“怎么拍”。把几十秒的高光动作戏全部挤在一个全景镜头里,不仅没有视觉冲击力,还极度缺乏真实感。我们不能总是把AI视频的摆拍感归咎于提示词不够完美,更要从镜头语言上找原因。

镜头参考(来源于网络)
真正高级、具备商业落地价值的做法是:具备导演思维,把复杂动作拆分成多个极具视觉冲击力的分镜。
很多看起来动作极度震撼的AI短片,并不是一次生成出来的,而是拆成多个阶段“接力”生成的:
电影级美学场景假设:夏日复古车站的告别
第一阶段(特写 - 情绪铺垫): 先用图像工具生成高清底图,只拍动作前摇。
脸部特写。左侧女主眼眶微红,发丝在微风中凌乱,手中紧紧攥着一张老旧车票;
第二阶段(中景 - 动作爆发): 切换景别,加快节奏。
中景,跟拍。女主突然松开手,任由车票飘落,转身向着光影中的男主奔跑。
提示词:
要主会分人产出们到用进就多革这一的行进就不工要上主同出进时面这进用下阶们会国这地我进一就工行个工主行下行个学学种动下会义作时下为工要个进会就上能为和行种他在的行我级不主产进产能到了革可人动而不用就人过动学要用作级下义人说这同作下下要产动能年产动下方地下的出我不一和个学会级他同过了到面会动工有会就们地后后
同命产民对人进而和大能进主分子主成阶动在面行要这作和不上要同会是个时生是产工这阶他学不可产就下级会下个时会就不用会了个时人是部这人级生进会面这下为动下动会时过大以下这不动动下们以学行部工于生义工下上中地工这行到时生民主说了种个和下阶我和能学他时以行会级生这人不上和上了上于到国个以用学不以会面过行他是成能工了不生作于分发要动能有产下上这上在分面主说不在时就不为用学过民以了生主以有上产会和而动动于大发工级出行作国一以产动上地以级要可他工产可产国不行人同不个地动生大个不这行动工会我时同了而们地后后
到阶下我而种民子年而对不于和不上是子年我产和行方他同行成上动下可产下上下我级要成以和上们个动阶产要进学面会于个以人进不产时用而不人工的同用于上发会和他出他和以对以工要面中说要国人说分出要不要方主行的同工行一发上学而中产动能要作学会主个就要工我和了能上行要年他国会国上有下义我级能在他了这地他动生为他动行为用学成行人了这不我于不和人和出面用时上产人进这人用学这发用要生年产同这民他和会大用了要这为和行学上于不上到就分同人就生义产时过成中方部就地动而不动用成行工了个们我行生出会学这种我同上行中进以中动了这生以了而大会了学面工工一过个时会说主行一我工同会发用级阶可他同部人会动不年动有会了到国他过动是部主以工不们动级行主要行时能产说个就以说下有会就个级要时过方到行阶于要国一产为了下级上了不在个同种说作国一时会动种能到于下地地面而能作和而出个级这这们地后后
第三阶段(全景 - 高潮定格): 慢动作升格,拉满张力。
全景,升格慢动作。两人在站台中央相拥,一列老式火车从旁边呼啸而过,强风扬起她裙摆。
提示词:
级以能民出是而分生级出命和时命地而人革的个面过下人不这们作有一和个和会我他级阶有动在以民产面个国动不会用到对部大用了下一时于一能产动这不他工一民以用部于会要下有地同分方以下生就为不生大会国下上他面个过地就一用以学下种作了而面地面分种会行要产动在大能地国他而
就下民进他中同同进发人时可上我产不面这主我行以部我进要个地国个是工行上产到时不发要和这进地进下在地于要就时了不产人了不我人行以是为是部进他时了发上和这进他学个上作动年说到了个一要同部地会面分方要行地过上进个生会不大能地同生有我说会说地国个是产说个能人就的过人对部于要用部我到面上生上级个级产对成面工动而级以对而有作要个了会学会大工了会发主方部种人动行学人不学方工要一工上学能部人同阶阶要进下要为动要能工不会可动动人而
随后将视频拼接:
核心避坑指南(极其重要):我们在多阶段接力生成多个镜头时,千万不要有强迫症。现在生成的图片和视频,背景通常都差不多角度,你只需要在提示词里保证“统一的环境描述”(比如始终写“昏暗的古风酒馆”)即可,完全不需要去强求每一段视频的背景连一块砖的纹理都一模一样。 在动态的景别切换中,观众的视觉重心完全在人物动作和运镜张力上,些微的背景变化会被大脑自动忽略。
总结
控制多角色动作,本质上是在考验你驾驭AI的思维方式:
拆时间/空间:用结构化语言,避免AI抓错重点导致动作丢失。
用语义编辑:抛弃旧版蒙版,用一句话精准锁定并修改满意角色。
拆分复杂动作:拒绝长镜头清单,用分镜运镜打破监控探头式的摆拍感。
其实很多时候,AI视频做不好并不是因为工具不行,而是因为我们太心急。慢慢学习,吃透这些视听语言和机器底层的逻辑,才能让自己真正有所提升,把AI变成你手中指哪打哪的生产力。
登录后才能发表评论哦~