两天前,我分享了我在厦门参加TAC LSC 2024的见闻,重点探讨了生成式人工智能在本地化中的作用以及文化敏感性的必要性。今天,我想进一步探讨会议中的另一个重要主题:多模态本地化的崛起。
短视频平台如抖音和TikTok的兴起已经彻底改变了世界各地人们的内容消费方式。随着视频成为主要的沟通方式,各大企业正竞相向国际受众提供多媒体内容。然而,视频和音频的本地化呈现出不同于传统文本翻译的独特挑战。
在TAC LSC 2024大会上,包括“未来多媒体本地化”在内的多个专题都深入探讨了这一议题。很明显,多模态本地化不仅仅是翻译字幕,还涉及:
一个令人印象深刻的案例研究揭示了这些挑战。一部为西方观众本地化的中国电视剧在调整视觉和文化元素时遇到困难。尽管AI驱动的转录和字幕生成无缝完成,但配音的情感细腻度未能打动西方观众,直到人类编辑介入优化。
生成式人工智能的进步显著提升了视频和音频本地化的可扩展性。基于大型语言模型(LLM)的工具如今可以自动完成:
例如,在TAC LSC 2024会议上,一家中国科技公司展示了通过AI配音将一部10集电视剧的本地化时间缩短近 50%。然而,正如多位发言者指出的那样,这些工具在处理文化语境或传递真情实感时仍然存在不足。
尽管人工智能效率高,但在多模态本地化中,尤其是高风险项目中,人类专家的作用仍不可替代。
● 语音配音中的文化细微差异
在一个专题讨论中,专家提到,将中文成语直译成英文常导致生硬的配音效果。例如,“借花献佛”(指用别人的资源送礼)被机械地翻译为“borrowing flowers for Buddha”(给佛祖献上借来的花),完全丧失了其隐喻意义。
配音演员和人工编辑能将这些表达调整为文化适配的等效语,从而保留内容的情感冲击力。
● 配音中的情感共鸣
尽管合成声音技术已十分先进,但在处理特定类型(如戏剧或纪录片)时,仍然缺乏传递深层情感的能力。演讲者分享了一个例子:在一部关于中国农村传统的纪录片中,合成配音未能传达出对该主题应有的敬意。最终由人工介入调整语气,确保符合观众的期望。
正如在文本翻译中一样,混合工作流在多模态本地化中也证明是成功的关键。这种工作流结合了 AI 的速度与可扩展性以及人类专家的创造力与文化意识。
混合多媒体本地化的运作方式
一个来自TAC LSC 2024的亮点案例是,一家中国游戏公司为欧洲市场本地化一款互动奇幻游戏。AI生成了字幕并为超过30,000条游戏对话提供了自动配音。随后,人类编辑根据文化需求调整内容,将特定的中国民俗替换为欧洲神话。这种混合方法将项目成本降低了 40%,同时交付了一款贴近目标市场文化的本地化游戏。
随着视频和音频内容持续主导全球交流,多模态本地化已不再是可选项,而成为了必选项。挑战在于如何在AI的效率与只有人类才能提供的情感和文化深度之间找到平衡。