HelloWorld翻译软件Excel表格格式有什么要求

HelloWorld接收的Excel表格最好是结构化、编码明确且字段齐全的电子表单,这意味着推荐使用.xlsx为主格式(兼容.csv但需注意编码与分隔符),表头应包含固定列名如:id、source_language、target_language、source_text、context、notes、translation、status等;单元格使用纯文本、不含公式或合并单元格,变量占位符(如{0}或{name})要统一格式并另设“placeholders”列说明;文本长度、字符编码建议UTF‑8,避免日期/数字自动格式化;多语言代码采用ISO标准,长文本建议换行保留;大文件切分、保持表格一致列顺序并附带字数统计与校验列,上传前做去重与脱敏处理。接下来我会一步步把这些要求讲清楚,告诉你为什么这样做、常见错误和实操模板,甚至给出校验清单和处理技巧,方便你照着做。

HelloWorld翻译软件Excel表格格式有什么要求

先从最简单的结论说起(为什么要这样)

把翻译工作想象成传菜:厨房(翻译引擎/译者)需要清晰的订单(表格)才能准确上菜(翻译结果)。订单要有菜名、份数、备注、口味偏好(上下文、变量、格式)。如果菜名写在收据的不同地方、或者用了公式、又或表格被合并,厨房就会出错或不得不停下来问你,浪费时间。HelloWorld要求的Excel格式,本质上是为了减少这些“中间问答”,提高自动化处理的成功率和翻译质量。

文件格式与编码

推荐的文件类型

  • .xlsx:首选,支持复杂字符、长文本、多个工作表且兼容性最好。
  • .csv:可用,但要小心分隔符(逗号/分号)与编码。若使用CSV,强烈建议使用UTF‑8(带BOM可解决部分Windows Excel读取问题)。

字符编码与常见问题

总之,保证字符不丢失就行:统一使用UTF‑8。Windows Excel默认编码问题会导致中文乱码或特殊符号丢失,CSV文件在保存或导入时务必指定UTF‑8(带BOM更稳妥)。另外,注意换行符(Windows用CRLF,UNIX用LF)和特殊不可见字符(如零宽空格)可能影响对比和统计,需要清理。

表头与字段(这是最关键的一部分)

表头相当于菜单上的固定栏位名,一致的名称能让系统自动识别字段。下面是推荐字段列表与说明:

字段名 是否必需 说明
id 必需 唯一标识,一般数字或短字符串,便于追踪与回溯。
source_language 必需 源语言代码(ISO 639‑1,如en, zh)。
target_language 必需 目标语言代码(ISO 639‑1)。
source_text 必需 需要翻译的原文,纯文本,不要包含公式。
context 建议 上下文说明(界面位置、截图名、用途等),帮助译者理解语境。
placeholders 建议 列出文本中的占位符格式与含义(如 {0}:userName)。
notes 建议 术语、风格要求或禁止翻译的词汇等补充说明。
translation 必需/输出 译文位置(可为空,供译者填写或自动返回)。
status 建议 翻译状态(new, in_progress, translated, reviewed, approved)。
char_count / word_count 建议 长度统计,便于计费与拆分。

单元格内容规则与常见陷阱

避免公式与合并单元格

不要把文本放在含公式的单元格里导出,因为导出可能只采集计算结果或导致格式丢失。合并单元格会让解析器识别错误。

保留换行与空格

长文本中常有自然换行或分段,建议在Excel中使用Alt+Enter插入换行并确保导出时保留换行符。不要把段落合并为单行并用特殊符号分隔,这样会破坏译文自然断句。

数字、日期与前导零

Excel常会自动把某些文本识别为数字或日期(如“2021-01-02”或“00123”),这会丢失原始格式。解决方法:在导出之前把这些单元格设置为文本格式,或在源表加单引号 ‘ 前缀。

占位符与变量处理

占位符必须一致且要在单独一列说明解释。例如:source_text 中出现 “Hello, {userName}!”,placeholders 列应写明 “{userName}: 用户名,不翻译或按规则翻译”。若使用 ICU MessageFormat,请注明并提供例子。

多语言与编码细节

使用标准语言代码(ISO 639‑1 两字母为优先)。当有地区差异时可以使用语言-地区格式(zh-CN, en-GB)。如果一个文件包含多对语言翻译,推荐每一对语言单独工作表或单独文件,避免一行多译目标带来混乱。

长文本、HTML、富文本与标记语言

如果源文包含HTML或Markdown标签,需要在表格中用is_html字段标注为true,并提供一列raw_html或markup说明哪些标签可保留,哪些需转义。对于含有内联样式或复杂结构的文档,建议先转换为XLIFF或某种结构化格式再导入HelloWorld,以保证标签与文本的同步。

媒体与附件字段

图片、音频、截图等不直接放在Excel内,建议放在云存储并在表格中提供可访问的URL或相对路径,列名例如: media_url 或 screenshot_path。并在context列标注需要参考的具体位置。

工作流字段(用于项目管理)

  • assigned_to:译者或团队。
  • priority:紧急程度。
  • due_date:截止日期(注意日期格式统一,如YYYY-MM-DD)。
  • tm_id:翻译单元对应的翻译记忆库条目ID。

示例模板(可复制使用)

id source_language target_language source_text placeholders context notes translation status
1001 en zh Hello, {userName}! Welcome to our app. {userName}:用户名 登录页顶部欢迎信息 Brand tone: friendly new
1002 en zh Your order #12345 has shipped. {orderNumber}:订单编号 邮件通知 保留#号格式 new

导入/导出前的校验清单(Checklist)

  • 表头是否完整且命名一致?(参照推荐字段)
  • 是否全部保存为 UTF‑8?(CSV 特别检查)
  • 有没有合并单元格或公式?
  • 占位符在placeholders列是否逐一说明?
  • 是否有日期/数字被误转格式?
  • 是否对敏感数据做了脱敏?
  • 长文本是否保留换行?
  • 文件体积是否超出上传限制(若有)?是否需要切分?

处理大文件与性能注意

当条目数达到数万时,推荐:

  • 按语言对拆分文件(每个文件只包含一对源/目标语言)。
  • 分批上传(如每批5000条),并记录每批的id范围。
  • 提前做字数统计并把统计结果放入表格,便于计费和进度估计。

常见错误与排查方法

  • 乱码:通常是编码问题,检查是否为UTF‑8,或CSV是否被Excel以本地编码打开导致错误。
  • 占位符丢失或被转义:检查是否用了不一致的占位符格式或被Excel转成公式。
  • 日期/数字被修改:把相关列设置为文本再保存。
  • 导入失败:查看错误日志,通常是表头不匹配或必需字段为空。

工具与Excel技巧(实用小技巧)

  • 批量替换:用Excel的替换功能统一占位符格式(如{{user}} → {user})。
  • TEXT函数:格式化数字和日期,防止导出时丢失格式。
  • CONCAT/CONCATENATE:合并分段文本生成测试用源文本。
  • 数据验证(Data Validation):限制某些列只能选择预设的状态值,减少人为错误。
  • 条件格式:高亮过长文本或包含特殊字符的单元格,便于检查。

关于术语、风格与质量保证

在表格中提供术语表或把术语引用ID添加到每条,可显著提高一致性。使用status列配合人工校对(reviewer列)能让机器翻译和人工审校协同工作。HelloWorld或任何翻译平台在接收数据前都更喜欢“有注释、有上下文、有占位符说明”的表格——这相当于给译者发了张带注释的菜谱。

隐私与安全注意事项

如果表格包含个人信息(姓名、邮箱等),尽量脱敏或在上传前征询相关方同意。使用公司内部云或加密传输,并限定访问权限。同时在notes列注明是否允许将内容用于训练模型。

最后给你一个实操流程(像做菜一样分步骤)

  1. 准备原始文本,按功能或模块分组。
  2. 建立模板表格(使用上面的字段名),把所有原文填到 source_text。
  3. 统一占位符格式并填写 placeholders 列。
  4. 设置列格式(文本、日期等),保存为 .xlsx(或UTF‑8 CSV)。
  5. 运行本地校验脚本或手动按照Checklist检查表格。
  6. 按文件大小需求拆分,上传至HelloWorld并指定语言对。
  7. 接收译文后做人工校对,并通过status字段回传结果。

好了,这些就是我一边整理一边想到的、能直接用的Excel格式要求和实操建议。实战中你可能遇到一些小毛病(比如某个老版本Excel会有奇怪行为),那就先把问题复盘、修一个小脚本或用Google Sheets做一遍预处理再导出。反正,关键是:表头标准化、编码统一、占位符清晰、上下文充分——这四条做对了,大部分问题就解决了。

返回首页