打标岗
5000-7000元/月数据标注高中
顺一优选云仓深圳·宝安区·沙井
湘普方言语音数据集采集+标注
100-150元/天发送简历
聊一聊
职位详情:
不合适
投诉
经验不限学历不限接受居家办公数据标注/AI训练师
【方言类型】:湘普
文本标注规范:
【需求时常】:500小时
【准确率要求】:字错误率必须严格控制在<3%
【转写标准统一性】:必须在项目启动前明确界定转写形式:“方言逐字转写” 或“普通话书面语形式”。
【严禁混用】:同一数据集内不得出现两种标准混杂的情况。
【特殊方言处理】:对于粤语、闽南话等存在大量特有方言词汇的口音(如广普、新马腔中可能夹杂的方言词)。
【元数据标签】:每条数据必须包含精确的文本转录内容。
音频质量与格式:
【噪声控制】:
● 无严重背景底噪。
● 无回声、串音。
● 无失真、剪辑断裂、爆音等异常现象。
【技术参数】:
● 采样率:≥16kHz
● 位深:≥16bit
● 格式:WAV
说话人分布要求:
【说话人数量】:每种口音类型的独立说话人数量必须> 500 人。
● 注:避免少数人录制大量数据导致的过拟合风险,确保说话人多样性。
● 性别比例:男女不限 :1(允许±5% 的浮动)。
数据来源优先级:
为确保数据的自然度和多样性,数据采集来源需遵循以下优先级顺序:自然对话数据> 朗读数据> 网络音视频爬取数据
其他:
除基础文本外,每条数据必须具备以下结构化标签:
细分地域标签:必须精确到城市或地区,示例:口音:广普 ,城市:广州;
验收标准:
【指标达成】:
● 准确率≥97%
● 音质不合格(有严重噪点、断句)的数据占比不得超过2%。
【标签完整性】:缺失城市标签或口音分类错误的数据需全部返工。
职位总结围绕职位描述,归纳工作内容、招聘要求

李女士IP:广东深圳
2周内活跃|
能量跃动
·经理工作地址:
深圳龙岗区吉信大厦
点击查看地图法定代表人:李振
成立日期:2022-08-31
