Back to all jobs
Job Description
1、从公开网页、文档、视频等源头解析、处理、合成得到视觉、文本、语音等多模态的训练数据,并验证其价值; 2、建设端到端的训练数据的质量、多样性评估体系,参与全链路的效果优化,不断提升数据质量和多样性; 3、参与VLM、LLM、Agent、具身智能等多个前沿大模型基座的数据工作; 4、跟进大模型数据领域的前沿技术,推动AGI数据建设。
1、从公开网页、文档、视频等源头解析、处理、合成得到视觉、文本、语音等多模态的训练数据,并验证其价值; 2、建设端到端的训练数据的质量、多样性评估体系,参与全链路的效果优化,不断提升数据质量和多样性; 3、参与VLM、LLM、Agent、具身智能等多个前沿大模型基座的数据工作; 4、跟进大模型数据领域的前沿技术,推动AGI数据建设。