V2EX 12小时前
[酷工作] [项目外包] 寻找视频理解外包团队
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本招聘旨在寻找一支技术实力雄厚的团队,共同完成一项基于生活摄像头视频流的实时语义理解项目。项目核心是识别四类事件:宝宝喂奶、宝宝换尿布、宝宝睡觉以及其他,并精确记录事件的起止时间。项目要求在单卡 NVIDIA A10(24GB显存)硬件上,实现事件检测准确率≥90%,并优化部署以支持≥32的Batch Size。项目包含算法调研、研发、优化及部署四个阶段,期望团队能输出高质量的调研报告、调优后的模型及prompt,并最终在AWS云服务器上完成部署和压力测试,满足性能要求。

💡 项目核心目标是实现生活摄像头视频流的实时语义理解,能准确识别“宝宝喂奶”、“宝宝换尿布”、“宝宝睡觉”及“其他”四类事件,并精确记录事件的起始和结束时间。

💻 项目的技术要求包括在单块NVIDIA A10(24GB显存)硬件上运行,并需优化算法以达到不低于90%的事件检测准确率,同时部署后的Batch Size需要达到32或更高。

📊 项目流程分为四个主要阶段:算法调研(调研4款开源7B多模态模型,收集测试数据,设计prompt,测试准确率,设计视频流读取方案)、算法研发(收集200条测试数据,调参,设计prompt,达到90%准确率)、算法优化(模型量化如GPTQ,KV cache量化,Page KV cache,Continous batching)以及部署(AWS云服务器部署,压力测试,支持动态调度)。

✉️ 申请方式为发送包含团队简历的正式邮件至 meihuan@mails.amoonai.com,并承诺来信必复,邀请有能力的技术团队加入。

我们正在寻找一个富有技术能力的团队,来完成一个视频理解项目。下面是项目任务书的大致情况。

项目概要
生活摄像头视频流实时语义理解,识别四类事件:宝宝喂奶、宝宝换尿布、宝宝睡觉、其他,精准定位起止时间。
•输入源:S3 服务器视频流( 5 分钟+/段)
•硬件约束:单卡 NVIDIA A10 ( 24GB 显存)
•核心目标:事件检测准确率≥90%,部署优化后 Batch Size≥32

一、算法调研
任务项:
1.调研主流的 4 款开源多模态模型( 7B )。
2.收集 50 条左右测试数据。
3.初步设计 prompt 。
4.测试各模型准确率。
5.设计视频流读取方案。
交付内容:
1.调研报告,讨论并确认最终需要使用的模型和视频流读取方案。

二、算法研发
任务项:
1.收集 200 条左右测试数据。(流式数据,时长 5 分钟以上)
2.调参。
3.设计 prompt ,获得准确率。
交付内容:
1.交付准确率达到 90%以上的 prompt 和模型。

三、算法优化
任务项:
1.GPTQ 模型量化。
2.KV cache 量化。
3.Page KV cache 。
4.Continous batching 。
5.测试准确率。
交付内容:
1.交付准确率达到 90%以上的 prompt 和模型。

四、部署
任务项:
1.Aws 云服务器部署。
2.压力测试,测试单卡 A10 最大 batch 。
3.支持云服务商的动态调度计算资源 API 。
交付内容:
1.准确率 90%以上。
2.Batch size 不低于 32 (尽可能大)。


如何申请

请撰写一封正式的邮件,带上您团队的简历,发至 meihuan@mails.amoonai.com ;来信必复。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视频理解 AI算法 多模态模型 项目招聘 算法优化
相关文章