经产观察
IT资讯
IT产业动态
业界
网站运营
站长资讯
互联网
国际互联网新闻
国内互联网新闻
通信行业
通信设备
通信运营商
消费电子
数码
家电
数码

零互联网工作经验想做AI产品经理怎么办?不如从数据标注工作入门

作者:habao 来源: 日期:2018-4-12 5:41:02 人气:

  Hi,我是@Jasmine,一位AI产品经理。在正式内容之前,我想跟大家简单分享一下我的经历:我大学本科不是IT相关,甚至在我工作之前,我没有做过任何与互联网相关的实习工作。

  而现在我能负责公司的重点项目,证明了进入AI行业并不是你们想象中的那么困难。直至今天,我仍在这条道上不断学习,也希望有更多的朋友给予我指点。

  AI的应用领域非常非常广,上图只是大家相对熟悉的几个,而且每一个领域用到的算法都不一样。有很多想转型的产品,第一个考虑的点就是:不懂技术就做不了AI,我是不是学完算法才能入行?

  数据可分为两种类型:“被标记过”的数据和“未被标记过”的数据。什么是标记呢?意同“贴标签”,当你看到一个西瓜,你知道它是属于水果。那么你就可以为它贴上一个水果的标签。算法同事用“有标签的数据”去训练模型,这里就有了“监督学习”。

  重点就是这里:只要是跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自然语言理解等等,他们都有一个必走的流程:

  任务分配:假设标注员每次标记的数据为一次任务,则每次任务可由管理员分批发放记录,也可将整个流程做成“抢单式”的,由后台直接分发。

  标记程序设计:需要考虑到如何提升效率,比如快捷键的设置、边标记及边存等等功能都有利于提高标记效率。

  进度:程序对标注员、审核员的工作分别进行,可利用“截止日期”的方式淘汰怠惰的人。

  质量:通过计算标注人员的标注正确率和被审核通过率,对人员标注质量进行,可利用“末位淘汰”制提高标注人员质量。

  背景:一个识别车辆的产品对大众车某系列的识别效果非常不理想,经过发现,是因为该车系和另外一个品牌的车型十分相似。那么,为了达到某个目标(比如,将精确率提高5%),可以采用的方式包括:

  补充数据:针对大众车系的数据做补充。值得注意的是,不仅是补充正例(“X”应该被识别为该大众车系),还可以提供负例(“X”不应该被识别为该大众车系),这样可以提高差异度的识别。

  如果没有后台设计,测试结果只能由人工抽样计算,抽样计算繁琐且效率较低。因此可以考虑由后台计算。

  举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则

  测试同事需要关注特定领域内每个类别的指标,比如针对识别人脸的表情,里面有喜怒哀乐等分类,每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。

  因此,在模型上线之前,产品需反复验证模型效果。为了用数据对比本模型和上一个模型的优劣,需要每次都记录好指标数据。

  假设本次模型主要是为了优化领域内其中一类的指标,在关注目的的同时,产品还需同时注意检测其他类别的效果,以免漏洞产生。

  产品经理的工作,不止是产品评估——除了流程控制,质量评估,还有针对分类问题,由产品经理制定边界;这常重要的,直接影响模型是否满足市场需求。

  产品制定分类规则:例如,目的是希望模型能够识别红色,那产品需要详细描述“红色”包含的颜色,暗红色算红色吗?紫红色算红色吗?紫红色算是红色还是紫色?这些非常细节的规则都需要产品设定。

  如果分类细,那么针对某一类的数据就会少。如果分类大,那么一些有歧义的数据就会被放进该分类,也会影响模型效果。分类问题和策略问题道理是一样的,都需要产品对需求了解得非常深刻。

  总之,针对刚刚入行的朋友,如果没有算法基础、没有工程基础,可考虑在流程、平台等职责角度做过渡;在工作内容中不断总结学习,往自己最终的方向目标不断前进!

  

推荐文章