知识分享

  • 首页
  • 市场分析
  • 需求分析
  • UI设计
  • 产品运营
  • 产品设计
  • 项目管理
  • 新玩意儿
不积跬步无以至千里
不要停留,欣赏沿途的风景
  1. 首页
  2. 产品经理
  3. 正文

AI产品经理如何做好数据准备工作

2021年7月18日 317点热度 0人点赞 0条评论

编辑导语:在所有产品类型中,AI产品是市场上较为吃香的。在AI产品领域,数据的准备工作是开始正式工作之前同样重要的一部分。那么,该如何做好数据准备工作呢?

所有的产品类型中,估计AI产品是最吃数据的了,要训练模型必须喂养大量的数据,2020 年 6 月 9 日,一款颅内肿瘤核磁共振影像辅助诊断软件获得了中国药监局审批,拿到了影像辅助诊断领域的首张 III 类医疗器械证。

这套人工智能软件对脑肿瘤的诊断准确率超过 90%,对其中常见类型的诊断准确率达到 96%。训练这款软件的算法模型喂养了上百万份影像病例,海量数据、强大算力以及高分辨率,让人工智能归纳出来的一套新经验,使得它在影像诊断领域取得突破的基础。

可以这么说,在AI产品领域,数据、算法、算力三分天下,同样重要,数据的准备工作是开始产品设计和开发的必要的前期工作。

数据准备工作主要包括两个部分,第一是数据收集,第二是数据清洗。

一、数据收集

数据收集顾名思义,就是收集训练所需的数据,比如说,我要做一个人脸识别的模型,那么肯定是要收集人脸数据,我要做个对话机器人系统,肯定要收集语料数据,我要做个有无佩戴安全帽识别,肯定要收集人带安全帽的数据。

我要做个宠物狗的品类识别模型,就要收集各种狗的图像数据,并分类存储。

数据收集简而言之,就是把数据分类存储好的过程,就像是我们做法,先去买菜的过程,并把菜分类存储好的过程。

目前,数据收集主要有三个来源,分别是数据服务商采购、公开网络收集、内部数据。

数据提供商提供的数据一般质量都比较好,数据比较大。可以直接拿来做模型训练工作。只不过这类数据一般价格比较高。

而且这类数据的类型一遍是通用型,对于一些小品类,垂直领域的的数据服务商一般没有。例如下面这些,是一家外部提供商提供的数据。

网络公开的数据比较好理解,就比如训练提问意图,需要大量的提问意图的短句,这时候可以从知乎爬取。因为知乎是个问答平台。

第三种内部数据,也比较好理解,如果有内部数据肯定是先用内部数据,他的获取成本最低,还有就是一些小众垂直领域,外部无法获取也只能从内部获取。

例如疫情初期,北京肿瘤医院新冠肺炎智能识别是基于5000多个病例的 CT 影像样本数据,学习训练样本的病灶纹理,研发了全新的AI算法模型,可在20秒内快速完成新冠肺炎影像的分析,分析结果准确率达96%。这些CT影像就属于内部数据。

二、数据清洗

数据收集完成之后还不能直接拿来用,需要做数据清洗,把这些数据变成可用的数据。这就好比从菜市场买完菜之后做洗菜和切菜的过程。

数据清洗主要是清洗三类数据:

数据缺失解决办法大体分为两种,第一种是直接删除,第二种是做填补。

数据格式不统一比较好解决,直接做归一化处理就好。

存在异常值的情况,只需要找到异常值,并剔除掉就好。针对不同的数据的异常值找到方法也不尽相同。例如某学校3万人体检,手工录入每个人体重,可以用3σ定律检验可找出录入错误数据。

三、总结

数据收集和数据清洗工作在整个建模过程中很重要,数据的好坏直接影响最后模型的准确性。但是数据收集和数据清洗是个苦活,过程繁琐并且技术含量不高,需要AI产品经理和算法工程师一起完成,这块会花费比较多的时间,一定要有耐心和细心。

#专栏作家#

老张,人人都是产品经理专栏作家。AI产品经理,专注于自然语言处理和图像识别领域。现智能保险创业公司合伙人,希望与人工智能领域创业者多多交流。

本文原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

给作者打赏,鼓励TA抓紧创作!

标签: 暂无
最后更新:2021年7月18日

小虾米

同理心,洞察力!

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
最新 热点 随机
最新 热点 随机
MVP(最小化可行产品)产品核心方法论 为视频号造铲子,微信瞄准“剪映”还是“妙鸭”? “国庆住我家”成风潮,次卧日租100元 景区OUT了,假期都流行去高速上耍 风控系统的建设,具体怎么做? 无限类网站改进方案1.2 如何从0-1搭建清算系统、提升清结算准确性 压箱底技巧!产品经理做竞品分析的正确姿势! 实现微信UnionID与多个系统UserID关联方法 这届年轻人办婚礼,不花一分冤枉钱 独家|重拾中长视频梦,抖音快手再推新App 蜜雪冰城,做的是一门B端的生意 淘宝买菜重新发力、美团拼多多寸土必争,社区团购混战升级 SaaS行业破晓在即,该如何应对? 28号了,只有我还在抢票吗? 业财一体化之支付系统上篇(用户视角) 小绿书“拍了拍”小红书 淘天抱团微信:有限合作,各取所需 微信阿里合作搞钱,就问抖音怕不怕 Win11正式成为“AI操作系统”了,Copilot助手加持,画图截图一键换背景,马斯克赶来围观
盘点一下那些虚实结合的文本输入方式自动驾驶,又到黎明前?万亿规模能源产业互联网【能链】为何一枝独秀?经营指标层面深度解读骑手需要的不是同情,而是尊重数据更新|不只是一个更新按钮而已名实唯一性:数字与AI经济里的那些潜规则实战分享!系统可见原则在交互方案中的运用从商业模式入手,搭建一款产品的底层拆解框架小红书走到命运拐点微信的聊天记录占比,被网友玩成了新一代 MBTI ?SaaS产品数据分析之指标与标签一篇文章搞懂一个系统之 SRM 系统一个真秀才倒下去,十个假靳东站起来谈谈在B端落地第三方大模型的步骤从0开始设计产品搜索功能(一)瑞幸的“9块9”突围战,只需几滴茅台?如何从0-1建设企业微信SCRM顶流网红“秀才”翻车,“中老年收割机”易主?微信“断路”幕后:视频号商业化棋至中局交个朋友、东方甄选纷纷入淘,超级主播们该着急了
B站会沦为下一个舆论广场吗? 跨境电商海外仓(BMS篇):海外仓仓储费的计费方案设计 QQ大会员品牌运营策划与设计 FOMO的量子商用黎明 JTBD视角:优化成果,而不是优化产品 这届双十一,抖快淘如何「改命」直播电商? 方法论:如何搭建内容评估体系 设计师如何吸引用户注意力? 企业微信私域流量管家『粮仓』发布,公测招募中 旅游需求井喷,抖快书强势涌入,OTA如何制胜下半场? 智慧社区变革前夜:要么进化,要么淘汰 万亿风口的SaaS,WPS还能领跑多久? 干货分享:SaaS产品的困境 Axure之折叠窗效果 思考 | 关于AB实验的实战应用 社区团购竞逐依然“中场”:补贴穿马甲、热钱在观望 没事少听大V们瞎逼逼 设计方案被质疑不合理?从这4个方向入手! 构建SaaS的底层逻辑,究竟有多重要? 给产品新人的十句话

COPYRIGHT © 2023 知识分享. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang