八一中文

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
重生:仙尊归来

重生:仙尊归来

轰隆,一道惊天炸雷响彻了整个幽州,一个身穿破烂休闲服,面容俊俏的男子站在一片泥泞的土地之中,从今天开始,有仇报仇,有恩报恩,属于我的我会亲自拿回来,任你万般权贵,终会在我的脚下臣服。......

重生之乘风而起

重生之乘风而起

重生91,重启人生。...

大明抄家王

大明抄家王

崇祯末年,大明王朝这艘四处漏风的破船即将沉没。汉人长达三百年的屈辱史即将开启。沈战穿越成为锦衣卫百户在的帮助下,沈战一步步逆转乾坤。抄谁的家?答案是贪腐成风的官员,兼并土地的勋贵和士绅地主,以及大发战争财的无良商人。明末的百姓和士兵只认银子,不认皇帝。靠抄家发财的沈战刚好掌握了时代的命脉。有钱才有兵,有兵才能扭转乾......

九极界最靓的仔

九极界最靓的仔

在九极界故事开始,云逸生活在凡人城镇,偶然接触到修仙功法,从此踏上艰难的修仙之路。他白天辛苦劳作积攒资源,夜晚刻苦修炼,终于突破练气期。然而,修炼资源稀缺,云逸四处碰壁,还遭人嘲讽,但他凭借坚韧意志和聪慧头脑,在山林中寻得草药炼制低阶丹药,维持修炼……......

倏忽朝颜

倏忽朝颜

梧桐树下一小生,探头摆手一脸茫。相协相伴终相弃,倏忽回首始复来。朝颜花开又花谢,人生起伏难重来。(言情、校园、日常、搞笑、傲娇与直球、动漫与二次元)(文中会出现许多动漫与二次元的梗,大家如果感兴趣,可以自行度娘或是观看番剧进行详细的了解,谢谢大家,作者会努力码字的=v=)......

大佬的万界游行

大佬的万界游行

一场遇外让苦苣青年李仕龙来到了九叔的世界,在帮世界提升到中千世界时遇外醒觉前世记忆,从此一路高歌,我无敌,你随意,万界浪......