热门推荐
针对机器学习中10个常见问题的讨论摘要
2024-10-31 19:13

转自:http://blog.sina.com.cn/s/blog_a4a141b501016zch.html

针对机器学习中10个常见问题的讨论摘要

问题很多,没办法一下子都写出来,先摘要一下.

1. 如何看待机器学习?

在我刚刚博士毕业的一段时间,曾一度觉得自己在机器学习这个领域已经可以大展拳脚,披荆斩棘了。有很多人和我一样甚至更糟,他们自认为熟读了机器学习的经典之作。对各种神经网络的推演基本不用经过大脑,已经到了神经反射的级别。常用算法均已实现了n遍,某些相关考试距离满分仅一步之遥,拜读过很多大师的经典文章。这一切让我们这一类人感觉几乎飘到了火星,但后面工作中遇到的实际问题,至少让我自己狠狠地摔回了地球并对机器学习这个领域有了重新的认识。你觉得你掌握了机器学习算法的精髓,在实际问题面前你会发现那些大师好像帮不了你了,他们的理论很严谨,但在现实面前是那么的不堪一击。你觉得你把一个分类器的精度从前人的80%做到了85%,这是一个多么了不起的贡献,但在现实的产品面前,你会碰得一鼻子灰。你会听到这样的回复:“我们的用户需要98%以上的精确度。”你会觉得只有把机器学习和上帝做一个非线性组合才能达到目标了。你觉得你的一个算法在至少10个问题上表现突出,当下这个问题在你眼里已经不是问题,但第11个问题会告诉你什么叫失败。我们的机器学习算法就像是良药,现实的问题就像是病,你见过包治百病的药吗?好像没有,即使小小的感冒,有人几片药就好了,有人会在治疗数周,尝试各种药物后送了命。这足以告诉我们现实的问题有多复杂,现在的计算水平还不足以全部解决。因此我们要对机器学习,更重要的是要对学习以及掌握机器学习的我们自己有一个客观的认识,严谨的现实的处理每一个问题。有很多人觉得搞机器学习的就是计算机而已,这些人就是青春饭。那么请抱有青春饭偏见的学者仔细想想,如果有两个掌握着处方的的医生,一个年老,一个年轻,你会信谁?

2.如何看待自己的背景?

我们刚刚批判了过度乐观的兄弟,目的是让他们在一开始就认识到他们所学的知识要去战胜多么可怕的对手,于是可以更努力的去活学活用,勤于思考,并坚信活到老学到老这一行业真理。另一方面,我们也要去好好鼓舞那些过度悲观的“弱势群体”。你有没有见过这样的弟兄,当你建议他们学习使用机器学习来解决一些问题时,有一类人会回答“我是学数学的,对于这些东西我肯定不如那些科班出身搞计算机的人明白。”另一类人会回答“我是学计算机的,写程序没问题,这里边太多数学的东西了,我可能不如学数学的人搞得明白”。问题出来了,究竟谁能把这个问题搞明白?难道去求助学哲学的?还有一些经典语录:有人会说,“我从来没写过论文,我觉得我不适合作研究。”另一类人会说,“我不太会写程序,动手能力不行,可能做不了这类研究。”真的不知道有多少在娘胎里就什么都会的天才适合做研究了。在这里,为了给自卑的兄弟姐妹树立信心,我们强调几个事实。第一,机器学习这门学科的门槛没有想象中那么高。这可以从科研低龄化得到证明,有些高中的竞赛班已经开始开设机器学习相关课程,很多本科二年级或者三年级的学生已经开始在一流国际会议发表文章,注意,我这里说的是“很多”,不是“有些”。难道他们都是天才而我们自己是白痴?再举一个例子,在我身边做互联网相关机器学习的同志们有几个博士期间学的是这个专业?如果有,也是个位数的。这就证明,机器学习不是一个两阶段问题。第一阶段,把该学的都学了,第二阶段,在工作中使用它。不是这样的,它需要你不停的学习。因此,只要你肯学,愿意接受新事物,让你的背景局限性见鬼去吧。第二,机器学习的问题很多,需要不同类型的人,因此,基于每个人的与众不同之处,必有其价值。

3.如何学习机器学习?

在清楚地认识了机器学习这个学科以后,我们可以开始学习和使用它了。如何学习呢?我们这里不想讨论怎么上课,怎么做作业,这是你自己把握的事,9点上课,你10点起床,我们还有什么可讨论的?我们想讨论一下除了你的课程学习以外,应该怎么学习。两个话题。第一,针对基础知识的学习,如何让它更扎实。第二,针对机器学习相关领域最新进展的学习,如何更快更准。我们用两句话先来尝试回答。对于问题一,我们要让机器会学习,而不是把你自己变成学习的机器。对于问题二,一个星期成为一个领域的专家,绝非天方夜谭。这些都是关于学习方法的问题讨论。我们先从问题一开始。“不要把自己变成学习的机器”是什么意思?我们的好学生们很喜欢说,“这本教材我倒背如流了”。但是很遗憾,对于机器学习这种学科来说,倒背如流真的没用。这和打麻将很象,你用手一摸就知道一万到九万,一筒到九筒,东南西北中发白,很熟悉了吧,但如果你没和别人玩过,不懂得其中的变化,你的钱早晚都是人家的。通过这个例子我想说书本只能告诉我们怎么认牌,不能告诉我们怎么玩牌。对于学到的任何一个新想法,新算法,都要用心去思考这里边的变化,要在不同的环境和问题中尝试。注意,考试可以靠苦功提高分数,研究就像艺术,需要灵感的,灵感来源于生活,来源于思考。

4.如何选择问题研究?

在你学习并灵活掌握了机器学习技术后,总要用来解决很多实际的问题。如果没有问题主动来找你,选题就成了一个很大的问题。很多人的课题是老板给选的,这个我们管不了了。我们想讨论的是如果你有机会也有意愿自己来选择课题的话,该如何选。如果你遇到一个有足够灵活性的老板,他会和你说,“主要看你自己的兴趣”,“你坚信什么方向最有发展就可以做,我一定支持你”。听起来很美妙,但是很遗憾,正如我见到的很多同学一样,很多人会想,我不知道自己兴趣是什么,我怎么知道什么方向会有发展?那么出现矛盾了,如果老板给题目,心有不甘,如果自己选题目,无从下手。我们这里可以探讨选题过程中的几个注意事项。不能给你做好决定,但至少可以帮你看的更清楚。我们先来分析一些常见的选题模式,对于这些常见模式,归结为一句话,就是利益驱使选题法。别不承认,真的是利益驱使。让我们先来列举一些利益驱使的常见选题模式。模式一,热门话题法。模式二,查缺补漏法。模式三,独有数据法。我们随后再分析这几种方法都是怎么做的。不妨让我们先抛出我们真正期待的选题方法,啃硬骨头法和开天辟地法。

5.如何分析实际问题?

当你利用所学到的知识开始着手去解决一些现实的问题。一个棘手的问题随之而来,从哪里入手。对于机器学习的三个要素,模型,特征,数据样本。从哪里开始呢?我见过几类观点,一派人更多的从事理论研究或者所解的问题基本停留在课堂作业的层面,他们自觉不自觉的思考问题永远从机器学习的模型开始,所以见到分类就先去想支持向量机,见到推荐就先去想协同滤波。有一种思维定势。这一派也是在现实世界最饱受创伤的一派。于是,一些受过伤的兄弟姐妹自发的组织了第二门派。他们通过一些实际经验发现好多分类问题用不同的分类器好像效果都差不多。但定义一些好的特征对结果的帮助出人意料的大。于是特征派出现在江湖中。但那些表面的特征很快被发掘殆尽。于是,另一派观点占尽上风,那就是先分析手里的数据,看看数据分布,看看数据干净程度,等等。但关键的问题是,都要看什么?看完了数据,然后呢?看数据究竟看出了什么?对你问题后面的求解有多大帮助?其实,以上的做法虽然都有局限,但都是对的。一个好的,有经验的研究人员会把所有三个方面综合考虑,不会刻意安排先后顺序。会在不同问题中捕捉解决问题的不同机会。但我们不是有经验的研究人员,难道真的没有一件事值得先做,用来帮我们把问题分析得更清楚吗?其实有一件事,我们忽略了。那就是用来解这个问题,都有什么东西,或者说什么数据源是可以用的。比如,去做网页的分类,我们可以用文本的信息,可以用URL的信息,可以用点击过网页的查询词的信息,可以用Wikipedia的信息,等等。你会发现,当你把这些东西列了一遍,你的特征会多得自己往外蹦,你会豁然开朗分析数据该分析点什么,你会忽然间看到更多的可用模型。其实分析问题就像做菜,在开始点火以前,先看看你有什么食材。没看到食材就开始决定怎么做,其实是不明智的。当你有了足够好的材料,也许用水煮一煮就够了。

6.如何写作一篇论文?

当你做好了一个研究工作, 准备发表出来与同仁们分享, 一个首要的任务是把你的工作变成一篇文章。问题来了,怎样写作一篇高质量的文章呢?我们以机器学习领域的应用型文章为例,探讨一下论文写作的问题。注意,任何好的文章都要以好的研究工作为基础,我们这里不谈你的研究工作质量如何,只讨论文章的写作问题。要把一个工作写清楚,当然要先把它想清楚,要不然你写什么呢。那么就别急着写,让我们先想。想什么?首先,问你自己十个问题,如果这十个问题都已经想清楚了,那么就是出手的时候了。否则,我个人建议你先歇一歇。不然写了也白写。哪十个问题呢?

问题一:你要解什么问题?

问题二:为什么说你要解的问题很重要,有意义?

问题三:这个问题中有什么挑战和难点?

问题四:还有谁解过类似或相关的问题?

问题五:他们是怎么做的?

问题六:你的做法是怎么解决这些挑战的?

问题七:你的方法有何与众不同之处?

问题八:为什么说你的方法比别人的好?

问题九:有何证据证明你的方法真的好?

问题十:你的工作的结论和局限性是什么?

看起来好像很罗嗦是吧。我们很快会讲到,任何一个问题回答不清楚都有可能让你的文章变成让人撕心裂肺的拒信。另一方面,你的文章从头到尾其实就是在回答这些问题。

7.如何成功讲演问题?

当你的文章发表了,新的问题接踵而来。你需要在众人面前,尤其在同行面前宣讲你的工作。于是,你需要去准备一个幻灯片,也就是PowerPoint演示文稿,并且利用它通过演讲的方式介绍你的工作。不要小看这个东西,这里边的学问大了去了。如果你是一个学生,一个好的演讲能帮你在一次国际会议后直接拿到名校的offer或大公司的实习机会。如果你是一个教授,你的演讲水平直接决定了你在学生心目中的等级。那么一个研究工作已经做完,如何准备这个演示文稿并把它精彩的讲出来呢。是先介绍问题还是先介绍关键想法?用例子介绍还是用定义介绍?您想到的这些问题都很好,但很遗憾没有确定的答案。真正的答案只有确定了听众之后才能确定。为什么这样讲,我们稍候解答,先来看几个准备演讲中的小技巧。

技巧一:看人下菜碟 - 你的听众决定你的幻灯片和演讲风格

技巧二:榜样的力量 - 永远不要忘记用例子说明问题

技巧三:事实胜于雄辩 – 记住数字的力量

技巧四:摔杯为号 – 适时地把溜号的听众抓回来

技巧五:含情脉脉 – 用眼神照顾所有听众

8.如何评估你的成绩?

成功的将论文发表并把你的工作讲给别人听,是一件令人兴奋的事。当你成功发表了第一篇论文,一件新的纠结的事情出现了。有些研究工作并没有那么突出,要不要写成论文。写了就是传说中的灌水,不写又心有不甘。要不要灌这个水呢?有些工作并没有完备,要不要写成论文。写了或者心中有愧,因为它并没有想象中那么好,或者担惊受怕,因为别人会用你的想法做出更好的工作,从而不会有人记得你的贡献。如果不写,什么时候我才能把它做好呢?总之,很纠结。积累了一段时间,如何评价自己的工作,是文章的数量?还是别的什么?如果是别的,比如质量,如何量化。这些问题如果现在没有困扰你,那么离你也不远了。现在,我们辩证的看待这些问题。让我们从灌水问题讲起。灌水是不是真的就是道德败坏,学风不正呢?这个问题可以说是仁者见仁,智者见智。我们可以用一个笨笨的道理想一想,每个好的研究人员都要经历成长阶段。我们中有多少天生的作家,大多数好的文章作者往往还都是不断的练习出来的。不去灌一灌水,谁会甘心当你的陪练呢?有多少博士的导师会给自己每个学生的每一篇文章提出最本质的建议呢。我不是批评我们现在的老师不负责任,即使是最负责的导师,因为你们一起做的研究,你们的思路会非常相似,这也就意味着你的导师也很难帮你发现你文章中那些致命的问题了。所以,在适当的时候,灌水对于你的成长可能是重要的。但是,如果你已经学会了怎么写一篇好的文章,还继续灌下去,那可就是害人害己,死路一条了。

9.如何选择职业生涯?

经历了大风大浪,终于有一天,到了角色转换的时间,不再是学生了,开始工作了。本来是高兴的事,但你会突然发现,这个纠结呀。要不要出国继续学习和研究?选哪个学校?好学校的那个导师一般。差一点这个学校导师名气更大。要不然直接找个工作?大公司还是小公司?国际的还是国内的?国内的好像工资更高。国际的好像工作环境好。实在不行还不如自己创业。找老爸帮忙还是去拿风投。怎么忽悠钱?不怕打击你,这个关键性的选择其实没有人知道答案。最常见的答案是,“这个问题只能问你自己的兴趣”,“这要看你自己的目标是什么”,“根据我对你的了解,你可能更适合学术圈子”“如果我是你,我就去创业”。这些回答的高明之处就在于听起来是那么的中肯,那么的有道理,但仔细琢磨一下,好像什么都没说。当你搜集了足够的建议,结合你自己的兴趣作出一个决定,怎么验证这个决定做对了吗?注意,人生只有一次,也许当你成功住进红木小盒子的那一天,你还没有成功地知道自己的选择是对是错。虽然没有一定对的,我们总还是可以探讨一下哪种选择成功的可能性大,以及如何选择一定是错的。让我们先从出国留学选择学校说起。“学校”,“专业”,“导师”基本上会成为我们选择时最关键的三要素。当然还有钱的因素,我们不妨先做一次圣人,把这些俗气的东西抛开。那么这三个关键词哪个更重要呢?纠结吧。让我们换个思路,为什么选学校,为什么选导师而不去选师兄师姐呢?为什么?因为这些人在你接下来的职业生涯中可能比其它几个要素的影响力还要大。

    以上就是本篇文章【针对机器学习中10个常见问题的讨论摘要】的全部内容了,欢迎阅览 ! 文章地址:http://syank.xrbh.cn/quote/6715.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://kaire.xrbh.cn/ , 查看更多