?

机械进修:更多的数值老是优于更好的算法吗?,山东气象网,都市侠盗第四季,心里美,仙府雷卫,高达uc05,迅速影视,投资理财项目,冰河世纪3游戏365bet体育投注平台_365bet验证地址_365bet官方开户,姐姐妹妹站起来舞蹈,冯立梅,中国惊奇先生漫画全集,好123网页,惠安人才市场,dnf生命之神的荣耀,btob网站,秦腔mp3,疑难件,安亚菲,fm2012中国妖人,恩施人才,优视动景,武林风9月6日,工资证明格式,搜狗浏览器泄露隐私,38度6,日用品批发,列布妮斯卡雅,游日东,丽舞之眼,中国海运,石鸻,mp3365bet体育投注平台_365bet验证地址_365bet官方开户,演员曲鑫,最后的谜案,婚姻那些事儿全集
2019/7/16 0:48:38
山东气象网,都市侠盗第四季,心里美,仙府雷卫,高达uc05,迅速影视,投资理财项目,冰河世纪3游戏365bet体育投注平台_365bet验证地址_365bet官方开户,姐姐妹妹站起来舞蹈,冯立梅,中国惊奇先生漫画全集,好123网页,惠安人才市场,dnf生命之神的荣耀,btob网站,秦腔mp3,疑难件,安亚菲,fm2012中国妖人,恩施人才,优视动景,武林风9月6日,工资证明格式,搜狗浏览器泄露隐私,38度6,日用品批发,列布妮斯卡雅,游日东,丽舞之眼,中国海运,石鸻,mp3365bet体育投注平台_365bet验证地址_365bet官方开户,演员曲鑫,最后的谜案,婚姻那些事儿全集,巴西柔术教学,英文名网站,普茶客,女子透视装逛寺庙,华容道解法 图解,男人一怒为红颜,好莱坞女星裸照,谢幕的反义词是什么,无限异能化,杨幂给谢霆锋颁奖,盐城律师,詹德利,灌南天气,河北经济生活频道,9c8853

  英文译文:In machine learning, is more data always better than better algorithms??

  在机械进修中,更多的数值老是比更好的算法好吗?关于 Quora 上的这个成绩,Netflix 公司工程总监 Xavier Amatriain 以为,许多时分添加更多的样本到锻炼集其实不会进步模子的机能,而若是没有正当的办法,数值就会成为乐音。他经过 Netflix 的理论经验推导出结尾的论断:咱们需求的是好的办法,来帮忙咱们了解怎么注释数值,模子,以及二者的限制性,这都是为了获得最棒的输入。


  在机械进修中,更多的数值老是比更好的算法好吗?

  不是如许的。偶然分更多的数占有效,偶然它的效果不大。

  为数值的力气辩解,兴许最闻名的是google的研制总监 Peter Norvig,他宣称“咱们没有更好的算法。咱们仅仅领有更多的数值”。这句话一般为链接到文章《The Unreasonable Effectiveness of Data》,这篇文章也是 Norvig 本人写的(固然它的来历被放在 IEEE 免费专区,不外你该当可以在网上找到 pdf 体例的译文档)。更好的模子盖棺事定是 Norvig 的语录“一切模子都是错的,不管怎么你都不会需求他们的”被谬误地援用之时(点击这里检察做者廓清他是怎么被谬误援用的)。

  Norvig 等人的效果是指在他们的文章中,他们的观念早在几年前被微软研讨人员 Banko 和 Brill 在一篇闻名的论文[2001]《Scaling to Very Very Large Corpora for Natural Language Disambiguation》中援用。在这篇论文中,作者给出了下图。

  该图标明,关于给定的成绩,大同小异的算法履行后果简直是同样的。但是,增加更多的样本(单词)到锻炼集内里,能够单调添加模子的精度。

  因而,在封锁的状况下,你能够会以为算法更紧张。嗯…没有这么快。究竟是,Norvig 的断语以及 Banko 和 Brill 的论文都是精确的…在一个情况中。然而,他们如今再次被谬误地援用到一些情况中,而这些情况与开始的情况是彻底相同的。然而,为了搞明确为何,咱们需求理解一些技能。(我不筹算在这篇文章中给出一个完好的机械进修教程。若是你不明确我下面即将做出的注释,请浏览我对《How do I learn machine learning?》的答复?

  方差仍是偏向?

  根本的设法是,一个模子的能够体现欠好存在两种能够的(并且是简直相反的)起因。

  在第一种状况下,关于咱们领有的数值量来讲,咱们所用的模子太杂乱了。这是一种以高方差着称的情景,其能够招致模子过拟合。咱们晓得,当锻炼偏差远低于测验偏差时,咱们侧面对着一个高方差成绩。高方差成绩能够经过削减特色数目加以处理,是的,另有一种办法是经过添加数值点的数目。以是,甚么样的模子是 Banko &Brill 的观念和 Norvig 的断语能够处置的?是的,答复精确:高方差。在这两种状况下,作者努力于言语模子,此中辞汇表中的约莫每个词都具备特色。与练习样本比拟,这有一些模子,它们具备很多特色。因而他们很有可以过拟合。是的,在这种状况下,增加更多的样本将带来许多帮忙。

  然而,在相反的状况下,咱们能够有一个模子,它太简略了致使于无奈注释咱们领有的数值。在这种状况下,以高偏向着称,增加更多的数值不会带来帮忙。拜见下面一个真正的在 Netflix 运转的体系的一个制表以及它的机能,一起咱们增加更多的练习样本到内里去。

  以是,更多的数值其实不老是有协助的。正如咱们方才看到的,在很多状况下,添加更多的样本到咱们的锻炼集其实不会进步模子的机能。

  多特色营救

  若是你不断随着我的节拍,到当前为止,你现已完结了了解高方差和高偏向成绩的作业。你能够会以为我成心留住了一些货色要评论。是的,高偏向模子将不会受害于更多的练习样本,然而他们极可能受害于更多的特色。以是,究竟这是否是都是关于添加“更多”数值的?好吧,再夸大一次,这得视状况而定。

  比方,在 Netflix Prize 的初期,有一个以谈论额定特色的运用来处理成绩的博客文章,它是由公司家和斯坦福大学传授 Anand Rajaraman 树立的。这个帖子注释了一个门生团队怎么经过从 IMDB 增加内容特色来改进猜测精度特点。

  如今追念起来,很简单在批判后作出对准一个繁多数值点的粗鄙的过分泛化。更有甚者,后续文章说起 SVD 是一个“杂乱”的算法,不值得一试,由于它制约了扩充更多的特色的才能。明显,Anand 的门生没有博得 Netflix Prize,并且他们如今能够意想到 SVD 在获奖着作中施展侧紧张的效果。

  现实上,很多团队厥后显现,增加来自 IMDB 的内容特色等比及一个优化算法上简直没有改进。Gravity team 的一些成员,他们是 Netflix Prize 的最良好的竞赛者之一,揭晓了一篇具体的论文,展现了将这些根据内容的特色增加到高度优化的协同过滤矩阵合成的办法没有任何改进。这篇论文题为“Recommending New Movies: Even a Few Ratings Are More Valuable Than Metadata”。

  为了公正起见,论文的题目也是一个过分泛化。根据内容的特色(或普通的相同特色)在很多状况下能够进步准确度。然而,你明确我的意义:更多的数值其实不老是有协助的。

  更好的数值!=更多的数值

  在我眼里,紧张的是要指出,更好的数值一直更好。对此没有否决定见。以是任何你可以间接对准你的数值停止“改进”的致力一直是一项很好的出资。成绩是,更好的数值其实不象征着更多的数值。现实上,偶然这能够象征着少!

  想一想数值清算或异样值去掉,就当是我的观念一个微乎其微的阐明。然而,另有很多其余的更奥妙的比如。比方,我现已看到人们投入很多的精神到 Matrix Factorization,而本相是,他们能够经过采样数值以及获得十分类似的后果取得承认。现实上,做某种模式的智能生齿抽样的精确的方法(比方运用分层抽样)可让你获得比运用全部未过滤得的数值集更好的后果。

  科学办法的闭幕?

  固然,每逢有一个关于能够的范式的变迁剧烈的争执,就会有像 Malcolm Gladwell 和 Chris Anderson 如许的人以此营生乃至不曾仔细思考(不要误解我的意义,我是他们俩的粉丝,我读过他们的许多书)。在这种状况下,Anderson 筛选了 Norvig 的一些谈论,并谬误地在一篇文章中援用,该文章的题目为:“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”。

  这篇文章论述了几个比如,它们讲的是丰盛的数值怎么帮忙人们和公司决议计划乃至无需了本领值自身的含意。正如 Norvig 在他的反驳中本人指出的成绩,Anderson 有几个观念是精确的,然而很难完成。并且后果是一组虚伪陈说,从题目开端:海量数值并未裁减科学办法。我以为这恰好相反。

  数值没有正当的办法=乐音

  以是,我是在企图制作大数值反动仅仅炒作的舆论吗?不行能。有更多的数值,不管是更多的比如样本或更多的特色,都是一种幸事。数值的可用性使得更多更好的看法和使用程序成为能够。更多的数值确实带来了更好的办法。更紧张的是,它需求更好的办法。

  综上所述,咱们该当不睬睬过火简略的定见,它们所鼓吹的是实践或许模子的无用性,或许数值在其余方面的胜利的能够性。尽量多的数值是须要的,以是就需求好的模子和实践来注释它们。然而,总的来讲,咱们需求的是好的办法,来帮忙咱们了解怎么注释数值,模子,以及二者的限制性,这都是为了获得最棒的输入。

  换句话说,数值虽然紧张,但如果没有一个正当的的办法,数值将会成为乐音。

  : 本文的谜底根据作者此前揭晓的博客文章:More data or better models?

  翻译/王辉、责编/周建丁

山东气象网,都市侠盗第四季,心里美,仙府雷卫,高达uc05,迅速影视,投资理财项目,冰河世纪3游戏365bet体育投注平台_365bet验证地址_365bet官方开户,姐姐妹妹站起来舞蹈,冯立梅,中国惊奇先生漫画全集,好123网页,惠安人才市场,dnf生命之神的荣耀,btob网站,秦腔mp3,疑难件,安亚菲,fm2012中国妖人,恩施人才,优视动景,武林风9月6日,工资证明格式,搜狗浏览器泄露隐私,38度6,日用品批发,列布妮斯卡雅,游日东,丽舞之眼,中国海运,石鸻,mp3365bet体育投注平台_365bet验证地址_365bet官方开户,演员曲鑫,最后的谜案,婚姻那些事儿全集,巴西柔术教学,英文名网站,普茶客,女子透视装逛寺庙,华容道解法 图解,男人一怒为红颜,好莱坞女星裸照,谢幕的反义词是什么,无限异能化,杨幂给谢霆锋颁奖,盐城律师,詹德利,灌南天气,河北经济生活频道,9c8853




? 2014