◇◇新语丝(www.xys.org)(xinyusi.us)(groups.google.com/group/xinyusi)◇◇   两个被中国人玩坏的AI研究方向:ELM和Metaheuris   作者:杜克林   几年前开始,中国发表的学术论文的数量就已经是世界第一,论文自引数量 也世界第一。中国的论文就如同中国的商品在国际上的声誉一样,只有极少数的 领域有前沿的成果。从本人的实践中,在AI领域有两个研究方向已经被中国人玩 坏,不吐不快。   第一个是ELM(Extreme Learning Machine, 极限学习机)。ELM在2004年 由新加坡国立大学的G.B. Huang提出来的时候,本人就觉得它就是RBF网络的特 殊情况,只是把输入层的权重和RBF中心随机初始化,然后把输出层的权重解出来, 实际上是解一个线性方程组,用一个伪逆操作即可完成。由于不需要输入层权重 和RBF中心的调节,所以只要求出矩阵的伪逆,一步给出结果。作者发现用这种方 法,比BP模型和SVM模型快1000倍。作者把这个trick 称为极限学习机。   实际上,这个方法的思想是把一个含有大量冗余的模型的大量模型参数随机 化或固化的方法,然后用其中的很少的参数对数据进行拟合。这种想法在1980年 代后在各种模型中都有采用,没有什么新意,仅仅是一个小技巧而已。   ELM的作者随即如获至宝,开始到中国大力推广ELM,并连续10多年在一些著 名的国际会议上召集国际专题会,投稿人基本上都是中国大陆的作者,其中不乏 清华大学,浙江大学,中国科学院的作者。据估计,应该有数千篇有关ELM的论文 发表,不乏IEEE Transactions on Neural Networks and Learning Systems, Neural Networks等期刊上的论文。这些期刊的编委会成员主要也是华人。俨然 ELM被国际学术界广泛接受的样子。   但是早在10年前,深度学习的奠基人 Y. LeCun就公开在社交媒体上批评这个 模型,说它对机器学习领域没有贡献,早在1958年就被神经网络领域的奠基人就 研究过,却有大量中国最优秀的研究生在从事这种东西的研究,觉得不可思议。 后来,LeCun对媒体说,“ELM is officially a fraud.” (https://actorsfit.com/a?ID=e170d2e1-62f6-43e0-9b64-f6510be36803)   在2014年前后,我的邮箱中收到了G.B. Huang群发的email,说有个叫Wang 的人对他的ELM进行抹黑,并进一步为他的ELM辩解。随后过了几天,我又收到一 封匿名的群发邮件,标题是ELM丑闻。   在过去10多年中,我遇到很多中国研究生对ELM非常膜拜,这些中国研究生容 不得任何人说ELM不好。我也看到无数中国学者发表无数的有关ELM的论文,也看 到了西安一个非常高产的中科院院士,在IEEE Transactions on Neural Networks and Learning Systems 发表了两篇连载论文来分析ELM模型,得出一些无关痛 痒的结论。我也看到了G.B. Huang 成为AI领域被引用排名前几的科学家。   我和国内的在AI领域有实力的朋友聊及此事,对方答曰:在中国没有真正的 原创研究,大部分人都在跟风,不管是清华,浙大还是中科院。不管是不是原创, 只要能够发表论文就可了。所以从这个角度来看,国内的考核制度,只能制造出 越来越多的水货论文。   其实,早在2015年知乎上就有人讨论ELM,基本上都是一致认为这个东西没 有什么贡献(https://www.zhihu.com/question/28810567),和Y. LeCun 的观点基本一致,说明国内的很多学者还是清醒的。但是持有这些观点的个体只 能匿名非主流,在数千篇相关论文的中国作者面前只能是边缘人。   最近有朋友要我帮一个在国内顶尖大学做研究的硕士生修改一篇ELM论文, 在她的30多篇参考文献中,有关ELM的30多篇参考文献全是中国大陆学者发表在 IEEE等高级别期刊上,而且无一例外都是中国大陆学者,所以这些研究都是在中 国进行的。我只是对学生提出一些修改意见,学生基本上都不予理睬,答复说她 的用法是目前的主流论文的用法。鉴于她的所有参考文献都是中国大陆作者的发 表的ELM相关的论文,她说的主流论文毫无疑问就是中国大陆学者的论文。这种 东西也都成了主流,不知道是学生对自己过于自信,还是被ELM的民族自豪感洗 坏了脑子(全世界基本上只有中国人研究ELM,G.B. Huang也是从中国出去的, 是中国人独创的)。所以,对学者的评价,不能光看发表的期刊的级别和引用数, 也要看国际同行的评审意见。否则,你的自豪成为国际上的笑话。   另一个被中国人玩坏的研究领域是Metaheuristics(启发式优化)。作为 Scientific Reports的编委,我负责机器学习和自然计算的论文的评审和协调。 我经常收到来自中国的关于某种启发式优化的投稿,在选择审稿人时,我发现, 在系统推荐的数百个审稿人中,这些推荐的审稿人都是过去发表过相关的期刊论 文,80%以上都是的工作单位是中国大陆 ,另外的基本上都是台湾人,韩国人, 和海外的大陆人,还有几位伊朗人和埃及人,我几乎没看到有发达国家的非华人 从事这种研究。这些启发式优化方法,基本上根据某种动物的捕食或交配等策略 现象,或某种自然或物理现象,或某种人类的思维方式等设计一种简单策略来解 决优化问题。在早期,这种方法还有一定的新颖性,但是如今,世界上各种动物、 各种植物、山川湖海、物理原理、基本粒子、各种宗教,等等等等,实在繁多, 都有人受启发来发表论文。如果继续下去,加上这些策略的组合,可以发表的论 文数量是无限的。这种可以开发无限种方法的Metaheuristics,如今实在是被玩 坏了。   一个相似的例子是,蛋白质结构的解析,早前让中国人极为自豪的海归明星 科学家施一公、颜宁等的实验室,每年解析一些蛋白质,发表一些CNS论文。但是 自从2021年,Google子公司DeepMind开发的AlphaFold解析了这个星球上100多 万种生物的2亿多个蛋白质结构,而且精度优于人工实验解释的结果,施一公和颜 宁也只能够改行,都回国做学官。后来,Meta公司也推出了软件解析了6亿多种蛋 白质。所以,AI让大量的这种原创性不强的科学家失业了。   目前正处于AI热潮中,机器学习模型的各种要素的各种组合,或者对某个数据 进行计算的一道研究生作业题,也都大量被用来发表学术论文。总而言之,大量低 水平的论文吞噬了中国学者的研究经费和年轻学者的劳动力。除了产生一些虚假的 学术GDP以外,对提升中国在研究水平并无益处。 (XYS20231008) ◇◇新语丝(www.xys.org)(xinyusi.us)(groups.google.com/group/xinyusi)◇◇