- ·上一篇文章:如何做好新用户激励?以美团等为例
- ·下一篇文章:武汉荣耀7X经典老款秒杀新畅享8仅1110元
说“快乐”还是“安康”?如何在不抬杠的情况下用AI搞定这问题
原标题:说“快乐”还是“安康”?如何在不抬杠的情况下用AI搞定这问题祝大家端午节快乐,我们今天要聊的…..什么?不能说快乐了?显得没文化?哦,那祝大家端午节安康,咱们今天……什么?端午节安康都是一群营销号瞎忽悠的,相信他们还是没文化?到底还能不能好好说话了?要不我干脆祝大家端午节多吃月饼得了?放眼望去,这个折腾了几年,某种程度上近乎于闹剧的“端午节安康”问题,在今年非但没有停下来的意思,反而矛盾愈演愈烈,一时间好不热闹。也不知道是不是已经有了“安康快乐对骂群”,反正整体上是感觉这事挺耽误大家吃粽子的时间的。在我们这行业看来,当然是一切能动科技的都别瞎吵吵。既然到了相持不下的境地,是不是可以考虑用相对公允的方式来解决无止境的争论呢?毕竟安康派和保快乐党都说自己是传统文化,既然是传统总归是有据可循的。今天是个思古的日子,不妨让我们从安康和快乐的问题开始,来聊聊AI+考据的“怀古之思”。到底争的是什么?安康派之所以诞生,是因为前两年突然朋友圈里有这么个说法火了:端午节是纪念屈原,或者纪念伍子胥、纪念曹娥的。总之这是个祭祀和哀伤的日子,不能说快乐。这个说法很快流行起来,比如今天大部分明星发的端午节微博,似乎“安康”已经成了标准说法。根据凡事必有反转的互联网定律,随后也有人认为这种说法纯属无稽之谈。端午节快乐说了那么多年,我想快乐就快乐还用你批准?于是,争论最终很自然地变成了争吵,两边都觉得自己是更符合传统文化的一方。首先笔者非常想要感慨的是,整个话题中最大成分只是营销号恶意蹭流量,以及广大网友们进行喜闻乐见的“抬杠运动”,真没什么意思。而实事求是地说,现在能找到最早过端午节传统的记载,是唐代《艺文类聚》保留《续齐谐志》中南朝时期的民间节日风俗,在端午这天为纪念屈原而系五彩绳、包粽子。换言之端午节最早出现在可追溯的历史文本中,它就是以一个有吃有玩的节日出现的。而早期文本,比如出现屈原其人其事的《史记》,据说为屈原创作的《楚辞》,都没有过任何五月初五相关的记载。作为一个节日的端午,自然也承担着一个节日的气氛和话语定位。唐宋时对端午节、端阳节的记载,也基本是把酒言欢为主。当然这是个追怀的日子,但也没见过一定要在这个日子肃穆庄严的记载。很多历史学教授专家,也对安康说不屑一顾。话说回来,重阳是避灾躲难的,那也有“佳节又重阳”。而今天肯定没有人祝邻居“清明节快乐”,但在古人来看清明本就是郊游玩赏值得开心的日子。程颢《郊行即事》是这么说的,“莫辞盏酒十分劝,只恐风花一片飞。况是清明好天气,不妨游衍莫忘归”。或许可以这么说,所谓的中华传统,远比我们今天的互联网氛围宽怀大度的多。好吧,一不小心暴露了立场。但是我们还是要强行回归中立客观:既然你有你的道理,我有我的道理,那到底怎么能彼此不抬杠呢?或许AI可以在这里刷一个助攻。既然整个安康和快乐之争,争论的核心是:固定文本环境中(代表中国历史传统的文本数据,包括但不限于经史古籍),某种涵指解读(端午节到底是不是值得庆祝的)的正确性。那么用把所有相关数据都找出来,判断一下古人到底能不能在这天快乐,似乎就是解决方案了。AI搞清“端午到底快不快乐”实现方法或许有人会说,这事好像用不着AI,把古籍数据里的端午节记载都搜出来。一看不就知道了吗?想法固然是好的,但现实从来都很骨感。首先中国古籍系统当中,《四库全书》所代表的经史系统其实只是很小一部分。各种文书、档案、民间文本、吉金、出土资料,加在一起汗牛充栋都不止。假如只是用关键词搜索,或者只是用部分古籍库来完成文本方式,那么肯定无法完成完全的数据统计,从而得到的结果当然也就片面。假如我们搜找了100个“端午快乐”的数据源,但是安康派认为还有200个反例没找到,那岂不是白忙?而假如面对全部古籍数据(包括未电子化数据),来进行一个问题的全面求证。那么人力是完全无法负担的,而且也一定会有大量纰漏。比如说有些小众的端午节说法、隐晦的端午节记载描述难以被人发现。而且群体工作也很难形成对端午节到底是不是端康的准确标准。假如让AI进场,至少可以解决这样几个问题:1、确定我们要分辨的问题“端午节到底是值得庆祝的,还是反之”以后,我们可以用机器学习的方式输入大量双方观点,来形成对端午节到底应该怎么过的标准化描述。基于文本来抽取关键节点,从而准确判断一条古人过端午的记载到底是快乐的还是不能快乐。2、非标准文本的识别。如今OCR等识别技术,已经广泛被应用到金石资料、敦煌文献、手写文档的识别中。如果我们想最大程度搞定到底端午是否快乐,就无法离开对非标准文本的识别工作,传统的文本录入方式完全是基于手工大字。早期很多中文古籍库还是以众包的方式交给本科生来录入,造成讹误百出。AI来做这些,显然在效率和准确度上都已经有了技术保障。3、弹性判断相关数据。人工判断端文本特征的时候,很可能会漏掉一些不常见描述,很多时候这不是因为研究人员不知道这件事,而是由于大脑的选择性记忆误差,天然会漏掉不那么敏感的说法。而AI的优点是可以弹性判断相关数据,比如不说端午节,而是端阳,午日,重五,女儿节,浴兰,地腊等字眼,或者非关键词的描述形式,都可以有效处理。4、综合感知,判断“良品率”。工业互联网技术中,一个很常见的方式是机器视觉加传感器,来综合判断出产品的质量。通过复杂的算法模型,最终得出是否良品的确定性标准。在文本温习中,类似使用GAN等算法来进行语义分析,判断一个语句含义归属的方式,显然也是可行的。比如上文中“喜逢佳节,端午良辰”,这个说法显然就是“端午快乐”。其实吧,以上只是个例子,也没有谁会较真到去大张旗鼓统计端午到底快不快乐。这些技术的真正内涵,是一个人文学术与AI的交叉点:AI考据。比抬杠重要:AI带给文本考据的机会与挑战AI与考据的结合,显然比端午节问候的抬杠重要很多。这项技术在今天世界范围内还属于刚刚起步的阶段,但绝对不是无中生有。在AI考据之前,是很多人熟悉的“E考据”概念。这个解决方案是以互联网和大数据为基础,从古籍电子化开始,用相对人力更有效率的方式来透视人文文本,甚至得出不一样的结论与分析逻辑。
说“快乐”还是“安康”?如何在不抬杠的情况下用AI搞定这问题