前沿科技:探索社交媒体中可拉伸字词的使用

导读 互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天

互联网是高科技的产物,是历史发展、社会进步、人类智慧的结晶;是人类迄今所拥有的容量最大、内容最广、传递速度最快的信息中心。全球每天有四亿人使用互联网,上网人数占世界人口的百分之6.互联网为我们了解时事、学习知识、与人沟通、休闲娱乐等提供了便捷的条件,接下来这篇文章给大家说说互联网科技的一角。

对Twitter消息的调查揭示了用于研究人们如何使用延伸词(例如“ duuuuude”,“ heyyyyy”或“ noooooooo”)的新见解和工具。伯灵顿佛蒙特大学的Tyler Gray及其同事在2020年5月27日的开放获取期刊PLOS ONE中介绍了这些发现。

在口语和书面语中,延伸的单词可以修改单词的含义。例如,“ suuuuure”可能表示讽刺,而“ yeeesssss”可能表示兴奋。延伸的单词在正式写作中很少见,但是社交媒体的兴起为学习它们提供了新的机会。

Gray和他的同事现在已经完成了迄今为止社交媒体中“可拉伸”单词的最全面研究。他们开发了一种新的,更彻底的策略来识别推文中的拉伸单词,并使用它来分析随机选择的数据集,该数据集约占2008年9月至2016年12月之间生成的所有推文的10%,总计约1000亿条推文。

研究人员在推文中识别出数千个“可拉伸”单词,包括“ ha”(例如“ haha​​ha”或“ haaahaha”),“ awesome”(例如“ awessssommmmmeeeeeeee”)和“ goal”(例如ggggoooooaaaaallllll)。

他们还确定了衡量可伸展单词特征的两种关键方法:平衡和伸展。平衡是指不同字母倾向于重复的程度。例如,“ ha”具有很高的平衡度,因为在拉伸时,“ h”和“ a”倾向于几乎相等地重复。“目标”的平衡性较差,“ o”比单词中的其他字母重复的次数多。

拉伸是指一个单词倾向于被拉伸多长时间。例如,简短的单词或听起来像“哈”的声音具有很高的延伸度,因为人们经常重复多次(例如“哈哈哈哈哈哈哈哈”)。同时,“无穷大”之类的常规词的拉伸程度较低,通常仅重复一个字母:“无穷大”。

为了进行此分析,研究人员开发了可用于将来的可拉伸单词研究的各种工具和方法,例如对错误键入和拼写错误的调查。该工具还可用于改善自然语言处理,搜索引擎和垃圾邮件过滤器

作者补充说:“我们能够全面收集和计算'gooooooaaaalll'和'hahahaha'这样的拉伸词,并在整体拉伸性和拉伸平衡性的两个维度上进行映射,同时开发新的工具,这也将有助于它们的持续发展。语言研究,以及其他领域,例如语言处理,扩充词典,改进搜索引擎,分析序列的构造等等。”