词频数据库 wordfreq 因AIGC宣布停止更新

横槊赋诗 · 发表于 2024-10-18 15:59:41

开源词频数据库

wordfreg 宣布停止更新

在自然语言处理和文本分析领域，了解词汇的频率是至关重要的。wordfreq 一个于 2015 年创建并开源的基于 Python 的库，它提供了超过 40 种语言的单词频率数据，让用户可以轻松地获取语言中单词的使用情况。
该开源项目的创建者和维护者 Robyn Speer 在最初创建该项目时希望通过分析百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源，追踪人们使用 40 多种不同语言的方式的不断变化，分析不断变化的语言习惯，为研究此类技术的学者们提供有用的资源。
但近日，在该项目的 GitHub 页面上的一则注释中，创建者 Robyn Speer 写道，该项目“将不再更新”。
Robyn Speer 在 2024 年 9 月 wordfreq 项目公告中写下
本文档页面近期受到大量关注，相信大多数来到这里的朋友也很清楚个中缘由。这里我要再强调几点，向来自不同来源访问链接的读者澄清以下基本情况：

我仍在开发多个开源库，包括流行的多用途 Unicode 修复程序 ftfy。

大家可以把冻结 wordfreq 数据理解成一件好事。不少人对 wordfreq 的实用性表达了认可，请别担心，计划内的最新版本仍会到来。这里我想告知大家的是，我发现版本更新会影响到项目质量，所以后续我将停止更新。这个项目将随着时间推移而过时，但至少不会变得更差。对于互联网上的项目来说，这应该是种相当体面的退场方式了！
为什么 wordfreq 不再更新
Wordfreq 数据属于一份语言快照，反映的是 2021 年之前的各种在线资源。Wordfreq 作者表示，放弃对项目更新主要出于以下几个原因：
生成式 AI 污染了该数据
在 Robyn Speer 看来，已经没人能对 2021 年之后的人类语言使用情况做出可靠的归纳和分析了。
开放网络（通过 OSCAR）一直是 wordfreq 的重要数据来源之一。现如今，整个网络充斥着大语言模型生成的垃圾信息，这些垃圾信息并非由人撰写、没有传达任何信息。盲目将这些垃圾信息包含在数据当中，只会扭曲 wordfreq 所关注的词汇使用频率。
当然，wordfreq 以往的数据源中也同样存在垃圾信息，但其尚处于可管理的水平，而且通常可以被及时发现。大语言模型生成的文本则被伪装成真实语言，貌似能够反映背后的意图——可实际情况是，其既没有意图，输出结果又沸反盈天。
以 Philip Shapira 的报告为例，其中提到 ChatGPT（OpenAI 发布的高人气生成语言模型）对“delve”一词的痴迷程度远超正常人类的范畴，并导致其总体使用频率上升了整整一个数量级。
Robyn Speer 表示，“开放式网络抓取是该项目数据来源的重要组成部分，现在整个网络充斥着由大型语言模型生成的垃圾数据，这些垃圾数据并非由任何人编写，无法传达任何信息。将这些垃圾数据纳入数据会扭曲词频。”
“以前，尽管互联网上和 Wordfreq 使用的数据集中一直存在垃圾信息，但这些垃圾信息是可控的，而且通常可以识别。大型语言模型会生成伪装成真实语言的文本，尽管其背后没有意图，而且它们的输出随处可见，”她写道。
曾经免费的信息变得愈发昂贵
在发布这份文档之前，Robyn Speer 一直在研究如何运用工具对 wordfreq 数据进行有效更新。
Wordfreq 不仅关注正式出版物中的文字，还从 Twitter 和 Reddit 两个来源收集更多的对话语言使用情况。
其中 Twitter 的数据来源始终不太稳定。尽管 Twitter 允许免费访问其部分“源头”，但使用条款仍然禁止 Robyn Speer 将这些数据分发至收集数据的公司（Luminoso）之外。Wordfreq 只能使用该数据统计词汇使用频率，但相关数据并不归 Robyn Speer 所有。
如今 Twitter 已经消失，其公共 API 也被关闭。整个网站成为寡头的玩物，变成一个充斥着垃圾邮件和右翼观点的新平台——X。换言之，即使 X 愿意提供原始数据指标（当然，他们根本就不愿意），也无法在其中找到任何有价值的信息。
Reddit 同样停止提供公共数据归档，现在他们正在以只有 OpenAI 才承受得起的价格出售这些归档资源。
受够了，我不想继续了
Robyn Speer 遗憾地表达，Wordfreq 曾经是他个人的兴趣所在。当时她正在从事语料库方面的语言学研究，相关成果也让更多自然语言处理工具能够从中获益。
但她以往所熟悉的“自然语言处理”领域现在已经愈发模糊，在很大程度上被生成式 AI 所吞噬。其他技术虽依然存在，但生成式 AI 夺取了市场的全部关注和大部分可用资金。时至今日，已经很少有自然语言处理研究能够不依赖于 OpenAI 和谷歌控制的封闭数据，这两家公司 Robyn Speer 早就鄙视它们了。
Wordfreq 是通过收集多种语言的大量许可证构建而成。这曾经是件非常合理的事情，人们支持这个项目、也可以安心使用这个项目。现如今，各种文本提取工具主要被用于训练生成式 AI，而人们则完全有理由采取防御措施。如果有人收集了大家的书籍、文章、网站或者公开帖子中的所有文本，那他们很可能正在开发一套专门抄袭的机器系统，宣称所有训练之后再生成的文字归他们所有。
于是乎，Robyn Speer 不想做任何可能跟生成式 AI 沾上关系的项目，也不想为生成式 AI 做出任何贡献。她表示：
“OpenAI 和谷歌可以继续收集他们自己的数据，而我希望他们为此付出高昂的代价。毕竟当前的混乱局面就是他们一手造成的。”
网友怎么看？
Wordfreq 的终结反映了 AIGC 技术崛起后给互联网带来的几种变化。生成式人工智能垃圾邮件正在污染互联网，而且很难过滤掉，使得发现、研究和人类互联网更加难以找到。Wordfreq 的遭遇也证实了外界曾经提出来的一个担忧，即谷歌在 Google Books 中包含人工智能生成的书籍，这会污染 Google Ngram viewer 中使用的数据，而 Google Ngram viewer 是研究人员用来追踪语言历史使用情况的重要工具。生成式人工智能公司为了牟利而从互联网上抓取数据，以创建抄袭机器，这些可怕的行为自然导致网站所有者试图阻止出于任何原因读取其网站的网络爬虫程序。这导致研究项目和 Wordfreq 等工具更难以运行，因为域名所有者更改了 robots.txt 规则以禁止抓取数据。
Wordfreq 停止更新一事在 Hacker News 平台上引发了激烈的讨论。有 Hacker News 用户认为：
网络内容已在一定程度上受到了谷歌等非正式 SEO 规则的影响，这导致了内容质量的扭曲。具体表现为，单句段落盛行、关键词被过度重复，以及对内容“可索引性”的过度追求而牺牲了可读性，使得在大型语言模型技术兴起之前，网络就已成为一种不太适合作为语言分析或信息检索纯净来源的媒介。

另一方面，博客垃圾信息虽因其他多种原因而饱受诟病，但在衡量人类撰写文本中的基本词频方面，却意外地表现出一定的参考价值。尽管这种衡量可能在特定情境下存在偏差，但对于大多数文本而言，它仍然能反映出词汇使用的普遍趋势。
也有用户认为，这种现象恰好反映了即便强大如谷歌，也改变不了互联网垃圾信息漫天飞的现状，因为它也是这一现状的背后推动者：
这一现象反映了搜索引擎算法的不断更新与 SEO 策略的不断调整之间的动态博弈。谷歌的目标是提供高质量、相关性强的搜索结果，吸引并留住用户，然后再通过广告收入实现盈利。

但谷歌的商业模式也导致了某种程度上的利益冲突。由于谷歌优化的主要指标之一是广告收入，那些充斥着广告但内容质量不高的网站，谷歌也会在某种程度上睁一只眼闭一只眼，只要这些网站能够持续吸引广告商投放广告。这种情况下，谷歌可能不会对某些臭名昭著的 SEO 参与者采取严厉行动，因为他们的存在间接促进了广告收入的增加。

横槊赋诗 · 发表于 2024-10-18 16:00:12

在人工智能时代之前，输入法其实已经部分地影响用户的偏好了。

agent124 · 发表于 2024-10-18 22:57:03

但是aigc的来源也是人类，所以其实也是在一定程度上人类语言实用的实际情况的。当然，偏差是肯定有的。
然后，人也会将aigc的输出，直接拿来或稍加修改，用于自己的语言活动中，那么这个到底算ai，还是人的语言的使用？可能到后来，人的语言和ai的语言混在一起，分不清了，或者分清也没有意义。除非ai作为一个对立的群体（机器人）存在，那区分ai的和人的，才有意义。

横槊赋诗 · 发表于 2024-10-18 23:02:02

agent124 发表于 2024-10-18 22:57
但是aigc的来源也是人类，所以其实也是在一定程度上人类语言实用的实际情况的。当然，偏差是肯定有的。
然 ...

都说“自然语言”，其实语言也没有那么自然。

只不过，频率受程序影响，比受政治社会因素影响，更难让人接受吧。

agent124 · 发表于 2024-10-18 23:05:02

横槊赋诗发表于 2024-10-18 23:02
都说“自然语言”，其实语言也没有那么自然。

不知道您的“频率”指什么，我理解这个数据库考虑的，可能是个“纯度”问题，直接人口里说出来的语言，是纯的，经过机器加工的aigc，就不纯了。

横槊赋诗 · 发表于 2024-10-18 23:07:06

agent124 发表于 2024-10-18 23:05
不知道您的“频率”指什么，我理解这个数据库考虑的，可能是个“纯度”问题，直接人口里说出来的语言，是 ...

汉语应该好得多，毕竟历史文献太多了。

不过没有人工智能的时代它就受输入法影响了，我之前看过一篇论文，分析作和做的使用频率，结尾来了一句：考虑到输入法的词库以及显示优先级，本文结论并不可信……

agent124 · 发表于 2024-10-18 23:18:44

横槊赋诗发表于 2024-10-18 23:07
汉语应该好得多，毕竟历史文献太多了。

这个也许可以看研究的目的和规定的前提或范围。似乎也可以只看最后的结果，作和做哪个用得多，这个是客观的，可以测量的。但原因大概不好分析，即使把输入法的因素考虑在内，但这个也许没法测量，不好下结论。

横槊赋诗 · 发表于 2024-10-18 23:23:02

agent124 发表于 2024-10-18 23:18
这个也许可以看研究的目的和规定的前提或范围。似乎也可以只看最后的结果，作和做哪个用得多，这个是客观 ...

做作的区别是个老问题，我写文章时除了固定的就索性规避这种说法。不过我也确实没注意输入法会影响到这一点，比如说做贼心虚，我手机输入法有两个候选，电脑只有一个。

还有一个更明显的，就是以前不少网站会在一堆简化字当中突然出现後这种繁体，包括正规政府网站，原理我不清楚。机器转换带来的别字并不少，不过它们可以认出来，所以不影响。

agent124 · 发表于 2024-10-18 23:27:17

横槊赋诗发表于 2024-10-18 23:23
做作的区别是个老问题，我写文章时除了固定的就索性规避这种说法。不过我也确实没注意输入法会影响到这一 ...

这两个字的区别好像是说得清楚的，但语言实际使用时好像经常相混。类似的，的，地，得，也差不多。毕竟语言约定俗成，如果混用越来越多，说不定就没必要去区别了，简单说通用就行。

横槊赋诗 · 发表于 2024-10-18 23:32:05

agent124 发表于 2024-10-18 23:27
这两个字的区别好像是说得清楚的，但语言实际使用时好像经常相混。类似的，的，地，得，也差不多。毕竟语 ...

三个de是规定出来的，做作的区别，吕叔湘曾以为它们分不清，不如合并？不过这样做作这个词就要废了。

二和两的区别，我略有研究，也介绍过。还有会/能/能够/可/可以这一组，也是个老问题。

agent124 · 发表于 2024-10-18 23:35:46

本帖最后由 agent124 于 2024-10-18 23:43 编辑

横槊赋诗发表于 2024-10-18 23:32
三个de是规定出来的，做作的区别，吕叔湘曾以为它们分不清，不如合并？不过这样做作这个词就要废了。

二和两感觉主要是使用习惯，没有道理好讲的。比如地域不同，使用习惯也不同。以前有个同学说十两点钟，大家都笑他，但他说他们那边就是这么说的。汉语虚词用法，以前看过陆俭明教授的书，觉得挺有意思，不过基本上都忘了，连当时做的笔记都找不到了。

英语里大概也有这样的例子。好像冠词的用法，以前看语法书，说很多也是使用习惯，没道理好讲的。

agent124 · 发表于 2024-10-18 23:45:52

能/能够/可/可以可能很多时候是个语气上的差别。语法上的差别，大概某些特定的搭配规则上有不同也说不定。印象中陆俭明教授的书里分析虚词用法差别时也是这么讲的，这个词可以用在这个地方，但不能用在那个地方，就是搭配的差别。挺有意思的。

横槊赋诗 · 发表于 2024-10-19 15:27:39

agent124 发表于 2024-10-18 23:35
二和两感觉主要是使用习惯，没有道理好讲的。比如地域不同，使用习惯也不同。以前有个同学说十两点钟，大 ...

一般来说，the表示说话人认为听话可以识别出所指的对象，a不表示这一点。当然有些情况确实不太清楚。

		自动登录	找回密码
密码			注册

[【品茶论道】] 词频数据库 wordfreq 因AIGC宣布停止更新