快速提取中文书单-网上读书园地 - Powered by Discuz! Archiver

kongyu2020 发表于 2023-9-12 17:47:01

快速提取中文书单

本帖最后由 kongyu2020 于 2023-9-12 17:48 编辑

当你得到一个有几百万的txt链接时，你发现很多是英文等其它语言的电子书，你只想要中文的电子书时介绍一个简单的秕量提取中文电子书方法。
首先用EmEditor软件打开txt文本（若你电脑能打开几百M的txt可不用），对txt文档进行分割成成几份小90万条的链接，复制到EXCEL文档。再复制一份用EXCEL文档数据分列，把有用的那一列数据复制到原数据EXCEL数据如B列，使用VBA函数对B列数据据提取中文，然后用EXCEL筛选功能，对B列筛选，选择空白的那个打钩，删除或剪切另存保留，取消筛选功能，删除B列，就能得到中文书单，对于几百万链接的一个小时内就能初步把中文筛选出来，方便多了。

附 VBA 提取单元格的中文字符的代码 htps://blog.51cto.com/u_15116285/5964602

X_ping 发表于 2023-9-12 19:12:04

所附链接给出的VBA自定义函数提取的是书名中所有的中文字符，如1.《运用Excel VBA创建高效财务管理模型_韩良智编著_11319285.pdf》结果是“运用创建高效财务管理模型韩良智编著“；2.《MicrosoftC_C++7.0运行库参考手册_美国微软公司编；张素琴，蒋维杜译_10204553.pdf》结果为”运行库参考手册美国微软公司编张素琴蒋维杜译”……似乎美中不足。

kongyu2020 发表于 2023-9-12 19:35:14

本帖最后由 kongyu2020 于 2023-9-12 19:39 编辑

X_ping 发表于 2023-9-12 19:12
所附链接给出的VBA自定义函数提取的是书名中所有的中文字符，如1.《运用Excel VBA创建高效财务管理模型_韩 ...
解决办法a和b列都是同个书名，c列对b列提取中文符，c列的结果复制数值到d列删除c列d列变c列，在对c列筛选选择空的，然后对删除它们,最后删除b,c列，就能得到a列的中文书名。因为英文或其他文字的书名的中文提取为空，不足之处日文的没办法完全删除

kongyu2020 发表于 2023-9-12 19:48:33

选筛选空的是整行删

agent124 发表于 2023-9-12 20:48:19

外文电子书一般ss号以4打头

NMR 发表于 2023-9-12 23:11:03

感谢楼主分享

三叶草 发表于 2023-9-12 23:15:54

这个不如用python搞啊，就是难度大一点了

eisbergeisberg 发表于 2023-9-13 15:30:18

agent124 发表于 2023-9-12 20:48
外文电子书一般ss号以4打头

感謝提醒技術八卦

humire 发表于 2023-9-13 17:05:17

python 正则表达

aabbccli 发表于 2023-9-14 20:05:32

humire 发表于 2023-9-13 17:05
python 正则表达

用正则处理确实方便

乐天无极 发表于 2023-9-14 20:24:45

本地构建mysql数据库，用Navicat Premium 16 导入单行...然后用数据库正则查询....其实也很快的。

cia1568 发表于 2023-9-15 07:45:27

access就能解决。。。

agent124 发表于 2023-9-15 08:05:02

cia1568 发表于 2023-9-15 07:45
access就能解决。。。

access处理百万级的数据，不知道性能怎么样

cia1568 发表于 2023-9-15 10:22:29

agent124 发表于 2023-9-15 08:05
access处理百万级的数据，不知道性能怎么样

看电脑性能，比EXCEL快多了，我处理过百万级的数据

横槊赋诗 发表于 2023-9-15 10:24:36

agent124 发表于 2023-9-15 08:05
access处理百万级的数据，不知道性能怎么样

我用xlsx写过三角函数表，好像最后有几个G

agent124 发表于 2023-9-15 10:32:17

cia1568 发表于 2023-9-15 10:22
看电脑性能，比EXCEL快多了，我处理过百万级的数据

access的性能可能不如mysql

agent124 发表于 2023-9-15 10:32:39

横槊赋诗发表于 2023-9-15 10:24
我用xlsx写过三角函数表，好像最后有几个G

性能可能有问题

页: [1]

网上读书园地's Archiver

快速提取中文书单