kongyu2020 发表于 2023-9-12 17:47:01

快速提取中文书单

本帖最后由 kongyu2020 于 2023-9-12 17:48 编辑

当你得到一个有几百万的txt链接时,你发现很多是英文等其它语言的电子书,你只想要中文的电子书时介绍一个简单的秕量提取中文电子书方法。
首先用EmEditor软件打开txt文本(若你电脑能打开几百M的txt可不用),对txt文档进行分割成成几份小90万条的链接,复制到EXCEL文档。再复制一份用EXCEL文档数据分列,把有用的那一列数据复制到原数据EXCEL数据如B列,使用VBA函数对B列数据据提取中文,然后用EXCEL筛选功能,对B列筛选,选择空白的那个打钩,删除或剪切另存保留,取消筛选功能,删除B列,就能得到中文书单,对于几百万链接的一个小时内就能初步把中文筛选出来,方便多了。

附 VBA 提取单元格的中文字符的代码   htps://blog.51cto.com/u_15116285/5964602

X_ping 发表于 2023-9-12 19:12:04

所附链接给出的VBA自定义函数提取的是书名中所有的中文字符,如1.《运用Excel VBA创建高效财务管理模型_韩良智编著_11319285.pdf》结果是“运用创建高效财务管理模型韩良智编著“;2.《MicrosoftC_C++7.0运行库参考手册_美国微软公司编;张素琴,蒋维杜译_10204553.pdf》结果为”运行库参考手册美国微软公司编张素琴蒋维杜译”……似乎美中不足。

kongyu2020 发表于 2023-9-12 19:35:14

本帖最后由 kongyu2020 于 2023-9-12 19:39 编辑

X_ping 发表于 2023-9-12 19:12
所附链接给出的VBA自定义函数提取的是书名中所有的中文字符,如1.《运用Excel VBA创建高效财务管理模型_韩 ...
解决办法a和b列都是同个书名,c列对b列提取中文符,c列的结果复制数值到d列删除c列d列变c列,在对c列筛选选择空的,然后对删除它们,最后删除b,c列,就能得到a列的中文书名。因为英文或其他文字的书名的中文提取为空,不足之处日文的没办法完全删除

kongyu2020 发表于 2023-9-12 19:48:33

选筛选空的是整行删

agent124 发表于 2023-9-12 20:48:19

外文电子书一般ss号以4打头

NMR 发表于 2023-9-12 23:11:03

感谢楼主分享

三叶草 发表于 2023-9-12 23:15:54

这个不如用python搞啊,就是难度大一点了

eisbergeisberg 发表于 2023-9-13 15:30:18

agent124 发表于 2023-9-12 20:48
外文电子书一般ss号以4打头

感謝提醒技術八卦

humire 发表于 2023-9-13 17:05:17

python 正则表达

aabbccli 发表于 2023-9-14 20:05:32

humire 发表于 2023-9-13 17:05
python 正则表达

用正则处理确实方便

乐天无极 发表于 2023-9-14 20:24:45

本地构建mysql数据库,用Navicat Premium 16 导入单行...然后用数据库正则查询....其实也很快的。

cia1568 发表于 2023-9-15 07:45:27

access就能解决。。。

agent124 发表于 2023-9-15 08:05:02

cia1568 发表于 2023-9-15 07:45
access就能解决。。。

access处理百万级的数据,不知道性能怎么样

cia1568 发表于 2023-9-15 10:22:29

agent124 发表于 2023-9-15 08:05
access处理百万级的数据,不知道性能怎么样

看电脑性能,比EXCEL快多了,我处理过百万级的数据

横槊赋诗 发表于 2023-9-15 10:24:36

agent124 发表于 2023-9-15 08:05
access处理百万级的数据,不知道性能怎么样

我用xlsx写过三角函数表,好像最后有几个G

agent124 发表于 2023-9-15 10:32:17

cia1568 发表于 2023-9-15 10:22
看电脑性能,比EXCEL快多了,我处理过百万级的数据

access的性能可能不如mysql

agent124 发表于 2023-9-15 10:32:39

横槊赋诗 发表于 2023-9-15 10:24
我用xlsx写过三角函数表,好像最后有几个G

性能可能有问题
页: [1]
查看完整版本: 快速提取中文书单