找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 544|回复: 17

[【其它】] 快速提取中文书单

[复制链接]
发表于 2023-9-12 17:47:01 | 显示全部楼层 |阅读模式
本帖最后由 kongyu2020 于 2023-9-12 17:48 编辑

当你得到一个有几百万的txt链接时,你发现很多是英文等其它语言的电子书,你只想要中文的电子书时介绍一个简单的秕量提取中文电子书方法。
首先用EmEditor软件打开txt文本(若你电脑能打开几百M的txt可不用),对txt文档进行分割成成几份小90万条的链接,复制到EXCEL文档。再复制一份用EXCEL文档数据分列,把有用的那一列数据复制到原数据EXCEL数据如B列,使用VBA函数对B列数据据提取中文,然后用EXCEL筛选功能,对B列筛选,选择空白的那个打钩,删除或剪切另存保留,取消筛选功能,删除B列,就能得到中文书单,对于几百万链接的一个小时内就能初步把中文筛选出来,方便多了。

VBA 提取单元格的中文字符的代码   htps://blog.51cto.com/u_15116285/5964602

回复

使用道具 举报

发表于 2023-9-12 19:12:04 | 显示全部楼层
所附链接给出的VBA自定义函数提取的是书名中所有的中文字符,如1.《运用Excel VBA创建高效财务管理模型_韩良智编著_11319285.pdf》结果是“运用创建高效财务管理模型韩良智编著“;2.《MicrosoftC_C++7.0运行库参考手册_美国微软公司编;张素琴,蒋维杜译_10204553.pdf》结果为”运行库参考手册美国微软公司编张素琴蒋维杜译”……似乎美中不足。
回复

使用道具 举报

 楼主| 发表于 2023-9-12 19:35:14 | 显示全部楼层
本帖最后由 kongyu2020 于 2023-9-12 19:39 编辑
X_ping 发表于 2023-9-12 19:12
所附链接给出的VBA自定义函数提取的是书名中所有的中文字符,如1.《运用Excel VBA创建高效财务管理模型_韩 ...

解决办法a和b列都是同个书名,c列对b列提取中文符,c列的结果复制数值到d列删除c列d列变c列,在对c列筛选选择空的,然后对删除它们,最后删除b,c列,就能得到a列的中文书名。因为英文或其他文字的书名的中文提取为空,不足之处日文的没办法完全删除
回复

使用道具 举报

 楼主| 发表于 2023-9-12 19:48:33 | 显示全部楼层
选筛选空的是整行删
回复

使用道具 举报

发表于 2023-9-12 20:48:19 | 显示全部楼层
外文电子书一般ss号以4打头

点评

原来还有这样的规律,你太聪明了  发表于 2023-9-12 23:33
回复

使用道具 举报

发表于 2023-9-12 23:11:03 | 显示全部楼层
感谢楼主分享
回复

使用道具 举报

发表于 2023-9-12 23:15:54 | 显示全部楼层
这个不如用python搞啊,就是难度大一点了
回复

使用道具 举报

发表于 2023-9-13 15:30:18 | 显示全部楼层
agent124 发表于 2023-9-12 20:48
外文电子书一般ss号以4打头

感謝提醒技術八卦
回复

使用道具 举报

发表于 2023-9-13 17:05:17 | 显示全部楼层
python 正则表达
回复

使用道具 举报

发表于 2023-9-14 20:05:32 | 显示全部楼层

用正则处理确实方便
回复

使用道具 举报

发表于 2023-9-14 20:24:45 | 显示全部楼层
本地构建mysql数据库,用Navicat Premium 16 导入单行...然后用数据库正则查询....其实也很快的。
回复

使用道具 举报

发表于 2023-9-15 07:45:27 | 显示全部楼层
access就能解决。。。
回复

使用道具 举报

发表于 2023-9-15 08:05:02 | 显示全部楼层
cia1568 发表于 2023-9-15 07:45
access就能解决。。。

access处理百万级的数据,不知道性能怎么样
回复

使用道具 举报

发表于 2023-9-15 10:22:29 | 显示全部楼层
agent124 发表于 2023-9-15 08:05
access处理百万级的数据,不知道性能怎么样

看电脑性能,比EXCEL快多了,我处理过百万级的数据

回复

使用道具 举报

发表于 2023-9-15 10:24:36 | 显示全部楼层
agent124 发表于 2023-9-15 08:05
access处理百万级的数据,不知道性能怎么样

我用xlsx写过三角函数表,好像最后有几个G
回复

使用道具 举报

发表于 2023-9-15 10:32:17 | 显示全部楼层
cia1568 发表于 2023-9-15 10:22
看电脑性能,比EXCEL快多了,我处理过百万级的数据

access的性能可能不如mysql
回复

使用道具 举报

发表于 2023-9-15 10:32:39 | 显示全部楼层
横槊赋诗 发表于 2023-9-15 10:24
我用xlsx写过三角函数表,好像最后有几个G

性能可能有问题
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-4-28 23:30 , Processed in 0.437936 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表