快速提取中文书单
本帖最后由 kongyu2020 于 2023-9-12 17:48 编辑当你得到一个有几百万的txt链接时,你发现很多是英文等其它语言的电子书,你只想要中文的电子书时介绍一个简单的秕量提取中文电子书方法。
首先用EmEditor软件打开txt文本(若你电脑能打开几百M的txt可不用),对txt文档进行分割成成几份小90万条的链接,复制到EXCEL文档。再复制一份用EXCEL文档数据分列,把有用的那一列数据复制到原数据EXCEL数据如B列,使用VBA函数对B列数据据提取中文,然后用EXCEL筛选功能,对B列筛选,选择空白的那个打钩,删除或剪切另存保留,取消筛选功能,删除B列,就能得到中文书单,对于几百万链接的一个小时内就能初步把中文筛选出来,方便多了。
附 VBA 提取单元格的中文字符的代码 htps://blog.51cto.com/u_15116285/5964602
所附链接给出的VBA自定义函数提取的是书名中所有的中文字符,如1.《运用Excel VBA创建高效财务管理模型_韩良智编著_11319285.pdf》结果是“运用创建高效财务管理模型韩良智编著“;2.《MicrosoftC_C++7.0运行库参考手册_美国微软公司编;张素琴,蒋维杜译_10204553.pdf》结果为”运行库参考手册美国微软公司编张素琴蒋维杜译”……似乎美中不足。 本帖最后由 kongyu2020 于 2023-9-12 19:39 编辑
X_ping 发表于 2023-9-12 19:12
所附链接给出的VBA自定义函数提取的是书名中所有的中文字符,如1.《运用Excel VBA创建高效财务管理模型_韩 ...
解决办法a和b列都是同个书名,c列对b列提取中文符,c列的结果复制数值到d列删除c列d列变c列,在对c列筛选选择空的,然后对删除它们,最后删除b,c列,就能得到a列的中文书名。因为英文或其他文字的书名的中文提取为空,不足之处日文的没办法完全删除
选筛选空的是整行删 外文电子书一般ss号以4打头 感谢楼主分享
这个不如用python搞啊,就是难度大一点了
agent124 发表于 2023-9-12 20:48
外文电子书一般ss号以4打头
感謝提醒技術八卦
python 正则表达 humire 发表于 2023-9-13 17:05
python 正则表达
用正则处理确实方便
本地构建mysql数据库,用Navicat Premium 16 导入单行...然后用数据库正则查询....其实也很快的。 access就能解决。。。 cia1568 发表于 2023-9-15 07:45
access就能解决。。。
access处理百万级的数据,不知道性能怎么样
agent124 发表于 2023-9-15 08:05
access处理百万级的数据,不知道性能怎么样
看电脑性能,比EXCEL快多了,我处理过百万级的数据
agent124 发表于 2023-9-15 08:05
access处理百万级的数据,不知道性能怎么样
我用xlsx写过三角函数表,好像最后有几个G
cia1568 发表于 2023-9-15 10:22
看电脑性能,比EXCEL快多了,我处理过百万级的数据
access的性能可能不如mysql
横槊赋诗 发表于 2023-9-15 10:24
我用xlsx写过三角函数表,好像最后有几个G
性能可能有问题
页:
[1]