虽然大多数这种文件不是叫你打开看的,但有时候也耐不住有这需求[滑稽] ,在打开GB级别的txt和百万行级别的csv和xlsx时,自带的记事本和excel是很吃力的

当然网上也不缺乏这一类的专业工具哈
比如:Emedito、Hxd、Rons CSV Editor
都是使用感觉比较好的,
但是!现成工具哪有自己写一个好玩呀!
先看看效果:
代码如下:
import msvcrt from tkinter import Tk, filedialog current_file = None #### 当前打开的文件 is_paused = False #### 标记文件读取是否被中断 #### open_file() 打开文件 #### select_file() 选择文件 #### detect_encoding_and_display() 函数检测编码显示文件内容 def open_file(): global current_file, is_paused close_file() #### 关闭文件 fileName = select_file() if fileName: try: current_file = open(fileName, 'rb') detect_encoding_and_display(current_file) except IOError: print("无法打开文件:", fileName)
#### detect_encoding() 检测文件编码 #### 尝试一些常见的编码UTF-8、GBK Latin1 #### 如果无法解码内容,则返回 '?' def detect_encoding(content): encodings = ['utf-8', 'gbk', 'latin1'] for encoding in encodings: try: content.decode(encoding) return encoding except UnicodeDecodeError: continue return '?'
#### 它首先读取文件的一部分内容(100MB), #### 然后调用 detect_encoding() 检测编码 #### 检测到编码,重置暂停标记并调用 display_file_content() 显示文件内容 def detect_encoding_and_display(file): global is_paused content = file.read(100 * 1024 * 1024) if content: encoding = detect_encoding(content) file.seek(0) is_paused = False display_file_content(file, encoding)
#### display_file_content() 显示文件的内容 #### 循环读取文件内容并显示出来 #### 暂停标记被设置为 True,循环将继续等待键盘输入 #### 暂停标记设置为 True(按下 "s" 键),继续标记设置为 False(按下 "d" 键) #### 退出循环并关闭文件(按下 "w" 键) def display_file_content(file, encoding): global is_paused try: while True: if msvcrt.kbhit(): key = msvcrt.getch() if key.lower() == b's': is_paused = True print("\n已暂停......\nd - 继续读取\nw - 关闭这个文件\n:") elif key.lower() == b'd': is_paused = False elif key.lower() == b'w': close_file() print("已关闭文件,可新打开") break if is_paused: continue content = file.read(1024 * 1024) if not content: break decoded_content = content.decode(encoding, errors='replace') print(decoded_content, end='读取完毕') except UnicodeDecodeError: print("无法解码文件内容")
#### select_file() 选择文件 #### filedialog.askopenfilename() 显示对话框获取文件位置 #### 对话框中,只显示TXT、CSV和Excel def select_file(): root = Tk() root.withdraw() filetypes = (("Text files", "*.txt"), ("CSV files", "*.csv"), ("Excel files", "*.xlsx")) fileName = filedialog.askopenfilename(filetypes=filetypes) return fileName #### close_file() 关闭当前打开的文件 def close_file(): global current_file if current_file: current_file.close() current_file = None def main(): print("此程序秒开大型.txt、.csv、.xlsx文件,但是读取整个文件的时间据文件大小不定") while True: choice = input( "\na --打开文件\nq --退出程序\ns --[在读取中暂停]\nd --暂停后继续读取\nw --暂停后关闭当前文档\n>>>") if choice.lower() == 'a': open_file() elif choice.lower() == 'q': close_file() break else: print("无效选择重新输入>>>") if __name__ == "__main__": main()
最后 pyinstaller -F -i ico.ico OpenFile.py
打包成执行文件,需者自取
据测试:
完整打开一个2.25GB的SCV文件所需时间为27.54秒
完整打开一个953MB的纯数字TXT文件时竟然为57秒?!?!
显然,需要完整打开一个文件肯定要优化读取方法的,但无所谓了,我不需要打开完整的文件,我只求能秒开这个文件,在必要的时候按下s暂停查看其部分内容就行了,毕竟这么庞大的数据不经统计清洗能看出来个鸡脖子啊
原创文章,转载请标明出处