编写python代码秒开GB级别的txt和.csv或.xlsx

虽然大多数这种文件不是叫你打开看的,但有时候也耐不住有这需求[滑稽] ,在打开GB级别的txt和百万行级别的csv和xlsx时,自带的记事本和excel是很吃力的

当然网上也不缺乏这一类的专业工具哈
比如:EmeditoHxdRons CSV Editor
都是使用感觉比较好的,

但是!现成工具哪有自己写一个好玩呀!

先看看效果:

代码如下:

import msvcrt
from tkinter import Tk, filedialog

current_file = None  #### 当前打开的文件
is_paused = False  #### 标记文件读取是否被中断

#### open_file() 打开文件
#### select_file() 选择文件
#### detect_encoding_and_display() 函数检测编码显示文件内容
def open_file():
    global current_file, is_paused
    close_file()  #### 关闭文件

    fileName = select_file()
    if fileName:
        try:
            current_file = open(fileName, 'rb')
            detect_encoding_and_display(current_file)
        except IOError:
            print("无法打开文件:", fileName)
#### detect_encoding() 检测文件编码
#### 尝试一些常见的编码UTF-8、GBK  Latin1
#### 如果无法解码内容,则返回 '?'
def detect_encoding(content): 
    encodings = ['utf-8', 'gbk', 'latin1']
    for encoding in encodings:
        try:
            content.decode(encoding)
            return encoding
        except UnicodeDecodeError:
            continue
    return '?'  
#### 它首先读取文件的一部分内容(100MB),
#### 然后调用 detect_encoding() 检测编码
#### 检测到编码,重置暂停标记并调用 display_file_content() 显示文件内容
def detect_encoding_and_display(file): 
    global is_paused
    content = file.read(100 * 1024 * 1024)
    if content:
        encoding = detect_encoding(content) 
        file.seek(0)
        is_paused = False
        display_file_content(file, encoding)
#### display_file_content() 显示文件的内容
#### 循环读取文件内容并显示出来
#### 暂停标记被设置为 True,循环将继续等待键盘输入
#### 暂停标记设置为 True(按下 "s" 键),继续标记设置为 False(按下 "d" 键)
#### 退出循环并关闭文件(按下 "w" 键)
def display_file_content(file, encoding):
    global is_paused
    try:
        while True:
            if msvcrt.kbhit():
                key = msvcrt.getch()
                if key.lower() == b's':
                    is_paused = True
                    print("\n已暂停......\nd - 继续读取\nw - 关闭这个文件\n:")
                elif key.lower() == b'd':
                    is_paused = False
                elif key.lower() == b'w':
                    close_file()
                    print("已关闭文件,可新打开")
                    break
            if is_paused:
                continue
            content = file.read(1024 * 1024)
            if not content:
                break
            decoded_content = content.decode(encoding, errors='replace')
            print(decoded_content, end='读取完毕')
    except UnicodeDecodeError:
        print("无法解码文件内容")
#### select_file() 选择文件
#### filedialog.askopenfilename() 显示对话框获取文件位置
#### 对话框中,只显示TXT、CSV和Excel
def select_file():
    root = Tk()
    root.withdraw()
    filetypes = (("Text files", "*.txt"), ("CSV files", "*.csv"), ("Excel files", "*.xlsx"))
    fileName = filedialog.askopenfilename(filetypes=filetypes)
    return fileName


#### close_file() 关闭当前打开的文件
def close_file():
    global current_file
    if current_file:
        current_file.close()
        current_file = None


def main():
    print("此程序秒开大型.txt、.csv、.xlsx文件,但是读取整个文件的时间据文件大小不定")
    while True:
        choice = input(
            "\na    --打开文件\nq    --退出程序\ns    --[在读取中暂停]\nd    --暂停后继续读取\nw    --暂停后关闭当前文档\n>>>")
        if choice.lower() == 'a':
            open_file()
        elif choice.lower() == 'q':
            close_file()
            break
        else:
            print("无效选择重新输入>>>")


if __name__ == "__main__":
    main()

 

最后 pyinstaller -F -i ico.ico OpenFile.py
打包成执行文件,需者自取

OpenFile:未安装python环境也可运行

据测试:
完整打开一个2.25GB的SCV文件所需时间为27.54秒
完整打开一个953MB的纯数字TXT文件时竟然为57秒?!?!

显然,需要完整打开一个文件肯定要优化读取方法的,但无所谓了,我不需要打开完整的文件,我只求能秒开这个文件,在必要的时候按下s暂停查看其部分内容就行了,毕竟这么庞大的数据不经统计清洗能看出来个鸡脖子啊

 

 

原创文章,转载请标明出处