Spaces:

suprimedev
/

filereader

Sleeping

App Files Files Community

suprimedev commited on Sep 19, 2025

Commit

750e443

verified ·

1 Parent(s): c487172

Create app.py

Browse files

Files changed (1) hide show

app.py +156 -0

app.py ADDED Viewed

	@@ -0,0 +1,156 @@

+import gradio as gr
+import chardet
+import mimetypes
+import pandas as pd
+import json
+import yaml
+import toml
+import configparser
+import xml.etree.ElementTree as ET
+from pathlib import Path
+def read_file(file):
+    if file is None:
+        return "لطفا یک فایل انتخاب کنید"
+    try:
+        file_path = file.name
+        file_extension = Path(file_path).suffix.lower().strip('.')
+        # ابتدا با MIME type بررسی می‌کنیم
+        mime_type, _ = mimetypes.guess_type(file_path)
+        # اگر فایل صوتی یا تصویری باشد
+        if mime_type and (mime_type.startswith('audio/') or mime_type.startswith('image/') or mime_type.startswith('video/')):
+            return f"فایل‌های صوتی، تصویری و ویدیویی پشتیبانی نمی‌شوند. (MIME: {mime_type})"
+        # فایل‌های باینری معروف که نباید خوانده شوند
+        binary_extensions = {
+            'exe', 'dll', 'so', 'dylib', 'bin', 'dat', 'db', 'sqlite',
+            'zip', 'rar', '7z', 'tar', 'gz', 'bz2', 'xz',
+            'jpg', 'jpeg', 'png', 'gif', 'bmp', 'ico', 'svg', 'webp',
+            'mp3', 'mp4', 'avi', 'mkv', 'mov', 'wmv', 'flv', 'webm',
+            'wav', 'flac', 'aac', 'ogg', 'wma', 'm4a',
+            'pdf', 'doc', 'ppt', 'pptx', 'odt', 'ods', 'odp'
+        }
+        if file_extension in binary_extensions:
+            return f"فرمت فایل .{file_extension} یک فایل باینری است و پشتیبانی نمی‌شود"
+        # فایل‌های Excel
+        if file_extension in ['xlsx', 'xls', 'xlsm', 'xlsb']:
+            df = pd.read_excel(file_path)
+            return f"=== محتوای Excel ===\n{df.to_string()}"
+        # فایل‌های CSV و TSV
+        elif file_extension in ['csv', 'tsv']:
+            separator = '\t' if file_extension == 'tsv' else ','
+            df = pd.read_csv(file_path, sep=separator)
+            return f"=== محتوای {file_extension.upper()} ===\n{df.to_string()}"
+        # فایل‌های JSON
+        elif file_extension == 'json':
+            with open(file_path, 'r', encoding='utf-8') as f:
+                data = json.load(f)
+            return f"=== محتوای JSON ===\n{json.dumps(data, indent=2, ensure_ascii=False)}"
+        # فایل‌های YAML
+        elif file_extension in ['yaml', 'yml']:
+            with open(file_path, 'r', encoding='utf-8') as f:
+                data = yaml.safe_load(f)
+            return f"=== محتوای YAML ===\n{yaml.dump(data, allow_unicode=True, default_flow_style=False)}"
+        # فایل‌های TOML
+        elif file_extension == 'toml':
+            with open(file_path, 'r', encoding='utf-8') as f:
+                data = toml.load(f)
+            return f"=== محتوای TOML ===\n{toml.dumps(data)}"
+        # فایل‌های INI/CFG
+        elif file_extension in ['ini', 'cfg', 'conf', 'config']:
+            config = configparser.ConfigParser()
+            config.read(file_path, encoding='utf-8')
+            output = f"=== محتوای {file_extension.upper()} ===\n"
+            for section in config.sections():
+                output += f"\n[{section}]\n"
+                for key, value in config.items(section):
+                    output += f"{key} = {value}\n"
+            return output
+        # فایل‌های XML
+        elif file_extension == 'xml':
+            tree = ET.parse(file_path)
+            root = tree.getroot()
+            return f"=== محتوای XML ===\n{ET.tostring(root, encoding='unicode')}"
+        # سایر فایل‌ها - تلاش برای خواندن به عنوان متن
+        else:
+            # تشخیص encoding
+            with open(file_path, 'rb') as f:
+                raw_data = f.read(10000)  # فقط 10KB اول برای تشخیص
+                result = chardet.detect(raw_data)
+                encoding = result['encoding'] if result['encoding'] else 'utf-8'
+                confidence = result['confidence'] if 'confidence' in result else 0
+            # اگر احتمال encoding کم باشد، احتمالا فایل باینری است
+            if confidence < 0.7:
+                try:
+                    # تلاش با UTF-8
+                    with open(file_path, 'r', encoding='utf-8') as f:
+                        content = f.read()
+                    return f"=== محتوای فایل (UTF-8) ===\n{content}"
+                except UnicodeDecodeError:
+                    return "این فایل احتمالاً باینری است یا encoding آن قابل تشخیص نیست"
+            # خواندن با encoding تشخیص داده شده
+            try:
+                with open(file_path, 'r', encoding=encoding) as f:
+                    content = f.read()
+                return f"=== محتوای فایل ({encoding}) ===\n{content}"
+            except:
+                # تلاش نهایی با encodings مختلف
+                for enc in ['utf-8', 'utf-16', 'latin-1', 'windows-1252', 'cp1256']:
+                    try:
+                        with open(file_path, 'r', encoding=enc) as f:
+                            content = f.read()
+                        return f"=== محتوای فایل ({enc}) ===\n{content}"
+                    except:
+                        continue
+                return "نمی‌توان این فایل را خواند. احتمالاً فایل باینری است."
+    except Exception as e:
+        return f"خطا در خواندن فایل: {str(e)}"
+# لیست فرمت‌های پشتیبانی شده
+supported_formats = """
+**فرمت‌های پشتیبانی شده:**
+- فایل‌های متنی: .txt, .log, .md, .rst, .tex
+- کدهای برنامه‌نویسی: .py, .js, .ts, .java, .cpp, .c, .h, .cs, .rb, .go, .rs, .swift, .kt, .scala, .r, .m, .php, .pl, .lua, .sh, .bat, .ps1
+- فایل‌های وب: .html, .htm, .css, .scss, .sass, .less, .jsx, .tsx, .vue
+- فایل‌های پیکربندی: .json, .yaml, .yml, .toml, .ini, .cfg, .conf, .config, .env, .properties
+- فایل‌های داده: .csv, .tsv, .xml
+- فایل‌های Office: .xlsx, .xls (نیاز به محتوای متنی)
+- و بسیاری فرمت‌های متنی دیگر...
+**فرمت‌های پشتیبانی نشده:**
+- تصاویر: .jpg, .png, .gif, .bmp, و...
+- صوت: .mp3, .wav, .flac, و...
+- ویدیو: .mp4, .avi, .mkv, و...
+- فایل‌های فشرده: .zip, .rar, .tar, و...
+- فایل‌های باینری: .exe, .dll, .bin, و...
+"""
+# رابط کاربری Gradio
+iface = gr.Interface(
+    fn=read_file,
+    inputs=gr.File(label="فایل را انتخاب کنید", file_types=None),
+    outputs=gr.Textbox(label="محتوای فایل", lines=25, max_lines=100),
+    title="خواننده جامع فایل‌های متنی",
+    description="تقریباً هر فایل متنی را آپلود کنید تا محتوای آن را مشاهده کنید\n" + supported_formats,
+    examples=[],
+    theme="soft"
+)
+if __name__ == "__main__":
+    iface.launch()