Henry65
/

RepoSim4Py

Feature Extraction

code-understanding

text-embeddings-inference

Model card Files Files and versions

Henry65 commited on Jul 24, 2023

Commit

ab0a159

·

1 Parent(s): 10cd0e3

Update RepoPipeline.py

Files changed (1) hide show

RepoPipeline.py +4 -4

RepoPipeline.py CHANGED Viewed

@@ -127,12 +127,12 @@ def extract_information(repos, headers=None):
                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 3. Extracting readme.
-                elif ((member.name == "README.md" or member.name == "README.rst") and member.isfile()) is True:
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract readme
-                        readme_set = set(file_content)
-                        repo_info["readmes"].update(readme_set)
                     except UnicodeDecodeError as e:
                         tqdm.write(
                             f"[-] UnicodeDecodeError in {member.name}, skipping: \n{e}"
@@ -140,7 +140,7 @@ def extract_information(repos, headers=None):
                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 4. Extracting requirements.
-                elif (member.name == "requirements.txt" and member.isfile()) is True:
                     try:
                         lines = tar.extractfile(member).readlines().decode("utf-8")
                         # extract readme

                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 3. Extracting readme.
+                elif ((member.name is "README.md" or member.name is "README.rst") and member.isfile()) is True:
                     try:
                         file_content = tar.extractfile(member).read().decode("utf-8")
                         # extract readme
+                        readmes_set = set(file_content)
+                        repo_info["readmes"].update(readmes_set)
                     except UnicodeDecodeError as e:
                         tqdm.write(
                             f"[-] UnicodeDecodeError in {member.name}, skipping: \n{e}"
                     except SyntaxError as e:
                         tqdm.write(f"[-] SyntaxError in {member.name}, skipping: \n{e}")
                 # 4. Extracting requirements.
+                elif (member.name is "requirements.txt" and member.isfile()) is True:
                     try:
                         lines = tar.extractfile(member).readlines().decode("utf-8")
                         # extract readme