Spaces:

eleeleai
/

ircdl_data

Runtime error

Eleonora Bernasconi commited on Sep 15, 2023

Commit

755a5e3

1 Parent(s): 38d50e4

update

Files changed (9) hide show

__pycache__/scholarly.cpython-37.pyc CHANGED Viewed

Binary files a/__pycache__/scholarly.cpython-37.pyc and b/__pycache__/scholarly.cpython-37.pyc differ

app.py CHANGED Viewed

@@ -17,27 +17,42 @@ st.write(data)
 cit_array = []
 count = 0
 st.write(count)
-if 'doi' not in data.columns:
-    st.write("The 'doi' column does not exist in the CSV.")
-else:
-    # Loop over DOIs and retrieve citation counts
-    for index, row in data.iterrows():
-        doi = row['doi']
         if doi:
-            citation_count = scholarly.get_citation_count(doi)
-            if citation_count != None:
-                cit_array.append(citation_count)
-                st.text(f"DOI: {doi}, Citation Count: {citation_count}")
                 count += 1
-            else:
-                # Handle cases where DOI is None (e.g., bytitle lookup)
-                title = row['title']
-                doi_bytitle = scholarly.get_doi_from_title(str(title))
-                citation_count_title = scholarly.get_citation_count(doi_bytitle)
-                if citation_count_title != None:
-                    count += 1
-                cit_array.append(citation_count_title)
                 st.text(f"DOI from Title: {title}, Citation Count: {citation_count_title}")
 # Add the citation count column to the DataFrame
 data['Citation Count'] = cit_array

 cit_array = []
 count = 0
 st.write(count)
+# Iterate over rows and update 'doi' column if necessary
+for index, row in data.iterrows():
+    doi = row['doi']
+    title = row['title']
+    # If 'doi' is None, attempt to get DOI from title
+    if pd.isnull(doi):
+        doi = scholarly.get_doi_from_title(title)
+        # Update the DataFrame with the retrieved DOI
         if doi:
+            data.at[index, 'doi'] = doi
+# Display the updated data table
+st.write("Data with DOI")
+st.write(data)
+# Loop over DOIs and retrieve citation counts
+for index, row in data.iterrows():
+    doi = row['doi']
+    if doi:
+        citation_count = scholarly.get_citation_count(doi)
+        if citation_count != None:
+            cit_array.append(citation_count)
+            st.text(f"DOI: {doi}, Citation Count: {citation_count}")
+            count += 1
+        else:
+            # Handle cases where DOI is None (e.g., bytitle lookup)
+            title = row['title']
+            doi_bytitle = scholarly.get_doi_from_title(str(title))
+            citation_count_title = scholarly.get_citation_count(doi_bytitle)
+            if citation_count_title != None:
                 count += 1
                 st.text(f"DOI from Title: {title}, Citation Count: {citation_count_title}")
+            cit_array.append(citation_count_title)
 # Add the citation count column to the DataFrame
 data['Citation Count'] = cit_array

filtered_data (1).csv ADDED Viewed

The diff for this file is too large to render. See raw diff

output/googleScholarcsv.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

output/metrics_googleScholarcsv.csv ADDED Viewed


1	+ Query,Source,Papers,Citations,Years,Cites_Year,Cites_Paper,Cites_Author,Papers_Author,Authors_Paper,h_index,g_index,hc_index,hI_index,hI_norm,AWCR,AW_index,AWCRpA,e_index,hm_index,QueryDate,Cites_Author_Year,hI_annual,h_coverage,g_coverage,star_count,year_first,year_last,ECC,acc1,acc2,acc5,acc20,hA
2	+ "IRCDL","Google Scholar",298,1282,18,71.22,4.30,489.08,129.46,3.08,16,24,12,5.22,9,222.13,14.90,86.80,14.97,9.80,"2023-09-15 16:29:59",27.17,0.50,37.4,45.8,1,2005,2023,1282,83,32,6,0,5

output/metrics_semanticscholarcsv.csv ADDED Viewed


1	+ Query,Source,Papers,Citations,Years,Cites_Year,Cites_Paper,Cites_Author,Papers_Author,Authors_Paper,h_index,g_index,hc_index,hI_index,hI_norm,AWCR,AW_index,AWCRpA,e_index,hm_index,QueryDate,Cites_Author_Year,hI_annual,h_coverage,g_coverage,star_count,year_first,year_last,ECC,acc1,acc2,acc5,acc20,hA
2	+ "IRCDL","Semantic Scholar",227,433,17,25.47,1.91,159.09,93.77,3.11,9,11,9,2.45,5,85.76,9.26,30.32,5.92,6.04,"2023-09-15 16:36:15",9.35,0.29,26.8,30.9,0,2006,2023,433,26,10,1,0,3

output/output_crawled_data.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

output/semanticscholarcsv.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

scholarly.py CHANGED Viewed

@@ -20,7 +20,7 @@ def get_doi_from_title(title):
             similarity_score = fuzz.ratio(title.lower(), retrieved_title) / 100  # Calcola il punteggio di similarità
             # soglia di similarità desiderata (75%)
             similarity_threshold = 0.75
-            print(retrieved_title, similarity_score)
             if similarity_score >= similarity_threshold:
                 # pdb.set_trace()
                 return item.get('DOI', None)

             similarity_score = fuzz.ratio(title.lower(), retrieved_title) / 100  # Calcola il punteggio di similarità
             # soglia di similarità desiderata (75%)
             similarity_threshold = 0.75
+            # print(retrieved_title, similarity_score)
             if similarity_score >= similarity_threshold:
                 # pdb.set_trace()
                 return item.get('DOI', None)