Spaces:

chenzihong
/

GraphGen

Build error

App Files Files Community

github-actions[bot] commited on Jan 13

Commit

ad9c5d9

1 Parent(s): 4331db7

Auto-sync from demo at Tue Jan 13 14:51:14 UTC 2026

Browse files

Files changed (9) hide show

graphgen/models/kg_builder/light_rag_kg_builder.py +12 -2
graphgen/models/partitioner/ece_partitioner.py +5 -3
graphgen/operators/build_kg/build_kg_service.py +18 -5
graphgen/operators/build_kg/build_mm_kg.py +5 -3
graphgen/operators/build_kg/build_text_kg.py +5 -3
graphgen/operators/evaluate/evaluate_service.py +6 -6
graphgen/operators/partition/partition_service.py +6 -1
graphgen/operators/quiz/quiz_service.py +33 -45
requirements.txt +1 -1

graphgen/models/kg_builder/light_rag_kg_builder.py CHANGED Viewed

@@ -99,7 +99,7 @@ class LightRAGKGBuilder(BaseKGBuilder):
         self,
         node_data: tuple[str, List[dict]],
         kg_instance: BaseGraphStorage,
-    ) -> None:
         entity_name, node_data = node_data
         entity_types = []
         source_ids = []
@@ -131,16 +131,18 @@ class LightRAGKGBuilder(BaseKGBuilder):
         node_data = {
             "entity_type": entity_type,
             "description": description,
             "source_id": source_id,
         }
         kg_instance.upsert_node(entity_name, node_data=node_data)
     async def merge_edges(
         self,
         edges_data: tuple[Tuple[str, str], List[dict]],
         kg_instance: BaseGraphStorage,
-    ) -> None:
         (src_id, tgt_id), edge_data = edges_data
         source_ids = []
@@ -175,11 +177,19 @@ class LightRAGKGBuilder(BaseKGBuilder):
             f"({src_id}, {tgt_id})", description
         )
         kg_instance.upsert_edge(
             src_id,
             tgt_id,
             edge_data={"source_id": source_id, "description": description},
         )
     async def _handle_kg_summary(
         self,

         self,
         node_data: tuple[str, List[dict]],
         kg_instance: BaseGraphStorage,
+    ) -> dict:
         entity_name, node_data = node_data
         entity_types = []
         source_ids = []
         node_data = {
             "entity_type": entity_type,
+            "entity_name": entity_name,
             "description": description,
             "source_id": source_id,
         }
         kg_instance.upsert_node(entity_name, node_data=node_data)
+        return node_data
     async def merge_edges(
         self,
         edges_data: tuple[Tuple[str, str], List[dict]],
         kg_instance: BaseGraphStorage,
+    ) -> dict:
         (src_id, tgt_id), edge_data = edges_data
         source_ids = []
             f"({src_id}, {tgt_id})", description
         )
+        edge_data = {
+            "src_id": src_id,
+            "tgt_id": tgt_id,
+            "description": description,
+            "source_id": source_id,  # for traceability
+        }
         kg_instance.upsert_edge(
             src_id,
             tgt_id,
             edge_data={"source_id": source_id, "description": description},
         )
+        return edge_data
     async def _handle_kg_summary(
         self,

graphgen/models/partitioner/ece_partitioner.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import random
 from collections import deque
 from typing import Any, Dict, Iterable, List, Optional, Set, Tuple
@@ -34,17 +35,18 @@ class ECEPartitioner(BFSPartitioner):
         :param edge_sampling: edge sampling strategy (random, min_loss, max_loss)
         :return: sorted units
         """
         if edge_sampling == "random":
             random.shuffle(units)
         elif edge_sampling == "min_loss":
             units = sorted(
                 units,
-                key=lambda x: x[-1]["loss"],
             )
         elif edge_sampling == "max_loss":
             units = sorted(
                 units,
-                key=lambda x: x[-1]["loss"],
                 reverse=True,
             )
         else:
@@ -142,7 +144,7 @@ class ECEPartitioner(BFSPartitioner):
             return Community(
                 id=seed_unit[1],
                 nodes=list(community_nodes.keys()),
-                edges=[tuple(sorted(e)) for e in community_edges]
             )
         for unit in tqdm(all_units, desc="ECE partition"):

+import math
 import random
 from collections import deque
 from typing import Any, Dict, Iterable, List, Optional, Set, Tuple
         :param edge_sampling: edge sampling strategy (random, min_loss, max_loss)
         :return: sorted units
         """
+        default_loss = -math.log(0.1)
         if edge_sampling == "random":
             random.shuffle(units)
         elif edge_sampling == "min_loss":
             units = sorted(
                 units,
+                key=lambda x: x[-1].get("loss", default_loss),
             )
         elif edge_sampling == "max_loss":
             units = sorted(
                 units,
+                key=lambda x: x[-1].get("loss", default_loss),
                 reverse=True,
             )
         else:
             return Community(
                 id=seed_unit[1],
                 nodes=list(community_nodes.keys()),
+                edges=[tuple(sorted(e)) for e in community_edges],
             )
         for unit in tqdm(all_units, desc="ECE partition"):

graphgen/operators/build_kg/build_kg_service.py CHANGED Viewed

@@ -28,10 +28,13 @@ class BuildKGService(BaseOperator):
         docs = [Chunk.from_dict(doc["_chunk_id"], doc) for doc in docs]
         # consume the chunks and build kg
-        self.build_kg(docs)
-        return pd.DataFrame([{"status": "kg_building_completed"}])
-    def build_kg(self, chunks: List[Chunk]) -> None:
         """
         Build knowledge graph (KG) and merge into kg_instance
         """
@@ -42,24 +45,34 @@ class BuildKGService(BaseOperator):
             if chunk.type in ("image", "video", "table", "formula")
         ]
         if len(text_chunks) == 0:
             logger.info("All text chunks are already in the storage")
         else:
             logger.info("[Text Entity and Relation Extraction] processing ...")
-            build_text_kg(
                 llm_client=self.llm_client,
                 kg_instance=self.graph_storage,
                 chunks=text_chunks,
                 max_loop=self.max_loop,
             )
         if len(mm_chunks) == 0:
             logger.info("All multi-modal chunks are already in the storage")
         else:
             logger.info("[Multi-modal Entity and Relation Extraction] processing ...")
-            build_mm_kg(
                 llm_client=self.llm_client,
                 kg_instance=self.graph_storage,
                 chunks=mm_chunks,
             )
         self.graph_storage.index_done_callback()

         docs = [Chunk.from_dict(doc["_chunk_id"], doc) for doc in docs]
         # consume the chunks and build kg
+        nodes, edges = self.build_kg(docs)
+        return pd.DataFrame(
+            [{"node": node, "edge": []} for node in nodes]
+            + [{"node": [], "edge": edge} for edge in edges]
+        )
+    def build_kg(self, chunks: List[Chunk]) -> tuple:
         """
         Build knowledge graph (KG) and merge into kg_instance
         """
             if chunk.type in ("image", "video", "table", "formula")
         ]
+        nodes = []
+        edges = []
         if len(text_chunks) == 0:
             logger.info("All text chunks are already in the storage")
         else:
             logger.info("[Text Entity and Relation Extraction] processing ...")
+            text_nodes, text_edges = build_text_kg(
                 llm_client=self.llm_client,
                 kg_instance=self.graph_storage,
                 chunks=text_chunks,
                 max_loop=self.max_loop,
             )
+            nodes += text_nodes
+            edges += text_edges
         if len(mm_chunks) == 0:
             logger.info("All multi-modal chunks are already in the storage")
         else:
             logger.info("[Multi-modal Entity and Relation Extraction] processing ...")
+            mm_nodes, mm_edges = build_mm_kg(
                 llm_client=self.llm_client,
                 kg_instance=self.graph_storage,
                 chunks=mm_chunks,
             )
+            nodes += mm_nodes
+            edges += mm_edges
         self.graph_storage.index_done_callback()
+        logger.info("Knowledge graph building completed.")
+        return nodes, edges

graphgen/operators/build_kg/build_mm_kg.py CHANGED Viewed

@@ -12,7 +12,7 @@ def build_mm_kg(
     llm_client: BaseLLMWrapper,
     kg_instance: BaseGraphStorage,
     chunks: List[Chunk],
-):
     """
     Build multi-modal KG and merge into kg_instance
     :param llm_client: Synthesizer LLM model to extract entities and relationships
@@ -37,14 +37,16 @@ def build_mm_kg(
         for k, v in e.items():
             edges[tuple(sorted(k))].extend(v)
-    run_concurrent(
         lambda kv: mm_builder.merge_nodes(kv, kg_instance=kg_instance),
         list(nodes.items()),
         desc="Inserting entities into storage",
     )
-    run_concurrent(
         lambda kv: mm_builder.merge_edges(kv, kg_instance=kg_instance),
         list(edges.items()),
         desc="Inserting relationships into storage",
     )

     llm_client: BaseLLMWrapper,
     kg_instance: BaseGraphStorage,
     chunks: List[Chunk],
+) -> tuple:
     """
     Build multi-modal KG and merge into kg_instance
     :param llm_client: Synthesizer LLM model to extract entities and relationships
         for k, v in e.items():
             edges[tuple(sorted(k))].extend(v)
+    nodes = run_concurrent(
         lambda kv: mm_builder.merge_nodes(kv, kg_instance=kg_instance),
         list(nodes.items()),
         desc="Inserting entities into storage",
     )
+    edges = run_concurrent(
         lambda kv: mm_builder.merge_edges(kv, kg_instance=kg_instance),
         list(edges.items()),
         desc="Inserting relationships into storage",
     )
+    return nodes, edges

graphgen/operators/build_kg/build_text_kg.py CHANGED Viewed

@@ -13,7 +13,7 @@ def build_text_kg(
     kg_instance: BaseGraphStorage,
     chunks: List[Chunk],
     max_loop: int = 3,
-):
     """
     :param llm_client: Synthesizer LLM model to extract entities and relationships
     :param kg_instance
@@ -39,14 +39,16 @@ def build_text_kg(
         for k, v in e.items():
             edges[tuple(sorted(k))].extend(v)
-    run_concurrent(
         lambda kv: kg_builder.merge_nodes(kv, kg_instance=kg_instance),
         list(nodes.items()),
         desc="Inserting entities into storage",
     )
-    run_concurrent(
         lambda kv: kg_builder.merge_edges(kv, kg_instance=kg_instance),
         list(edges.items()),
         desc="Inserting relationships into storage",
     )

     kg_instance: BaseGraphStorage,
     chunks: List[Chunk],
     max_loop: int = 3,
+) -> tuple:
     """
     :param llm_client: Synthesizer LLM model to extract entities and relationships
     :param kg_instance
         for k, v in e.items():
             edges[tuple(sorted(k))].extend(v)
+    nodes = run_concurrent(
         lambda kv: kg_builder.merge_nodes(kv, kg_instance=kg_instance),
         list(nodes.items()),
         desc="Inserting entities into storage",
     )
+    edges = run_concurrent(
         lambda kv: kg_builder.merge_edges(kv, kg_instance=kg_instance),
         list(edges.items()),
         desc="Inserting relationships into storage",
     )
+    return nodes, edges

graphgen/operators/evaluate/evaluate_service.py CHANGED Viewed

@@ -95,10 +95,10 @@ class EvaluateService(BaseOperator):
                 answer=str(item.get("answer", "")),
             )
             if not qa_pair.question or not qa_pair.answer:
-                self.logger.error("Empty question or answer, skipping.")
                 return {}
         except Exception as e:
-            self.logger.error("Error in QAPair creation: %s", str(e))
             return {}
         for metric, evaluator in self.qa_evaluators.items():
@@ -110,7 +110,7 @@ class EvaluateService(BaseOperator):
                 else:
                     item[metric] = float(score)
             except Exception as e:
-                self.logger.error("Error in %s evaluation: %s", metric, str(e))
                 item[metric] = None
         return item
@@ -136,7 +136,7 @@ class EvaluateService(BaseOperator):
             return []
         if not self.qa_evaluators:
-            self.logger.warning("No QA evaluators initialized, skipping QA evaluation")
             return []
         items = transform_messages_format(items)
@@ -155,11 +155,11 @@ class EvaluateService(BaseOperator):
         for metric, evaluator in self.kg_evaluators.items():
             try:
-                self.logger.info("Running %s evaluation...", metric)
                 score = evaluator.evaluate()
                 results[metric] = score
             except Exception as e:
-                self.logger.error("Error in %s evaluation: %s", metric, str(e))
                 results[metric] = {"error": str(e)}
         return results

                 answer=str(item.get("answer", "")),
             )
             if not qa_pair.question or not qa_pair.answer:
+                logger.error("Empty question or answer, skipping.")
                 return {}
         except Exception as e:
+            logger.error("Error in QAPair creation: %s", str(e))
             return {}
         for metric, evaluator in self.qa_evaluators.items():
                 else:
                     item[metric] = float(score)
             except Exception as e:
+                logger.error("Error in %s evaluation: %s", metric, str(e))
                 item[metric] = None
         return item
             return []
         if not self.qa_evaluators:
+            logger.warning("No QA evaluators initialized, skipping QA evaluation")
             return []
         items = transform_messages_format(items)
         for metric, evaluator in self.kg_evaluators.items():
             try:
+                logger.info("Running %s evaluation...", metric)
                 score = evaluator.evaluate()
                 results[metric] = score
             except Exception as e:
+                logger.error("Error in %s evaluation: %s", metric, str(e))
                 results[metric] = {"error": str(e)}
         return results

graphgen/operators/partition/partition_service.py CHANGED Viewed

@@ -79,9 +79,13 @@ class PartitionService(BaseOperator):
         else:
             raise ValueError(f"Unsupported partition method: {method}")
-        communities = partitioner.partition(g=self.kg_instance, **method_params)
         for community in communities:
             batch = partitioner.community2batch(community, g=self.kg_instance)
             batch = self._attach_additional_data_to_node(batch)
@@ -91,6 +95,7 @@ class PartitionService(BaseOperator):
                     "edges": [batch[1]],
                 }
             )
     def _pre_tokenize(self) -> None:
         """Pre-tokenize all nodes and edges to add token length information."""

         else:
             raise ValueError(f"Unsupported partition method: {method}")
+        communities: Iterable = partitioner.partition(
+            g=self.kg_instance, **method_params
+        )
+        count = 0
         for community in communities:
+            count += 1
             batch = partitioner.community2batch(community, g=self.kg_instance)
             batch = self._attach_additional_data_to_node(batch)
                     "edges": [batch[1]],
                 }
             )
+        logger.info("Total communities partitioned: %d", count)
     def _pre_tokenize(self) -> None:
         """Pre-tokenize all nodes and edges to add token length information."""

graphgen/operators/quiz/quiz_service.py CHANGED Viewed

@@ -1,5 +1,3 @@
-from collections.abc import Iterable
 import pandas as pd
 from graphgen.bases import BaseGraphStorage, BaseKVStorage, BaseLLMWrapper, BaseOperator
@@ -15,7 +13,6 @@ class QuizService(BaseOperator):
         graph_backend: str = "kuzu",
         kv_backend: str = "rocksdb",
         quiz_samples: int = 1,
-        concurrency_limit: int = 200,
     ):
         super().__init__(working_dir=working_dir, op_name="quiz_service")
         self.quiz_samples = quiz_samples
@@ -28,21 +25,16 @@ class QuizService(BaseOperator):
             backend=kv_backend, working_dir=working_dir, namespace="quiz"
         )
         self.generator = QuizGenerator(self.llm_client)
-        self.concurrency_limit = concurrency_limit
-    def process(self, batch: pd.DataFrame) -> Iterable[pd.DataFrame]:
-        # this operator does not consume any batch data
-        # but for compatibility we keep the interface
-        _ = batch.to_dict(orient="records")
         self.graph_storage.reload()
-        yield from self.quiz()
     async def _process_single_quiz(self, item: tuple) -> dict | None:
         # if quiz in quiz_storage exists already, directly get it
         index, desc = item
         _quiz_id = compute_dict_hash({"index": index, "description": desc})
-        if self.quiz_storage.get_by_id(_quiz_id):
-            return None
         tasks = []
         for i in range(self.quiz_samples):
@@ -68,47 +60,43 @@ class QuizService(BaseOperator):
             logger.error("Error when quizzing description %s: %s", item, e)
             return None
-    def quiz(self) -> Iterable[pd.DataFrame]:
         """
         Get all nodes and edges and quiz their descriptions using QuizGenerator.
         """
-        edges = self.graph_storage.get_all_edges()
-        nodes = self.graph_storage.get_all_nodes()
         items = []
-        for edge in edges:
-            edge_data = edge[2]
-            desc = edge_data["description"]
-            items.append(((edge[0], edge[1]), desc))
-        for node in nodes:
-            node_data = node[1]
-            desc = node_data["description"]
-            items.append((node[0], desc))
         logger.info("Total descriptions to quiz: %d", len(items))
-        for i in range(0, len(items), self.concurrency_limit):
-            batch_items = items[i : i + self.concurrency_limit]
-            batch_results = run_concurrent(
-                self._process_single_quiz,
-                batch_items,
-                desc=f"Quizzing descriptions ({i} / {i + len(batch_items)})",
-                unit="description",
-            )
-            final_results = []
-            for new_result in batch_results:
-                if new_result:
-                    self.quiz_storage.upsert(
-                        {
-                            new_result["_quiz_id"]: {
-                                "description": new_result["description"],
-                                "quizzes": new_result["quizzes"],
-                            }
-                        }
-                    )
-                    final_results.append(new_result)
-            self.quiz_storage.index_done_callback()
-            yield pd.DataFrame(final_results)

 import pandas as pd
 from graphgen.bases import BaseGraphStorage, BaseKVStorage, BaseLLMWrapper, BaseOperator
         graph_backend: str = "kuzu",
         kv_backend: str = "rocksdb",
         quiz_samples: int = 1,
     ):
         super().__init__(working_dir=working_dir, op_name="quiz_service")
         self.quiz_samples = quiz_samples
             backend=kv_backend, working_dir=working_dir, namespace="quiz"
         )
         self.generator = QuizGenerator(self.llm_client)
+    def process(self, batch: pd.DataFrame) -> pd.DataFrame:
+        data = batch.to_dict(orient="records")
         self.graph_storage.reload()
+        return self.quiz(data)
     async def _process_single_quiz(self, item: tuple) -> dict | None:
         # if quiz in quiz_storage exists already, directly get it
         index, desc = item
         _quiz_id = compute_dict_hash({"index": index, "description": desc})
         tasks = []
         for i in range(self.quiz_samples):
             logger.error("Error when quizzing description %s: %s", item, e)
             return None
+    def quiz(self, batch) -> pd.DataFrame:
         """
         Get all nodes and edges and quiz their descriptions using QuizGenerator.
         """
         items = []
+        for item in batch:
+            node_data = item.get("node", [])
+            edge_data = item.get("edge", [])
+            if node_data:
+                node_id = node_data["entity_name"]
+                desc = node_data["description"]
+                items.append((node_id, desc))
+            if edge_data:
+                edge_key = (edge_data["src_id"], edge_data["tgt_id"])
+                desc = edge_data["description"]
+                items.append((edge_key, desc))
         logger.info("Total descriptions to quiz: %d", len(items))
+        results = run_concurrent(
+            self._process_single_quiz,
+            items,
+            desc=f"Quizzing batch of {len(items)} descriptions",
+            unit="description",
+        )
+        valid_results = [res for res in results if res]
+        for res in valid_results:
+            self.quiz_storage.upsert(
+                {
+                    res["_quiz_id"]: {
+                        "description": res["description"],
+                        "quizzes": res["quizzes"],
+                    }
+                }
+            )
+        self.quiz_storage.index_done_callback()
+        return pd.DataFrame(valid_results)

requirements.txt CHANGED Viewed

@@ -22,7 +22,7 @@ trafilatura
 aiohttp
 socksio
 pydantic
-ray==2.52.1
 pyarrow
 leidenalg

 aiohttp
 socksio
 pydantic
+ray==2.53.0
 pyarrow
 leidenalg