Spaces:

codingwithadi
/

OpenMark

Running

File size: 7,251 Bytes

81598c5

"""

Neo4j store — knowledge graph.



Nodes:   Bookmark, Tag, Category, Source, Domain

Edges:   TAGGED, IN_CATEGORY, FROM_SOURCE, FROM_DOMAIN, SIMILAR_TO, CO_OCCURS_WITH

"""

import re
from urllib.parse import urlparse
from neo4j import GraphDatabase
from openmark import config


def get_driver():
    return GraphDatabase.driver(
        config.NEO4J_URI,
        auth=(config.NEO4J_USER, config.NEO4J_PASSWORD),
    )


def setup_constraints(driver):
    """Create uniqueness constraints once."""
    constraints = [
        "CREATE CONSTRAINT bookmark_url IF NOT EXISTS FOR (b:Bookmark) REQUIRE b.url IS UNIQUE",
        "CREATE CONSTRAINT tag_name IF NOT EXISTS FOR (t:Tag) REQUIRE t.name IS UNIQUE",
        "CREATE CONSTRAINT category_name IF NOT EXISTS FOR (c:Category) REQUIRE c.name IS UNIQUE",
        "CREATE CONSTRAINT source_name IF NOT EXISTS FOR (s:Source) REQUIRE s.name IS UNIQUE",
        "CREATE CONSTRAINT domain_name IF NOT EXISTS FOR (d:Domain) REQUIRE d.name IS UNIQUE",
    ]
    with driver.session(database=config.NEO4J_DATABASE) as session:
        for cypher in constraints:
            try:
                session.run(cypher)
            except Exception as e:
                print(f"  Constraint (already exists or error): {e}")
    print("Constraints ready.")


def extract_domain(url: str) -> str:
    try:
        return urlparse(url).netloc.replace("www.", "")
    except Exception:
        return "unknown"


def ingest(items: list[dict], driver=None):
    """Write all nodes and relationships to Neo4j."""
    own_driver = driver is None
    if own_driver:
        driver = get_driver()

    setup_constraints(driver)

    total = len(items)
    batch_size = 200

    print(f"Neo4j ingesting {total} items...")

    for start in range(0, total, batch_size):
        batch = items[start:start + batch_size]

        with driver.session(database=config.NEO4J_DATABASE) as session:
            session.execute_write(_write_batch, batch)

        print(f"  Neo4j wrote {min(start + batch_size, total)}/{total}")

    print("Building tag co-occurrence edges...")
    _build_tag_cooccurrence(driver)

    print("Neo4j ingestion complete.")

    if own_driver:
        driver.close()


def _write_batch(tx, batch: list[dict]):
    for item in batch:
        url      = item["url"]
        title    = item["title"][:500]
        category = item["category"]
        tags     = item["tags"]
        score    = float(item["score"])
        source   = item["source"]
        domain   = extract_domain(url)

        # Bookmark node
        tx.run("""

            MERGE (b:Bookmark {url: $url})

            SET b.title = $title, b.score = $score

        """, url=url, title=title, score=score)

        # Category node + relationship
        tx.run("""

            MERGE (c:Category {name: $cat})

            WITH c

            MATCH (b:Bookmark {url: $url})

            MERGE (b)-[:IN_CATEGORY]->(c)

        """, cat=category, url=url)

        # Source node + relationship
        tx.run("""

            MERGE (s:Source {name: $src})

            WITH s

            MATCH (b:Bookmark {url: $url})

            MERGE (b)-[:FROM_SOURCE]->(s)

        """, src=source, url=url)

        # Domain node + relationship
        if domain and domain != "unknown":
            tx.run("""

                MERGE (d:Domain {name: $domain})

                WITH d

                MATCH (b:Bookmark {url: $url})

                MERGE (b)-[:FROM_DOMAIN]->(d)

            """, domain=domain, url=url)

        # Tag nodes + relationships
        for tag in tags:
            if not tag:
                continue
            tx.run("""

                MERGE (t:Tag {name: $tag})

                WITH t

                MATCH (b:Bookmark {url: $url})

                MERGE (b)-[:TAGGED]->(t)

            """, tag=tag, url=url)


def _build_tag_cooccurrence(driver):
    """

    For each bookmark with multiple tags, create CO_OCCURS_WITH edges between tags.

    Weight = number of bookmarks where both tags appear together.

    """
    with driver.session(database=config.NEO4J_DATABASE) as session:
        session.run("""

            MATCH (b:Bookmark)-[:TAGGED]->(t1:Tag)

            MATCH (b)-[:TAGGED]->(t2:Tag)

            WHERE t1.name < t2.name

            MERGE (t1)-[r:CO_OCCURS_WITH]-(t2)

            ON CREATE SET r.count = 1

            ON MATCH SET r.count = r.count + 1

        """)
    print("  Tag co-occurrence edges built.")


def add_similar_to_edges(similar_pairs: list[tuple[str, str, float]], driver=None):
    """

    Write SIMILAR_TO edges derived from ChromaDB nearest-neighbor search.

    similar_pairs = [(url_a, url_b, similarity_score), ...]

    """
    own_driver = driver is None
    if own_driver:
        driver = get_driver()

    with driver.session(database=config.NEO4J_DATABASE) as session:
        for url_a, url_b, score in similar_pairs:
            session.run("""

                MATCH (a:Bookmark {url: $url_a})

                MATCH (b:Bookmark {url: $url_b})

                MERGE (a)-[r:SIMILAR_TO]-(b)

                SET r.score = $score

            """, url_a=url_a, url_b=url_b, score=score)

    print(f"  SIMILAR_TO: {len(similar_pairs)} edges written.")

    if own_driver:
        driver.close()


def query(cypher: str, params: dict | None = None) -> list[dict]:
    """Run arbitrary Cypher and return results as list of dicts."""
    driver = get_driver()
    with driver.session(database=config.NEO4J_DATABASE) as session:
        result = session.run(cypher, params or {})
        rows = [dict(r) for r in result]
    driver.close()
    return rows


def get_stats() -> dict:
    rows = query("""

        MATCH (b:Bookmark) WITH count(b) AS bookmarks

        MATCH (t:Tag)      WITH bookmarks, count(t) AS tags

        MATCH (c:Category) WITH bookmarks, tags, count(c) AS categories

        RETURN bookmarks, tags, categories

    """)
    return rows[0] if rows else {}


def find_similar(url: str, limit: int = 10) -> list[dict]:
    return query("""

        MATCH (b:Bookmark {url: $url})-[r:SIMILAR_TO]-(other:Bookmark)

        RETURN other.url AS url, other.title AS title, r.score AS similarity

        ORDER BY r.score DESC LIMIT $limit

    """, {"url": url, "limit": limit})


def find_by_tag(tag: str, limit: int = 20) -> list[dict]:
    return query("""

        MATCH (b:Bookmark)-[:TAGGED]->(t:Tag {name: $tag})

        RETURN b.url AS url, b.title AS title, b.score AS score

        ORDER BY b.score DESC LIMIT $limit

    """, {"tag": tag.lower(), "limit": limit})


def find_tag_cluster(tag: str, hops: int = 2, limit: int = 30) -> list[dict]:
    """Follow CO_OCCURS_WITH edges to find related tags and their bookmarks."""
    return query(f"""

        MATCH (t:Tag {{name: $tag}})-[:CO_OCCURS_WITH*1..{hops}]-(related:Tag)

        MATCH (b:Bookmark)-[:TAGGED]->(related)

        RETURN DISTINCT b.url AS url, b.title AS title, b.score AS score, related.name AS via_tag

        ORDER BY b.score DESC LIMIT $limit

    """, {"tag": tag.lower(), "limit": limit})