AI & ML interests
None defined yet.
Recent Activity
โญ DATUMO
The Data-centric AI Company
Built by Selectstar โ data infrastructure for trustworthy AI
๐ About Us
We're Selectstar โ a Korean AI company building the data foundation for trustworthy AI. Since 2018, we've partnered with AI teams across the entire data value-chain: from dataset design and construction to LLM reliability evaluation and red-teaming.
Our flagship Datumo Platform is Korea's first end-to-end AI trust evaluation solution, unifying dataset preparation, automated evaluation, red-teaming, and improvement analytics in a single pipeline.
๐ฐ๐ท ์๋ ํ์ธ์, ์ ๋ ํธ์คํ์ ๋๋ค. ๋ฐ์ดํฐ ์ค๊ณยท๊ตฌ์ถ๋ถํฐ LLM ์ ๋ขฐ์ฑ ๊ฒ์ฆ๊น์ง, AI ๊ฐ๋ฐ์ ๋ชจ๋ ๋จ๊ณ๋ฅผ ํจ๊ปํ๋ Data-centric AI ๊ธฐ์ ์ ๋๋ค. ์ด ํ์ด์ง์์๋ ์ ํฌ๊ฐ ์ฐ๊ตฌยท์ค๋ฌด์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ๊ณผ ๋ชจ๋ธ์ ์คํ์์ค๋ก ๊ณต์ ํ๊ณ ์์ด์.
๐ฏ What We Do
Perception AI(2018) โ Generative AI(2022) โ Agentic AI(2026~) ๋ก ์ด์ด์ง๋ AI ์งํ ์ ๋จ๊ณ์ ๊ฑธ์ณ, ๋ฐ์ดํฐ ๊ตฌ์ถ๋ถํฐ ์ ๋ขฐ์ฑ ๊ฒ์ฆ๊น์ง End-to-End ํ์ดํ๋ผ์ธ์ ์ ๊ณตํฉ๋๋ค.
| ๐๏ธ Data Construction | ๐ก๏ธ AI Trust & Safety | ๐ Datumo Platform |
|---|---|---|
| ๊ณ ๋๋ ์ถ๋ก ๋ฐ์ดํฐ ์์ฑ (CAC-CoT, GRADE, ATA, COBA) | LLM ๋ ๋ํฐ๋ฐ (CAGE, STAR-Teaming) | ๊ตญ๋ด ์ต์ด LLM ์ ๋ขฐ์ฑ ์๋ํ ํ๊ฐ ํ๋ซํผ |
| ์ฌ์ ํ์ตยทํ์ธํ๋ ๋ฐ์ดํฐ ๋ผ์ด์ ์ฑ | ํ๊ตญ์ด Safety ๋ฒค์น๋งํฌ (KorNAT, KorSET, FinRED) | ํ๊ฐ ๊ธฐ๊ฐ 45์ผ โ 45๋ถ |
| RAG ์ง์ ํ์ดํ๋ผ์ธ | Safety Judge (Datumo-Guard) | ์จํ๋ ๋ฏธ์คยท๋ง๋ถ๋ฆฌ ํ๊ฒฝ ์ง์ |
| 25๋ง ๋ช + ํฌ๋ผ์ฐ๋์์ปค ยท 2์ต ๊ฑด+ ์ด๋ ธํ ์ด์ | ๊ธ์ตยท์๋ฃยท๊ณต๊ณต ๋๋ฉ์ธ ํนํ ํ๊ฐ | Dashboard Analytics & Reporting |
๐ค ์ฃผ์ ํํธ๋์ญ: SKT ๋ ์ AI ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(๋ ํ๋ชจ) ์ปจ์์์ ยท GSMA Open Telco AI ยท ์ผ์ฑ์๋ช C-Lab Outside ยท ๊ธ์ต๋ณด์์ ยท ์์ฝ์ฒ ์๋ฃ ๋ ๋ํ
๐ Featured Collections
๐ก๏ธ Safety-Data
Curated by our AI Safety team โ Korean-language safety and reliability benchmarks for LLM evaluation.
| Dataset | Description | Venue |
|---|---|---|
| ๐ธ FinRED | ๊ธ์ต ๋๋ฉ์ธ LLM ๋ ๋ํฐ๋ฐ(Red-Teaming) ํ๊ฐ ๋ฒค์น๋งํฌ (๊ธ์ต๋ณด์์ AIํ์ ์ค ๊ณต๋ ๊ตฌ์ถ) | KDD 2026 D&B Track |
| ๐ธ KorSET | CAGE ํ๋ ์์ํฌ๋ก ๊ตฌ์ถํ ํ๊ตญ์ด ๋ ๋ํฐ๋ฐ ๋ฒค์น๋งํฌ (5๊ฐ ์ํ ๋๋ฉ์ธ ยท 12๊ฐ ์นดํ ๊ณ ๋ฆฌ ยท 53๊ฐ ์ธ๋ถ ์ ํ ยท ~8,000๊ฑด) | ICLR 2026 (CAGE) |
| ๐ธ KorNAT | Korea's first LLM reliability / national-alignment benchmark | ACL 2024 Findings |
๐ฆ Data-Data
Research outputs from our Data team โ models and datasets built in-house.
| Resource | Description | Type |
|---|---|---|
| ๐ธ CAC-CoT dataset | Accompanying training data for CAC-CoT | Dataset |
๐ Milestones
Highlight (์ต๊ทผ ์ฃผ์ ์ฑ๊ณผ)
- ๐ Forbes "30 Under 30 Asia" 2021 โ Enterprise Technology (๊ณต๋์ฐฝ์ ์ 4์ธ ์ ์ )
- ๐ Forbes Korea "2025 ๋ํ๋ฏผ๊ตญ AI 50" ์ ์
- ๐ Forbes Asia "100 ์ ๋ง ๊ธฐ์ " 2025 ์ ์
- ๐ฐ๐ท ๋ ์ AI ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(๋ ํ๋ชจ) 1์ฐจ ํต๊ณผ (2026.01, SKT ์ปจ์์์ ๋ฐ์ดํฐ ์ด๊ด)
- ๐ GSMA Open Telco AI ๊ณต์ ํํธ๋ ํฉ๋ฅ (2026.03, MWC Barcelona)
- ๐ฐ ๋์ ํฌ์ 434์ต์ ๋ํ (2025.12, Series B ํ์ฅ)
- ๐ ๋์ ์ด๋ ธํ ์ด์ 2์ต ๊ฑด+ ยท ๊ธฐ์ ๊ณ ๊ฐ 287๊ฐ+ ยท ํฌ๋ผ์ฐ๋์์ปค 25๋ง ๋ช +
๐ ์ ์ฒด ์ฐํ ๋ณด๊ธฐ (2018โ2026)
๐ฑ Founding & Early Traction (2018โ2020)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2018.11 | ์ ๋ ํธ์คํ(์ฃผ) ์ค๋ฆฝ |
| 2018.12 | KAIST ์ฐฝ์ ๋ํ(E*5) ์ต์ฐ์์ |
| 2019.07 | ์นด์นด์ค๋ฒค์ฒ์ค SEED 4์ต ํฌ์ ์ ์น |
| 2019.09 | KorQuAD 2.0 Dataset ๊ตฌ์ถ (LG CNS ๊ณต๋) |
| 2019.10 | TIPS ํ๋ก๊ทธ๋จ ์ ์ |
| 2019.12 | ๊ธฐ์ ๋ถ์ค์ฐ๊ตฌ์ ์ค๋ฆฝ ์ธ์ |
| 2020.09 | Series A 40์ต ํฌ์ ์ ์น (์นด์นด์ค๋ฒค์ฒ์คยท์ฝ์ค๋กฑ์ธ๋ฒ ์คํธ๋จผํธยท์ปดํผ๋์ผ์ดํํธ๋์ค) |
| 2020.10 | SideGuide (IROS 2020) ๋ ผ๋ฌธ ์ฑ๊ณผ โ Large-scale Sidewalk Dataset |
| 2020.11 | ๋ฐ์ดํฐ์คํ์ฆ ์ต์ฐ์์ (๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถ์ฅ๊ด์) |
๐ Scale-Up & Global Recognition (2021โ2022)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2021.01 | Samsung C-Lab Outside ์ ์ |
| 2021.04 | ๐ Forbes "30 Under 30 Asia" Enterprise Technology ์ ์ (๊ณต๋์ฐฝ์ ์ 4์ธ) |
| 2021.11 | KLUE NeurIPS 2021 Datasets & Benchmarks ๋ ผ๋ฌธ ์ฑ๊ณผ |
| 2022.01 | CES 2022 ์ฐธ์ฌ (Samsung C-Lab) |
| 2022.02 | ์ 1๊ธฐ ์ธ๊ณต์ง๋ฅ ์ค๋ฆฌ ์ ์ฑ ํฌ๋ผ ๊ธฐ์ ๋ถ๊ณผ ์์ ์ ์ |
| 2022.03 | Instance-wise Occlusion and Depth Orders CVPR 2022 ๋ ผ๋ฌธ ์ฑ๊ณผ |
| 2022.07 | Series A Extension 90์ต ํฌ์ ์ ์น |
| 2022.07 | ๊ธฐ์ ํ์ ํ ์ค์๊ธฐ์ (inno-Biz) ์ธ์ฆ |
| 2022.11 | KOLD (EMNLP 2022), CochlScene (APSIPA 2022), Split-GCN (TPAMI, 1์ ์) ๋ ผ๋ฌธ ์ฑ๊ณผ |
๐ง LLM Era & AI Safety (2023โ2024)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2023.05 | Series A Extension 40์ต ํฌ์ ์ ์น (์ฐ์ ์ํ) |
| 2023.06 | AI ๊ธฐ๋ฐ ๊ตญ๋ฐฉ ํ์ ํฌ๋ผ ๋์ (์ก๊ตฐ์ฐธ๋ชจ์ด์ฅ์) |
| 2023.07 | "AI Talk with Andrew Ng" ํ์ฌ Keynote Speaker |
| 2023.10 | Samsung Developer Conference 2023 ์ฐ์ฌ ์ฐธ์ฌ |
| 2023.11 | ๋ํ๋ฏผ๊ตญ Digital Innovation Award ํน๋ณ์ |
| 2023.12 | Analyzing Norm Violations in Live-Stream Chat EMNLP 2023 ๋ ผ๋ฌธ ์ฑ๊ณผ |
| 2023.12 | ๊ตญ๋ด ์ต์ด "์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ์ ๋ขฐ์ฑ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ " ๊ตฌ์ถ (NIA) |
| 2024.04 | Gen AI Korea 2024: ์์ฑํ AI ๋ ๋ํ ์ฑ๋ฆฐ์ง ์ปจํผ๋ฐ์ค ๊ธฐํยท์ด์ (๊ณผ๊ธฐ์ ํต๋ถ) |
| 2024.08 | KorNAT ACL 2024 Findings ๋ ผ๋ฌธ ์ฑ๊ณผ โ ๊ตญ๋ด AI ๋ฐ์ดํฐ ๊ธฐ์ ์ต์ด ๊ธ๋ก๋ฒ Top AI ํํ ๋ฐ์ดํฐ์ 1์ ์ ๋ ผ๋ฌธ |
| 2024.10 | KT 'Responsible AI ์๋ฌธ ์์ํ' ์๋ฌธ์ ์์ ์ ์ |
| 2024.11 | ์ 2ํ ์ธ๊ณต์ง๋ฅ ์ ๋ขฐ์ฑ ๋์ ์ฐ์์ (์ ๋ณดํต์ ์ ์ฑ ์ฐ๊ตฌ์ ์์ฅ์) |
| 2024.11 | GSMA AI Summit 2024 ์ฐ์ฌ ์ฐธ์ฌ |
| 2024.12 | ๊ตญ๋ด ์ต์ด LLM ๋ฌดํด์ฑ ํ๊ฐ ๋ฐ์ดํฐ DQ(Data Quality) ์ธ์ฆ ํ๋ (TTA) |
| 2024.12 | 2024 ์์์AI๋์ ๋ฒค์ฒ๊ธฐ์ ํํ ํ์ฅ์ |
๐ Agentic AI & Global Expansion (2025โ2026)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2025.02 | Datumo Eval ์ถ์ โ ๊ตญ๋ด ์ต์ด LLM ์๋ํ ํ๊ฐ ํ๋ซํผ |
| 2025.03 | Gen AI Red Team Challenge ๊ณต๋ ๊ฐ์ต (MWC Barcelona, GSMA) โ ์ธ๊ณ ์ต์ด ์คํ๋ผ์ธ ๊ธ๋ก๋ฒ ๋ ๋ํ ์ฑ๋ฆฐ์ง |
| 2025.04 | AI ๊ธฐ๋ณธ๋ฒ ์์ ์ฑ ๊ฐ์ด๋๋ผ์ธ TF ์์ ์ ์ (๊ณผ๊ธฐ์ ํต๋ถยทAI์์ ์ฐ๊ตฌ์, ๊น์ธ์ฝ ๋ํ) |
| 2025.05 | ๐ Forbes Korea "2025 ๋ํ๋ฏผ๊ตญ AI 50" ์ ์ |
| 2025.06 | ์ผ์ฑ๊ธ์ต C-Lab Outside ์ต์ข ์ ์ (์ผ์ฑ์๋ช ๊ธ์ต AI ์ ๋ขฐ์ฑ ๊ฒ์ฆ ํ์ ) |
| 2025.07 | ๋ฏผ๊ฐ AI ์ ๋ขฐ์ฑ ์ธ์ฆ 'AI-MASTER' ์ํ๊ธฐ๊ด ์ฐธ์ฌ (๊ตญ๋ด ์ต์ด ๋ฏผ๊ฐ ์ฃผ๋ ์ฒด๊ณ) |
| 2025.08 | Series B 205์ต์ ํฌ์ ์ ์น |
| 2025.08 | ๐ Forbes Asia "100 ์ ๋ง ๊ธฐ์ 2025" ์ ์ |
| 2025.08 | ๋ ์ AI ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(๋ ํ๋ชจ) ์ ์ํ ์ ๋ฐ (SKT ์ปจ์์์ ๋ฐ์ดํฐ ์ด๊ด) |
| 2025.09 | ๊ตญ๊ฐ์ธ๊ณต์ง๋ฅ์ ๋ต์์ํ ๋ฐ์ดํฐ ๋ถ๊ณผ์์ ์์ด (๊น์ธ์ฝ ๋ํ) |
| 2025.09 | ์์ฝ์ฒ ์ฒจ๋จ AI ๋์งํธ ์๋ฃ์ ํ ๋ ๋ํ ์ฑ๋ฆฐ์ง ํ์ โ ์์์ ์ฒซ '์๋ฃ ๋ ๋ํ' |
| 2025.10 | ์ผ์ฑ๊ธ์ต C-Lab Outside ์ต์ฐ์ ์คํํธ์ ์ ์ (์ผ์ฑ์๋ช ) |
| 2025.11 | CAC-CoT ยท CoBA ยท GRADE EMNLP 2025 ๋ ผ๋ฌธ 3ํธ ๋์ ๋ฑ์ฌ |
| 2025.11 | 2025 ์ด๋ฐ์ผ๋ฆฌ AI ์ฝ๋ฆฌ์ ๋์ (ํ๊ตญ์ธ๊ณต์ง๋ฅ์ฐ์ ํํ์ฅ์) |
| 2025.11 | Good AI Awards 2025 NIA ์์ฅ์ |
| 2025.12 | Series B 55์ต์ ์ถ๊ฐ ํฌ์ โ ๋์ ํฌ์ 434์ต์ ๋ํ |
| 2026.01 | ๐ฐ๐ท ๋ ์ AI ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(๋ ํ๋ชจ) 1์ฐจ ํต๊ณผ (SKT ์ปจ์์์) |
| 2026.02 | CAGE ICLR 2026 Main Conference ๋ ผ๋ฌธ ์ฑ๊ณผ |
| 2026.03 | GSMA 'Open Telco AI' ๊ธ๋ก๋ฒ ์ฐํฉ์ฒด ๊ณต์ ํํธ๋ ํฉ๋ฅ (MWC Barcelona) |
| 2026.03 | MWC 2026 Gen AI Red Team Challenge ๊ณต๋ ์ฃผ๊ด (GSMA ยท LG U+) |
๐ Publications
์ ๋ ํธ์คํ๊ฐ ๋จ๋ ยท๊ณต๋ยท์ง์ ์ฐธ์ฌํ ๋ ผ๋ฌธ ๋ชฉ๋ก์ ๋๋ค. ๊ตญ์ AIยทML Top ํํ ์ค์ฌ์ผ๋ก ์ ๋ฆฌํ์ต๋๋ค.
๐ฅ 2026 (5ํธ)
| Paper | Co-authors | Venue |
|---|---|---|
| STAR-Teaming: A Strategy-Response Multiplex Network Approach to Automated LLM Red Teaming | Selectstar | ACL 2026 |
| FinRED: An Expert-Guided Red-Teaming Benchmark for Financial LLM Safety | Selectstar ยท ๊ธ์ต๋ณด์์ AIํ์ ์ค | KDD 2026 Dataset & Benchmark Track |
| CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation | Selectstar | ICLR 2026 Main |
| E-star-12B: Rubric-Following Evaluator Adaptive Across Industrial Domains | Selectstar | ACL 2026 Workshop (์งํ ์ค) |
| ATA: Autonomous Tabular-data Analysis for Insight Generation via Statistical Methods | Selectstar ยท ์ผ์ฑ์ฆ๊ถ ๊ธ์ตAI์ผํฐ | ARR ์ ์ถ |
๐ 2025 (3ํธ)
| Paper | Co-authors | Venue |
|---|---|---|
| CoBA: Counterbias Text Augmentation for Mitigating Various Spurious Correlations via Semantic Triples | Selectstar ยท ์ค์๋ํ๊ต | EMNLP 2025 Main |
| GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation | Selectstar ยท KAIST | EMNLP 2025 Findings |
| CAC-CoT: Connector-Aware Compact Chain-of-Thought for Efficient Reasoning Data Synthesis Across Dual-System Cognitive Tasks | Selectstar | EMNLP 2025 Findings |
๐ 2024 (1ํธ)
| Paper | Co-authors | Venue |
|---|---|---|
| KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge | Selectstar ยท KAIST ยท SKT ยท LG ยท ๋ค์ด๋ฒ ยท KT ยท NIA | ACL 2024 Findings |
๊ตญ๋ด AI ๋ฐ์ดํฐ ๊ธฐ์ ์ต์ด ๊ธ๋ก๋ฒ Top AI ํํ์ ๋ฐ์ดํฐ์ ์ฃผ์ 1์ ์ ๋ ผ๋ฌธ ๋ฑ์ฌ
๐ 2021โ2023 (5ํธ)
| Year | Paper | Venue |
|---|---|---|
| 2023 | Analyzing Norm Violations in Live-Stream Chat | EMNLP 2023 |
| 2022 | KOLD: Korean Offensive Language Dataset | EMNLP 2022 |
| 2022 | Split-GCN: Effective Interactive Annotation for Segmentation of Disconnected Instance | IEEE TPAMI (1์ ์) |
| 2022 | Instance-wise Occlusion and Depth Orders | CVPR 2022 |
| 2022 | CochlScene: Acquisition of acoustic scene data using crowdsourcing | APSIPA 2022 |
| 2021 | KLUE: Korean Language Understanding Evaluation | NeurIPS 2021 Datasets & Benchmarks |
| 2020 | SideGuide: A Large-scale Sidewalk Dataset for Guiding Impaired People | IROS 2020 |
์ ์ฒด ๋ ผ๋ฌธ ๋ชฉ๋ก ๋ฐ ์์ธ ๋ด์ฉ์ ๋ธ๋ก๊ทธ ๋๋ ๋ฌธ์ํ๊ธฐ๋ฅผ ํตํด ํ์ธํ์ค ์ ์์ต๋๋ค.
๐ค Connect
| ๐ Website | selectstar.ai |
| ๐ฐ Blog | selectstar.ai/blog |
| ๐ผ Enterprise inquiries | Contact form |
| ๐ฌ Community | Discussion tab |
| ๐ Updates | HuggingFace ํ๋ก์ฐ๋ก ์ ๋ฆด๋ฆฌ์ฆ ์๋ฆผ ๋ฐ๊ธฐ |