Spaces:
Sleeping
A newer version of the Gradio SDK is available:
6.5.1
title: Cafeteria Multimodal Menu Classifier
emoji: ๐ฑ
colorFrom: pink
colorTo: purple
sdk: gradio
sdk_version: 3.41.2
app_file: app.py
pinned: false
ํ์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ฉ๋ด ๋ถ์ ์น์ฑ
ConvNeXt ยท CLIP ยท BLIP ๊ธฐ๋ฐ ์๋ ํ์ ๋ถ๋ฅ & ์บก์ ์์ฑ & ์นผ๋ก๋ฆฌ ๋ถ์ ์์คํ
๋ณธ ์น ์ ํ๋ฆฌ์ผ์ด์
์ ํ์(๊ตฌ๋ด์๋น) ๋ฉ๋ด ์ด๋ฏธ์ง๋ฅผ ์
๋ก๋ํ๋ฉด,
์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ๊ณผ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ฉ๋ด๋ฅผ ์๋์ผ๋ก ์์ธกํ๊ณ
์นผ๋ก๋ฆฌ, ์ ์ฌ ๋ฉ๋ด, ์ด๋ฏธ์ง ์ค๋ช
๋ฑ์ ์ ๊ณตํ๋ ํ๋ก์ ํธ์
๋๋ค.
ํ๋ก์ ํธ ๊ฐ์
์ด ์์คํ ์ ์ด 3๊ฐ์ AI ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ์์ฑ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ถ์ ์๋น์ค์ ๋๋ค.
1) ConvNeXt-Base
- 17๊ฐ์ โ๋ณํฉ ๋๋ถ๋ฅโ ๋ฉ๋ด๋ฅผ ๋ถ๋ฅ
- ํ์ ์ด๋ฏธ์ง 5,120์ฅ์ผ๋ก ์ง์ ์ฌํ์ต
- Top-1 ๋ฐ Top-3 ํ๋ฅ ์ ๊ณต
2) CLIP
- ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๋น๊ต
- ๋๋ถ๋ฅ ๊ธฐ์ค ์ ์ฌ ๋ฉ๋ด Top-3 ์ถ์ฒ
3) BLIP
- ์ด๋ฏธ์ง ์บก์ ์์ฑ (์๋ฌธ ์ค๋ช ์ ๊ณต)
4) ์นผ๋ก๋ฆฌ + ํ๋๋ ๊ธฐ๋ฐ ๋ง์ถค ์ฝ๋ฉํธ
- ์ธ๋ถ ๋ฉ๋ด๋ณ ๋๋ต์ ์ธ ์นผ๋ก๋ฆฌ๋ฅผ ์ ๊ณตํ๋ฉฐ,
์นผ๋ก๋ฆฌ ์ถ์ ์น๋ ์์ฝ์ฒยท๊ตญ๊ฐํ์ค์ํ์ฑ๋ถ DB(Korean Food Composition Database)์ โ์ ์ฌ ์์๊ตฐโ 1์ธ๋ถ ์ด๋ ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์ฐ์ถ๋๋ฉฐ, ์ค์ ํ์ ๋ฉ๋ด์ ๋์ผํ์ง ์์ ์ ์์ต๋๋ค. - ์ฌ์ฉ์๊ฐ ์ ํํ ์ค๋์ ํ๋๋(๊ฑฐ์ ์ ์์ง์ / ๋ณดํต ํ๋ / ๋ง์ด ์์ง์)์ ๋ฐ๋ผ
โ์ ์ ํด์ / ์กฐ๊ธ ๋ง์์ / ์กฐ๊ธ ์ ์ด์โ ๋ฑ์ ๊ฐ๋จํ ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค. - ํด๋น ์ฝ๋ฉํธ๋ ๊ฑด๊ฐยท์ํ์ ์กฐ์ธ์ด ์๋๋ฉฐ ์ฐธ๊ณ ์ฉ์ผ๋ก๋ง ์ ๊ณต๋ฉ๋๋ค.
๊ธฐ๋ฅ ์์ฝ
| ๊ธฐ๋ฅ | ์ค๋ช |
|---|---|
| ์ด๋ฏธ์ง ์ ๋ก๋ | ํ์ ์ฌ์ง ์ ๋ ฅ |
| ConvNeXt ๋ฉ๋ด ๋ถ๋ฅ | 17๊ฐ ๋ณํฉ ํด๋์ค ์ค 1๊ฐ ์์ธก |
| ์ธ๋ถ ๋ฉ๋ด ์ ํ | 27๊ฐ ์ธ๋ถ ๋ฉ๋ด ์ค ์ ํ ๊ฐ๋ฅ |
| ์นผ๋ก๋ฆฌ ๋ถ์ | ์์ฝ์ฒยท๊ตญ๊ฐํ์ค์ํ์ฑ๋ถ DB ๊ธฐ๋ฐ โ๋น์ทํ ์์โ์ 1์ธ๋ถ ์ด๋์ ๋ฐํ์ผ๋ก ํ์ ๋ฉ๋ด์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ์ผ๋ก ์ถ์ ํ ์นผ๋ก๋ฆฌ ์ ๊ณต |
| ํ๋๋ ๊ธฐ๋ฐ ํผ๋๋ฐฑ | ์ค๋ ํ๋๋ ๊ธฐ์ค "์ ์ /๊ณผํจ/๋ถ์กฑ" ํ์ |
| CLIP ์ ์ฌ ๋ฉ๋ด | ์ ์ฌ ๋ฉ๋ด Top-3 ์ถ์ฒ |
| BLIP ์บก์ | ์ด๋ฏธ์ง ์บก์ ์์ฑ (์๋ฌธ) |
์ฌ์ฉํ๋ AI ๋ชจ๋ธ
- ConvNeXt-Base
ํ์ต ์๋ฃ๋ 17ํด๋์ค ์์ ๋ถ๋ฅ ๋ชจ๋ธ - CLIP
ํ ์คํธ ์ ์ฌ๋ ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ถ๋ฅ - BLIP
์ด๋ฏธ์ง ์บก์ ์์ฑ
ํ๋ก์ ํธ ๊ตฌ์กฐ
โโโ app.py # Gradio ์น์ฑ ๋ฉ์ธ ์ฝ๋ โโโ requirements.txt # ํ์ํ Python ํจํค์ง โโโ models/ โ โโโ convnext_base_merged_ema.pth # ํ์ต๋ ConvNeXt ๊ฐ์ค์น โโโ multimodal_assets/ โ โโโ clip_text_embeds.pt # CLIP ํ ์คํธ ์๋ฒ ๋ฉ โโโ system_card.md # ๋ชจ๋ธยท์์คํ ์ค๋ช ๋ฌธ์
์ฌ์ฉ ๋ฐฉ๋ฒ
- ํ์ ์ฌ์ง ์ ๋ก๋
- ํ๋๋(๊ฑฐ์ ์ ์์ง์ / ๋ณดํต / ๋ง์ด ์์ง์) ์ ํ
- ์ธ๋ถ ๋ฉ๋ด ์ง์ ์ ํ ๋๋ โ๋ชจ๋ธ์ ๋งก๊ธฐ๊ธฐโ ์ ์ง
- โ๋ถ์ ์คํโ ๋ฒํผ ํด๋ฆญ
- ๊ฒฐ๊ณผ ํ์ธ
์ ํ ์ฌํญ
- ์นผ๋ก๋ฆฌ ์ ๋ณด๋ ์ฐธ๊ณ ์ฉ์ด๋ฉฐ ์ค์ ์์๊ณผ ๋ค๋ฅผ ์ ์์ต๋๋ค.
- BLIP ์บก์ ์ ์ด๋ฏธ์ง ํน์ฑ์ ๋ฐ๋ผ ๋ถ์ ํํ๊ฑฐ๋ ๋จ์ํ ์ค๋ช ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
- ํ์ ์ด๋ฏธ์ง ์ค์ฌ์ผ๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ ์์ ์ด๋ฏธ์ง์๋ ์ ํ๋๊ฐ ๋ฎ์ ์ ์์ต๋๋ค.
๋ผ์ด์ ์ค & ์ ์๊ถ
- ConvNeXt: MIT
- CLIP: OpenAI License
- BLIP: BSD
- ํ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ : ์ง์ ์์ง (๊ฐ์ธ์ ๋ณด ์์)
- ๋ณธ ํ๋ก์ ํธ๋ ๊ต์กยท์ฐ๊ตฌ ๋ชฉ์ ์ ๋๋ค.
์์คํ ์นด๋ (System Card)
๋ณธ ์น ๋ฐ๋ชจ๋ ํ์ ์ค์บ๋ ์์คํ ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์์คํ ์ ๋ํ ์์ธ ์ค๋ช ๊ณผ ์ค๊ณ ๋ด์ฉ์ ์๋ ์์คํ ์นด๋์์ ํ์ธํ ์ ์์ต๋๋ค.
์์คํ ์นด๋: https://huggingface.co/simkyuri/cafeteria-food-scanner-system
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference