Spaces:
Sleeping
Sleeping
| title: Cafeteria Multimodal Menu Classifier | |
| emoji: ๐ฑ | |
| colorFrom: pink | |
| colorTo: purple | |
| sdk: gradio | |
| sdk_version: "3.41.2" | |
| app_file: app.py | |
| pinned: false | |
| # ํ์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ฉ๋ด ๋ถ์ ์น์ฑ | |
| ConvNeXt ยท CLIP ยท BLIP ๊ธฐ๋ฐ ์๋ ํ์ ๋ถ๋ฅ & ์บก์ ์์ฑ & ์นผ๋ก๋ฆฌ ๋ถ์ ์์คํ | |
| ๋ณธ ์น ์ ํ๋ฆฌ์ผ์ด์ ์ ํ์(๊ตฌ๋ด์๋น) ๋ฉ๋ด ์ด๋ฏธ์ง๋ฅผ ์ ๋ก๋ํ๋ฉด, | |
| ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ๊ณผ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ฉ๋ด๋ฅผ ์๋์ผ๋ก ์์ธกํ๊ณ | |
| ์นผ๋ก๋ฆฌ, ์ ์ฌ ๋ฉ๋ด, ์ด๋ฏธ์ง ์ค๋ช ๋ฑ์ ์ ๊ณตํ๋ ํ๋ก์ ํธ์ ๋๋ค. | |
| --- | |
| ## ํ๋ก์ ํธ ๊ฐ์ | |
| ์ด ์์คํ ์ ์ด 3๊ฐ์ AI ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ์์ฑ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ถ์ ์๋น์ค์ ๋๋ค. | |
| ### 1) ConvNeXt-Base | |
| - 17๊ฐ์ โ๋ณํฉ ๋๋ถ๋ฅโ ๋ฉ๋ด๋ฅผ ๋ถ๋ฅ | |
| - ํ์ ์ด๋ฏธ์ง 5,120์ฅ์ผ๋ก ์ง์ ์ฌํ์ต | |
| - Top-1 ๋ฐ Top-3 ํ๋ฅ ์ ๊ณต | |
| ### 2) CLIP | |
| - ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ๋น๊ต | |
| - ๋๋ถ๋ฅ ๊ธฐ์ค ์ ์ฌ ๋ฉ๋ด Top-3 ์ถ์ฒ | |
| ### 3) BLIP | |
| - ์ด๋ฏธ์ง ์บก์ ์์ฑ (์๋ฌธ ์ค๋ช ์ ๊ณต) | |
| ### 4) ์นผ๋ก๋ฆฌ + ํ๋๋ ๊ธฐ๋ฐ ๋ง์ถค ์ฝ๋ฉํธ | |
| - ์ธ๋ถ ๋ฉ๋ด๋ณ ๋๋ต์ ์ธ ์นผ๋ก๋ฆฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, | |
| ์นผ๋ก๋ฆฌ ์ถ์ ์น๋ ์์ฝ์ฒยท๊ตญ๊ฐํ์ค์ํ์ฑ๋ถ DB(Korean Food Composition Database)์ โ์ ์ฌ ์์๊ตฐโ 1์ธ๋ถ ์ด๋ ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์ฐ์ถ๋๋ฉฐ, ์ค์ ํ์ ๋ฉ๋ด์ ๋์ผํ์ง ์์ ์ ์์ต๋๋ค. | |
| - ์ฌ์ฉ์๊ฐ ์ ํํ ์ค๋์ ํ๋๋(๊ฑฐ์ ์ ์์ง์ / ๋ณดํต ํ๋ / ๋ง์ด ์์ง์)์ ๋ฐ๋ผ | |
| โ์ ์ ํด์ / ์กฐ๊ธ ๋ง์์ / ์กฐ๊ธ ์ ์ด์โ ๋ฑ์ ๊ฐ๋จํ ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค. | |
| - ํด๋น ์ฝ๋ฉํธ๋ ๊ฑด๊ฐยท์ํ์ ์กฐ์ธ์ด ์๋๋ฉฐ ์ฐธ๊ณ ์ฉ์ผ๋ก๋ง ์ ๊ณต๋ฉ๋๋ค. | |
| --- | |
| ## ๊ธฐ๋ฅ ์์ฝ | |
| | ๊ธฐ๋ฅ | ์ค๋ช | | |
| |------|------| | |
| | ์ด๋ฏธ์ง ์ ๋ก๋ | ํ์ ์ฌ์ง ์ ๋ ฅ | | |
| | ConvNeXt ๋ฉ๋ด ๋ถ๋ฅ | 17๊ฐ ๋ณํฉ ํด๋์ค ์ค 1๊ฐ ์์ธก | | |
| | ์ธ๋ถ ๋ฉ๋ด ์ ํ | 27๊ฐ ์ธ๋ถ ๋ฉ๋ด ์ค ์ ํ ๊ฐ๋ฅ | | |
| | ์นผ๋ก๋ฆฌ ๋ถ์ | ์์ฝ์ฒยท๊ตญ๊ฐํ์ค์ํ์ฑ๋ถ DB ๊ธฐ๋ฐ โ๋น์ทํ ์์โ์ 1์ธ๋ถ ์ด๋์ ๋ฐํ์ผ๋ก ํ์ ๋ฉ๋ด์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ์ผ๋ก ์ถ์ ํ ์นผ๋ก๋ฆฌ ์ ๊ณต | | |
| | ํ๋๋ ๊ธฐ๋ฐ ํผ๋๋ฐฑ | ์ค๋ ํ๋๋ ๊ธฐ์ค "์ ์ /๊ณผํจ/๋ถ์กฑ" ํ์ | | |
| | CLIP ์ ์ฌ ๋ฉ๋ด | ์ ์ฌ ๋ฉ๋ด Top-3 ์ถ์ฒ | | |
| | BLIP ์บก์ | ์ด๋ฏธ์ง ์บก์ ์์ฑ (์๋ฌธ) | | |
| --- | |
| ## ์ฌ์ฉํ๋ AI ๋ชจ๋ธ | |
| - ConvNeXt-Base | |
| ํ์ต ์๋ฃ๋ 17ํด๋์ค ์์ ๋ถ๋ฅ ๋ชจ๋ธ | |
| - CLIP | |
| ํ ์คํธ ์ ์ฌ๋ ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ถ๋ฅ | |
| - BLIP | |
| ์ด๋ฏธ์ง ์บก์ ์์ฑ | |
| --- | |
| ## ํ๋ก์ ํธ ๊ตฌ์กฐ | |
| โโโ app.py # Gradio ์น์ฑ ๋ฉ์ธ ์ฝ๋ | |
| โโโ requirements.txt # ํ์ํ Python ํจํค์ง | |
| โโโ models/ | |
| โ โโโ convnext_base_merged_ema.pth # ํ์ต๋ ConvNeXt ๊ฐ์ค์น | |
| โโโ multimodal_assets/ | |
| โ โโโ clip_text_embeds.pt # CLIP ํ ์คํธ ์๋ฒ ๋ฉ | |
| โโโ system_card.md # ๋ชจ๋ธยท์์คํ ์ค๋ช ๋ฌธ์ | |
| --- | |
| ## ์ฌ์ฉ ๋ฐฉ๋ฒ | |
| 1. ํ์ ์ฌ์ง ์ ๋ก๋ | |
| 2. ํ๋๋(๊ฑฐ์ ์ ์์ง์ / ๋ณดํต / ๋ง์ด ์์ง์) ์ ํ | |
| 3. ์ธ๋ถ ๋ฉ๋ด ์ง์ ์ ํ ๋๋ โ๋ชจ๋ธ์ ๋งก๊ธฐ๊ธฐโ ์ ์ง | |
| 4. โ๋ถ์ ์คํโ ๋ฒํผ ํด๋ฆญ | |
| 5. ๊ฒฐ๊ณผ ํ์ธ | |
| --- | |
| ## ์ ํ ์ฌํญ | |
| - ์นผ๋ก๋ฆฌ ์ ๋ณด๋ ์ฐธ๊ณ ์ฉ์ด๋ฉฐ ์ค์ ์์๊ณผ ๋ค๋ฅผ ์ ์์ต๋๋ค. | |
| - BLIP ์บก์ ์ ์ด๋ฏธ์ง ํน์ฑ์ ๋ฐ๋ผ ๋ถ์ ํํ๊ฑฐ๋ ๋จ์ํ ์ค๋ช ์ ์ ๊ณตํ ์ ์์ต๋๋ค. | |
| - ํ์ ์ด๋ฏธ์ง ์ค์ฌ์ผ๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ ์์ ์ด๋ฏธ์ง์๋ ์ ํ๋๊ฐ ๋ฎ์ ์ ์์ต๋๋ค. | |
| --- | |
| ## ๋ผ์ด์ ์ค & ์ ์๊ถ | |
| - ConvNeXt: MIT | |
| - CLIP: OpenAI License | |
| - BLIP: BSD | |
| - ํ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ : ์ง์ ์์ง (๊ฐ์ธ์ ๋ณด ์์) | |
| - ๋ณธ ํ๋ก์ ํธ๋ ๊ต์กยท์ฐ๊ตฌ ๋ชฉ์ ์ ๋๋ค. | |
| --- | |
| ## ์์คํ ์นด๋ (System Card) | |
| ๋ณธ ์น ๋ฐ๋ชจ๋ ํ์ ์ค์บ๋ ์์คํ ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, | |
| ์์คํ ์ ๋ํ ์์ธ ์ค๋ช ๊ณผ ์ค๊ณ ๋ด์ฉ์ ์๋ ์์คํ ์นด๋์์ ํ์ธํ ์ ์์ต๋๋ค. | |
| ์์คํ ์นด๋: | |
| https://huggingface.co/simkyuri/cafeteria-food-scanner-system | |
| Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference | |