Configuration Parsing Warning: Config file config.json cannot be fetched (too big)
Configuration Parsing Warning: Config file tokenizer_config.json cannot be fetched (too big)
模型簡介
- TAIDE計畫致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型,同時建構可信任的人工智慧環境。結合產學研能量,推動可信任生成式人工智慧的發展,提升台灣在國際競爭中的地位,促進產業發展,避免對外國技術的依賴。
- Gemma 3 TAIDE 系列模型以 Google 公司釋出的 Gemma-3-12b-pt 為基礎,導入台灣不同領域可用的文本與訓練素材,提高模型在正體中文回應的能力與特定任務的表現。公開釋出的模型如下:
- Gemma-3-TAIDE-12b-Chat-2602: 以 Gemma-3-12b-pt 為基礎,使用正體中文資料預訓練(continual pretraining)以及中期訓練(mid-training),並透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力,適合聊天對話或任務協助的使用情境。
支援模態
- 輸入:文字(由於沒有進行圖片資料的訓練,故建議僅以文字輸入)
- 輸出:文字
模型參數
| 參數 | 值 |
|---|---|
| 基礎模型 (Base Model) | google/gemma-3-12b-pt |
| 模型參數量 (Parameters) | 12.4B |
| 最大上下文長度 (Context Length) | 128K |
| 繁中訓練資料量 (Training Data) | 22B Tokens |
| 訓練硬體 (Training Hardware) | NVIDIA H200 GPU |
| 訓練時數 (Training Time) | 1,520 GPU Hours |
更新摘要
- 加入中期訓練:以高品質台灣資料進行中期訓練,加強模型對台灣特有知識的掌握。
特色
- 在地化知識:提升對台灣文化、地理、歷史及社會現象的理解。
- 用語習慣:修正翻譯腔,使其更符合台灣使用者的日常用語與專業術語習慣。
- 指令遵循:增強模型對於複雜指令的理解與執行能力。
應用範例
| 任務 | 使用者輸入 | 模型輸出 |
|---|---|---|
| 應用寫作 | 我正在準備一場有關網路詐騙的宣導講座,請給我一份大約一小時的講座大綱,必須安排至少三個台灣常見網路詐騙手法的解析。 | 好的,這是一份約一小時的網路詐騙宣導講座大綱,包含三個台灣常見詐騙手法的解析: 講座名稱: 網路詐騙防護:識破陷阱,守護您的資產 目標聽眾: 一般大眾,特別是容易成為詐騙目標的族群(例如:長者、學生、家庭主婦等) 講座時間: 約60分鐘 講座大綱: 一、開場 (5分鐘) * 破冰與引言: * 以近期新聞案例或聽眾可能遇到的詐騙情境開場,引起共鳴。 * 強調網路詐騙的危害性,以及保護個人資訊的重要性。 * 簡要介紹講座目的:提升聽眾對網路詐騙的警覺性,學習防護技巧。 * 網路詐騙現況: * 簡述台灣網路詐騙的趨勢與常見手法。 * 強調詐騙手法不斷推陳出新,需要不斷學習。 二、常見網路詐騙手法解析 (30分鐘) * 詐騙手法一:假冒政府機關/公務人員詐騙 (10分鐘) * 案例分享: 假冒警察、檢察官、銀行人員等,以「您涉嫌洗錢」、「帳戶異常」等理由,要求提供個人資料、轉帳或交付金錢。 * 詐騙手法解析: * 詐騙集團利用民眾對公權力的恐懼,製造緊迫感。 * 偽造官方文件或來電顯示,增加可信度。 * 要求私下交易,避免留下紀錄。 * 防護技巧: * 政府機關不會以電話要求提供個人資料或轉帳。 * 接到可疑電話,務必掛斷電話,直接撥打110或相關機構的官方電話查證。 * 不輕易相信來電顯示,詐騙集團可以偽造號碼。 * 詐騙手法二:網路購物詐騙 (10分鐘) * 案例分享: 低價誘惑、一頁式廣告、未提供退換貨資訊、收到與描述不符的商品等。 * 詐騙手法解析: * 利用消費者對低價商品的渴望。 * 使用虛假廣告或社群媒體進行宣傳。 * 不提供真實的聯絡方式或退換貨資訊。 * 防護技巧: * 選擇信譽良好、有評價的購物平台。 * 仔細閱讀商品描述、評價和退換貨政策。 * 使用安全的付款方式,避免直接轉帳給賣家。 * 不輕易相信過於優惠的價格。 * 詐騙手法三:愛情詐騙/投資詐騙 (10分鐘) * 案例分享: 在網路上認識對象,以甜言蜜語取得信任,再以投資、借款等理由要求金錢。 * 詐騙手法解析: * 詐騙集團利用人性的弱點,例如:渴望愛情、追求財富。 * 營造虛假的身份和背景,例如:駐外軍人、成功商人。 * 以高報酬、低風險為誘餌,吸引受害者投資。 * 防護技巧: * 在網路上認識的人,務必謹慎對待。 * 不輕易相信陌生人的甜言蜜語。 * 投資前務必查證相關資訊,不輕易相信高報酬的投資機會。 * 不隨意轉帳給不認識的人。 三、網路詐騙防護技巧 (15分鐘) * 個資保護: * 設定複雜的密碼,並定期更換。 * 不隨意點擊不明連結或下載可疑檔案。 * 謹慎提供個人資料,避免洩露。 * 釣魚郵件/簡訊: * 不隨意開啟不明郵件或簡訊。 * 仔細檢查郵件/簡訊的發件人地址和內容。 * 不點擊郵件/簡訊中的連結或下載附件。 * 常用App安全設定: * 定期檢查App權限設定,避免不必要的權限。 * 開啟App的雙重驗證功能。 * 遇到詐騙怎麼辦? * 立即報警。 * 向銀行或金融機構申請止付。 * 向相關單位檢舉。 四、問答環節 (10分鐘) * 開放聽眾提問,解答聽眾的疑問。 * 提供相關資源,例如:165反詐騙專線、警政署網站等。 備註: * 講座內容可根據聽眾的背景和需求進行調整。 * 可以準備一些詐騙案例的圖片或影片,增加講座的吸引力。 * 講座過程中,可以穿插一些互動環節,例如:小測驗、情境模擬等,增加聽眾的參與度。 * 講座結束後,可以提供相關的防詐騙資料,供聽眾參考。 希望這份講座大綱對您有所幫助! |
| 寫信 | 近來主管對我下班已讀不回訊息頗有微詞,甚至在整個部門的email串中提及此事。請幫我寫一封信,以委婉但堅定的語氣說明我希望在上班時間內專心完成工作,下班後另有私人要事,實在不便處理工作事務,然若是可以立即回答的問題,會盡可能即時回覆。整封信的語氣必須專業有禮貌,且必須考慮部門中其他同事也會看到。 | 好的,以下是一封您可以參考的信件範本,語氣委婉堅定,並考慮到其他同事也會看到: 主旨:關於下班後訊息回覆的說明 [主管姓名]您好, 感謝您一直以來對我的指導與協助。 近日,我注意到您在部門郵件中提及我下班後訊息的回覆狀況,我深感抱歉可能造成您的不便。 我想向您說明,我目前的工作安排與私人事務安排較為緊湊。為了能在工作時間內專注於各項任務的完成,並確保工作品質,我習慣將下班後的時間保留給個人事務。 我了解工作訊息的重要性,若是在非工作時間收到可以立即處理的問題,我會盡力在確認狀況後盡快回覆。但若問題較為複雜,需要較長時間思考或處理,我會在工作時間內優先處理,以確保能提供更完善的解答。 我深知團隊合作的重要性,也樂於在上班時間與同事們互相協助。我會盡力在工作時間內保持積極的溝通,並隨時準備好迎接挑戰。 再次感謝您的體諒與支援。 順頌 商祺 [您的姓名] [您的職位] 注意事項: * 請將[主管姓名]、[您的姓名]、[您的職位]替換成您的實際資訊。 * 您可以根據實際情況調整信件內容,例如,如果您的私人要事是家庭事務,可以稍微提及,但避免過度詳述。 * 在寄出前,請仔細檢查信件內容,確保語氣委婉堅定,且沒有任何不當言論。 * 如果您的主管比較直接,您可以稍微加強語氣,但仍要保持禮貌。 * 如果信件被其他同事看到,請確保您的信件內容不會讓他們覺得您不尊重工作。 希望這封信能幫助您順利溝通,並改善與主管的關係。 |
| 摘要 | 請將這篇文章精簡條理化:「產業創新條例第10條之2及第72條條文修正案」俗稱「台版晶片法」,針對半導體、電動車、5G等技術創新且居國際供應鏈關鍵地位公司,提供最高25%營所稅投抵優惠,企業適用要件包含當年度研發費用、研發密度達一定規模,且有效稅率達一定比率。 為因應經濟合作暨發展組織(OECD)國家最低稅負制調整,其中有效稅率門檻,民國112年訂為12%,113年料將提高至15%,但仍得審酌國際間最低稅負制實施情形。 經濟部官員表示,已和財政部協商進入最後階段,除企業研發密度訂在6%,目前已確認,企業購置先進製程的設備投資金額達100億元以上可抵減。 財政部官員表示,研商過程中,針對台灣產業與其在國際間類似的公司進行深入研究,在設備部分,畢竟適用產創10之2的業者是代表台灣隊打「國際盃」,投入金額不達100億元,可能也打不了。 至於備受關注的研發費用門檻,經濟部官員表示,歷經與財政部來回密切討論,研發費用門檻有望落在60億至70億元之間。 財政部官員指出,研發攸關台灣未來經濟成長動能,門檻不能「高不可攀」,起初雖設定在100億元,之所以會調降,正是盼讓企業覺得有辦法達得到門檻、進而適用租稅優惠,才有動力繼續投入研發,維持國際供應鏈關鍵地位。 經濟部官員表示,因廠商研發費用平均為30、40億元,其中,IC設計業者介於30億至60億元範圍,若將門檻訂在100億元,符合條件的業者較少、刺激誘因不足;此外,若符合申請門檻的業者增加,將可提高企業在台投資金額,財政部稅收也能因此獲得挹注。 IC設計業者近日頻頻針對產創10之2發聲,希望降低適用門檻,加上各國力拚供應鏈自主化、加碼補助半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,爭取讓更多業者受惠,盼增強企業投資力道及鞏固台灣技術地位。 財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達到獎勵設置目的為最高原則,現階段在打「國內盃」的企業仍可適用產創第10條、10之1的租稅優惠,共同壯大台灣經濟發展。 經濟部和財政部正就研發費用門檻做最後確認,待今明兩天預告子法之後,約有30天時間,可與業界進一步討論及調整,盼產創10之2能在6月上路。 |
「台版晶片法」修正案重點: - 針對半導體、電動車、5G等關鍵技術企業,提供最高25%營所稅投抵優惠。 - 適用條件包括研發費用、研發密度、有效稅率等。 - 因應OECD最低稅負制,有效稅率門檻將逐年提高,但仍可彈性調整。 - 設備投資門檻為100億元以上,研發費用門檻預計落在60至70億元間。 - 門檻調降旨在鼓勵企業投入研發,維持國際供應鏈關鍵地位。 - 增加符合門檻的企業數量,有助於提升企業投資及稅收。 - 財政部強調租稅獎勵需「有為有守」,並兼顧國內企業發展。 - 預計6月上路,預告子法後給予業界30天討論及調整時間。 |
| 翻譯 | 以下提供英文內容,請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados. | 東山咖啡因其獨特的地理位置和生產方法的持續精進而聞名。其風味深受許多咖啡愛好者的讚賞。 |
使用說明
Prompt 格式
支援標準的 Chat Template 格式。
- 一般問答用法
chat = [ {"role": "user", "content": "{question}"}, ] prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)- 將 {question} 替換成使用者的輸入
- System Prompt 用法
chat = [ {"role": "system", "content": "{sys}"}, {"role": "user", "content": "{question}"}, ] prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)- 將 {sys} 替換成指令。
- 將 {question} 替換成使用者的問題
- 多輪問答用法
chat = [ {"role": "system", "content": "{sys}"}, {"role": "user", "content": "{question1}"}, {"role": "assistant", "content": "{model_anwer_1}"}, {"role": "user", "content": "{question2}"}, ] prompt = tokenizer.apply_chat_template(chat)- 將 {sys} 替換成指令,例如:你是一個來自台灣的AI助理,你的名字是 TAIDE,樂於以台灣人的立場幫助使用者,會用正體中文回答問題。
- 將 {question1} 替換成使用者的問題1
- 將 {model_anwer_1} 替換成模型的回答1
- 將 {question2} 替換成使用者的問題2
- 更多細節請參考Gemma 3 Model Card
快速開始 (Quick Start)
以下提供兩種推論方式的範例程式碼:使用 transformers 與 vLLM。
方法一:使用 Transformers
建議使用 bfloat16 以節省記憶體並保持效能。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "taide/Gemma-3-TAIDE-12b-Chat-2602"
# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16
)
# Prepare conversation content
messages = [
{"role": "system", "content": "你是一個來自台灣的AI助理,你的名字是 TAIDE,樂於以台灣人的立場幫助使用者,會用正體中文回答問題。"},
{"role": "user", "content": "請推薦三個台灣的旅遊景點。"},
]
# Convert to input format
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
# Generate response
outputs = model.generate(
input_ids,
max_new_tokens=2048,
do_sample=True,
temperature=0.1,
top_p=0.9,
)
# Decode output
response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)
方法二:使用 vLLM
vLLM 可顯著提升推論速度。請確保你的 vLLM 版本支援 Gemma 3 模型。
from vllm import LLM, SamplingParams
model_id = "taide/Gemma-3-TAIDE-12b-Chat-2602"
# Initialize vLLM
llm = LLM(model=model_id, dtype="bfloat16", trust_remote_code=True)
# Set sampling parameters
sampling_params = SamplingParams(
temperature=0,
max_tokens=2048,
stop_token_ids=[1, 106]
)
# Prepare conversation content (vLLM supports passing a list of messages directly)
messages = [
{"role": "system", "content": "你是一個來自台灣的AI助理,你的名字是 TAIDE。"},
{"role": "user", "content": "請寫一首關於阿里山日出的短詩。"}
]
# Run inference
outputs = llm.chat(messages=messages, sampling_params=sampling_params)
# Display results
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Output: {generated_text}")
訓練方法
- 軟硬體規格
- 國網中心 H200
- 訓練框架: PyTorch
- 資料前處理
- 字元標準化
- 去除重覆
- 去除雜訊
- 網頁資料的html tag、javascript
- 非標準字元或亂碼
- 字數過短的文章
- 去除文章中的特定格式,如為排版增加的換行
- 去除個資,如email、電話
- 去除不當文字,如賭博、色情等
- 持續預訓練 (Continual pretraining, CP)
- 補充大量來源可信賴的正體中文知識
- 超參數 (hyper parameters)
- optimizer: FusedAdam
- learning rate: 1e-4
- batch size: 2M tokens
- epoch: 1
- 中期訓練(Mid-training)
- 補充台灣相關的高品質知識
- 超參數 (hyper parameters)
- optimizer: FusedAdam
- learning rate: 0.7e-4
- batch size: 1M tokens
- epoch: 1
- 監督式微調 (Supervised fine-tuning, SFT)
- 讓模型可針對正體中文提問回答問題
- 超參數 (hyper parameters)
- optimizer: FusedAdam
- learning rate: 1e-5
- batch size: 1M tokens
- epoch: 5
訓練資料
持續預訓練資料
資料集 資料描述 中央社 《中央社中文新聞》資料集含中央社自1993年6月至2024年12月,共31.5年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。
《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。出版商網站書籍介紹 包含三采、Gotop出版商網站上的書籍簡介。 學術會議論文摘要 收錄《學術會議論文摘要資料庫》中自1988至2009年由台灣所舉辦之學術會議論文。 光華雜誌 《台灣光華雜誌》含自1993年7月至2023年6月的文章,共30年份。內容著重於我國文化、觀光與民情等。 樂詞網 《樂詞網》涵蓋文理領域約187萬則學術名詞及其譯名對照。 今周刊 《今周刊》為一以財經為主的週刊雜誌,此資料集涵蓋2008年1月至2023年7月的文章。 iKnow 科技產業資訊室 《科技產業資訊室(iKnow)》提供台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊,專注於科技產業的創新與發展,包含自 2008 年至 2023 年。 法規資料庫 《法規資料庫》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。 各地政府旅遊網 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 RedPajama-Data-V2 從國外開放多國語言語料庫 RedPajama-Data-v2 取出英文資料 中文維基百科 《中文維基百科》截至2023年1月所有條目的內容。 中研院 《研之有物》、《數位文化中心生命大百科》 行政院 《國情簡介》統計年度為111年。 立法院 《第10屆專案史料彙編》、《立法院公報》 司法院 《司法院裁判書》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。 內政部 《全國宗教資訊網(好人好神專區)》、《國土管理署城鄉發展分署資料集》、《國家公園季刊》、《玉山國家公園》、《墾丁國家公園》、《金門國家公園》、《陽明山國家公園》、《雪霸國家公園》 國防部 《國防雜誌》、《軍法專刊》 教育部 《成語典》,含5,338條成語,內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。
《重編國語辭典修訂本》,收錄中文單字及各類辭彙,包含讀音、部首、釋義等資訊,共約165,539筆資料。
《國語辭典簡編本》,為《重編國語辭典修訂本》的簡編版本,共45,247筆資料。
《家庭教育資源網》、《國民體育季刊》交通部 《交通安全入口網》之網站部分資訊 勞動部 《台灣勞工季刊》、《就業安全半年刊》 農業部 《農業知識入口網》、《農業部林業及自然保育署自然保育網》、《台灣林業雙月刊》、《水土保持季刊》、《農政與農情》、《水產研究》、《種苗科技專訊》 法務部 《展望與探索》 衛福部 《健康九九》、《育兒親職網》、《衛福季刊》 文化部 《iCulture_節慶專區》、《國家文化記憶庫》、《國家文化資產網_文化資產》、《台灣世界遺產潛力點》、《國立臺灣史前博物館_藏品查詢資訊系統》、《台灣文化入口網》、《文化部含所屬機關資料集》、《文化部博物之島》 國發會 《國發會_檔案支援教學網》、《台灣經濟論衡》、《檔案半年刊》 國科會 《科學發展月刊》、《科技魅癮數位季刊》、《科技大觀園》、《科技大擂臺相關資料集》、《政府補助之個別研究計畫GRB》計畫與報告摘要 海委會 《國際海洋資訊雙月刊》 客委會 《臺灣客語語料庫(文字)》、《哈客網路學院(字幕)》、《客家文化資產數位網》文資典藏、文資普查、專題報導、調查研究成果 中央銀行 《中央銀行季刊》 公共電視文化事業基金會 《公視節目字幕》 李德財教授 《中興大學李德財教授部落格》 法鼓文理學院 《財團法人佛教電子佛典基金會佛典資料》、《法鼓文理學院圖書資訊館資料》、《財團法人印順文教基金會佛學著作集》 賴鼎銘教授 《教授爸爸週記部落格文章》 民生公共物聯網 《民生公共物聯網》宣傳影片字幕及摘要 新竹市立動物園 《新竹市立動物園》網站資料 臺北市立動物園 《臺北市立動物園》網站資料 考試院 《考試院》資料 考選部 《國家考試試題資料》 微調資料
- TAIDE團隊使用Gemma-3系列模型來產生微調資料,產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答,共 200K 筆。
模型評測
- TMMLU +
- 評測資料
- STEM, Humanities, Social Sciences, Other (Business, Health, Misc.),共66個子類別,20,118 題。
- 評測方法
- 評分程式: lm-evaluation-harness
- 評測分數
模型 STEM Humanities Social Sciences Other 平均 Gemma-3-TAIDE-12b-Chat-2602 57.77 55.98 64.60 54.13 58.02 Gemma-3-TAIDE-12b-Chat 48.00 47.59 58.19 45.68 49.95 Gemma-3-12b-it 56.00 44.41 60.52 50.36 53.82 Llama-3.1-TAIDE-LX-8B-Chat 42.11 46.23 50.96 43.22 45.58 - 由於 Gemma-3-TAIDE-12b-Chat 有特別加強台灣相關知識,故同時參考 TMMLU+ 的台灣相關指標 (台灣地理、台灣用語、閩南語)。
模型 台灣地理 台灣用語 閩南語 Gemma-3-TAIDE-12b-Chat-2602 70.05 76.11 37.98 Gemma-3-TAIDE-12b-Chat 69.14 80.53 38.76 Gemma-3-12b-it 60.93 71.68 28.68 Llama-3.1-TAIDE-LX-8B-Chat 62.36 75.10 31.78
- 由於 Gemma-3-TAIDE-12b-Chat 有特別加強台灣相關知識,故同時參考 TMMLU+ 的台灣相關指標 (台灣地理、台灣用語、閩南語)。
- 評測資料
授權條款
免責聲明
- LLM 模型由於設計架構的限制,以及資料難免有偏誤,語言模型的任何回應不代表 TAIDE 立場,使用前需要額外加入安全防護機制,且回應內容也可能包含不正確的資訊,使用者請勿盡信。
開發團隊
相關連結
Citation
- Downloads last month
- 69
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 9 Ask for provider support