diff --git "a/README.md" "b/README.md"
--- "a/README.md"
+++ "b/README.md"
@@ -1,3 +1,870 @@
----
-license: apache-2.0
----
+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+- dataset_size:2162702
+- loss:CachedGISTEmbedLossWithMargin
+base_model: intfloat/multilingual-e5-small
+widget:
+- source_sentence: 'query: 11일에 충청북도에서 누가 소방본부의 책임자로 임명됐어?'
+ sentences:
+ - 'passage: 2010년 초에 발생한 또 다른 체포 사건도 사례로 제시할 만하다. 당시 우즈베키스탄 법무부 장관이 주도한 조사를 통해 최소
+ 수십 명의 비즈니스 엘리트들이 범죄에 연루되었다는 사실이 드러났다. 이 안에는 공화국 최대 은행들과 합작투자 회사, 공장, 전통시장 그리고
+ 소매시장 의 소유주들이 포함되어 있었다. 이들의 죄목은 탈세, 사기, 자금 유용에서부터 위생시설 기준 미달에 이르기까지 다양했다. 우즈베키스탄
+ 내에서 최고 갑부로 불리던 비즈니스 엘리트들을 정리하고자 한 정권의 의지는 이미 조사가 시작되기 전 카리모프 대통령이 행한 다음 연설에서 드러났었다고
+ 할 수 있다. “우즈베키스탄에는 올리가르히는 존재할 수 없을 것입니다 (중략) 만일 이것이 무슨 소리인지 못 알아 듣는 사람이 있다면 지금
+ 내 말을 귀담아 듣는 것이 좋을 것입니다.” 체포 대상이 확대되면서 적어도 두 명의 비즈니스 엘리트가 국외로 탈출했다.'
+ - "passage: 17대 충북도소방본부장에 장거래 소방준감이 지난 11일 취임했다. \n\n신임 장 본부장은 충남 연기군(현 세종시) 출신으로\
+ \ 충남대학교 행정학과를 졸업하고 동 대학원에서 국가정책 석사 학위를 취득했다. \n\n1995년 소방간부후보생 8기로 공직에 입문해 세종소방본부\
+ \ 소방행정과장, 경북소방학교장, 소방청 119종합상황실 총괄담당관, 119생활안전과장을 지냈다. \n\n장 본부장은 현업 및 정책기획 부서를\
+ \ 두루 거쳤으며 실무경험에 바탕을 둔 균형있는 시각과 리더십을 갖췄다고 평가받고 있다."
+ - 'passage: 염홍철 대전시장, 박 대표에 편지 보내 ▷ 신 행정수도건설사수 연기군 남면 비상대책위원회 소속의 강선호(36)씨와 그 일행이
+ 4일 한나라당 국회의원연찬회가 열리는 충북 제천 청풍리조트 입구에서 ‘한나라당에 의해 발목잡힌 신 행정수도건설’을 상징해 쇠사슬에 발목을 묶고
+ 1인 시위를 하고 있다. 제천/이종찬기자 한나라당 소속의 염홍철 대전시장은 4일 “한나라당이 새 행정수도 후속 대책과 관련해 정부안에 상응하거나
+ 웃도는 대책을 마련하지 않으면 행정가로서 심각하게 정치적 거취를 고려할 수밖에 없다”고 말했다. 염 시장은 이날 간담회에서 한나라당 박근혜
+ 대표에게 보낸 지난 1일자의 편지 내용 일부를 공개한 뒤 “만약 한나라당이 새 행정수도 건설에 타격을 입히거나 좌절시킨다면 탈당을 포함한 특단의
+ 조처를 하겠다”고 강조했다. 그러나 그는 “현재까지는 후속 대책이 추진하는 과정인 만큼 한나라당이 후속 대책에 협조할 수 있도록 최대한 압력수단을
+ 행사하는 것”이라며 “아직은 탈당보다는후속 대책에 협조하는 것을 소망한다”고 여운을 남겼다. 그는 또 “이명박 서울시장을 비롯한 인천시장,
+ 경기지사를 만나 새 행정수도 후속대책에 대해 적극 협조해줄 것을 요청하고 설득작업을 벌일 계획”이라며 “현재 해당 단체장과 일정을 조율하고
+ 있다”고 말했다. 그는 이어 “박근혜 대표가 호남고속철 분기역을 오송으로 정했다는 당론 보도가 있었는데 과연 당의 이런 결정으로 어떤 전략적인
+ 이득을 볼 수 있는지 의문”이라며 “용역 중인 국가사업을 한 후보지를 당론으로 정한 것은 잘못된 것”이라고 비판했다. 염 시장은 이어 “새
+ 행정수도 후속 대책문제는 현재 매우 절박한 상황에 와 있으며 시기적으로 마지막이다”라며 이날 발언의 배경 설명을 덧붙였다. 대전/ sks2191'
+- source_sentence: 'query: 청렴식권을 제공하는 제도는 언제부터 시행되었어?'
+ sentences:
+ - 'passage: 2021년 장애인식개선 교육 운영계획
+
+ 3 2021년도 교육 계획
+
+ ① 서대문 소속직원 및 근로자교육
+
+ [비대면] e-러닝시스템 교육 및 동영상 활용 연계 교육 실시
+
+ ○ 인재개발원 장애인 인식개선 교육영상 활용 교육 실시
+
+ - 인재개발원 e-러닝과정 수강신청을 통해 수강 시, 상시학습시간 인정 (공무원,
+
+ 공무직, 공공안전관)
+
+ ※ 개설강좌: e-[장애인식개선교육] 인식의 새로고��, e-[장애인식개선교육] 우리가 몰랐던 이야기
+
+ ○ 한국장애인개발원 장애인식개선 e-러닝센터 활용 교육 실시
+
+ - 장애인식 개선교육 수강 후 수료증 제출 시 인정 가능
+
+ · 사이트 주소 : http://211.112.138.107/
+
+ ○ 서울시 평생학습포털 강의 수강
+
+ - 서울시 평생학습포털 회원가입 후 수강신청, 교육완료 후 수료증 제출
+
+ · 사이트 주소 : https://sll.seoul.go.kr/
+
+ [집합교육] 서대문 공무원 대상 장애 인식개선 교육
+
+ ○ 교육대상 : 서대문구 직원(공무원) 100명
+
+ ○ 교육방법 : 위탁교육(양천구장애인권교육센터)
+
+ - 지자체 최초로 장애인권교육센터 개소하여 운영
+
+ · 양천구 장애인권교육센터 벤치마킹 결과(사회복지과-22004. 2020.7.15.)
+
+ : 장애인식 체험형 교육을 통한 장애인식개선 교육효과가 클 것으로 예상
+
+ ○ 교육내용 : 장애인권교육, 장애체험 등
+
+ ○ 교육장소 : 양천구장애인권교육센터(양천구 목동동로 81 해누리타운 4층)
+
+ ○ 교육강사 : 5명
+
+ ○ 교육시간 : 4시간(인권교육 1시간, 체험 및 견학 3시간)'
+ - 'passage: 4월 1일부터 비리를 예방하고, 청렴문화 확산을 위하여 ‘청렴식권제’를 시행하기로 하였다. ‘청렴식권제’는 각종 회의가 부득이하게
+ 식사시간까지 이어지는 상황을 고려하여, 회의에 참석 한 직무관련자가 구내식당에서 식사를 함께 할 수 있도록 청렴식권을 제공하는 제도이다. 이
+ 제도는 직무관련자와 외부식당 이용 시 발생 할 수 있는 식사비 대납 등 부적절한 상황을 미연에 방지하고 직무관련자에게 청렴식권제의 취지를 설명하여
+ 방위사업청의 청렴의지를 확실하게 각인시키기 위한 것이다. 방위사업청은 청렴문화 확산을 위한 활동으로 청렴서약제, 옴부즈만 제도 등을 운영 중이고
+ 비 리예방을 위하여 청렴 모니터링 시스템 구축, 고위공직자 청렴도 평가 실시, 클린 서포터즈를 운영하고 있다. 청렴의식 제고 활동으로는 업체대상
+ 청렴교육, 사이버 청렴교육, 청렴다짐의 날, 청렴퀴즈, 국·부별 자체 청렴교육 등을 적극적으로 시행 하고 있다. 청렴식권제 추진은 청렴문화
+ 확산에 기여할 수 있다면 사소한 것이라도 적극 발굴하여 시행한다는 방위사업청의 청렴의지를 단편적으로 보여주는 것이다.'
+ - "passage: 제목 의원 연구단체 운영경비 지출(지방의회조직 연구단체)\n동작구 지방의회조직 연구단체에서 연구용역 추진 논의을 위한 간담회를\
+ \ 개최하고, 그 비용을 다음과 같이 지출하고자 합니다.\n 1. 건 명 : 연구용역 추진 논의 간담회 운영경비 지출\n 2. 대 상 : 연구단체\
+ \ 의원, 담당 직원 등 3명\n 3. 지출일자 : 2021. 6. 15.(화)\n 4. 지출금액 : 금48,000원(금사만팔천원)\n 5.\
+ \ 업 체 : 명성식당(동작구 장승배기로 157-2)\n 6. 지출방법 : 신용카드 사용 후 결제계좌 입금 및 정산처리\n 7. 예산과목 :\
+ \ 의회사무국, 지방의회 운영 지원, 의정활동 지원, 1.의정 공통업무 지원, 의회비, 의정운영공통경비"
+- source_sentence: 'query: 세 가지 유형의 원산지 테스트는 무엇입니까?'
+ sentences:
+ - 'passage: 세속적인 고딕이 밀집된 다른 도시로는 브루게스와 시에나가 있다.살아남은 대부분의 작은 세속 건물은 비교적 평범하고 간단하며,
+ 대부분의 창문은 물사자로 평평하게 덮여 있으며 뾰족한 아치와 둥근 천장은 종종 몇 개의 초점에서만 볼 수 있다.귀족들의 시골 집들은 방어가
+ 진정한 관심사가 되지 못했던 잉글랜드와 같은 유럽의 일부 지역에서도 성의 모습을 버리는 데 느렸다.많은 수도원 건물의 살아있는 부분과 일하는
+ 부분은 예를 들어 몽생미셸에서 살아남는다.'
+ - 'passage: 릴레함메르는 노르웨이 남부 내륙의 오플란주에 위치한 도시로, 인구는 2만 6천 6백 39명(2011년). 오플란 주의 주도이며,
+ 1994년 동계 올림픽을 개최한 도시입니다. 이 도시는 여러 산과 호수로 둘러싸여 있어 아름다운 경치를 자랑합니다. 선사 시대부터 사람들이
+ 살던 곳이지만, 공식적인 역사는 1390년부터 시작되었습니다. 교통의 발달과 함께 19세기 이후 내륙지대의 상업 중심지가 되었고, 동계 스포츠의
+ 명소로 알려져 있습니다. 또한, 1928년 노벨 문학상을 수상한 작가 시그리드 운세트가 이곳에서 작품을 쓰기도 했습니다.'
+ - 'passage: DNA 분석을 통해 아슈케나지 유대인의 기원을 규명하려는 노력은 1990년대부터 시작되었다.현재 유���자 기원 검사에는 상염색체
+ DNA(atDNA), 미토콘드리아 DNA(mtDNA), Y-염색체 DNA(Y-DNA)의 세 가지 유형이 있다.상염색체 DNA는 개인의 전체
+ 가계에서 나온 혼합물이고, Y-DNA는 그의 엄격한 부계 계통을 따라 남성의 계통을 보여주고, mtDNA는 엄격한 부계 계통을 따라만 어떤
+ 사람의 계통도 보여준다.유전체 전체 연관성 연구는 또한 유전적 출처와 관련된 결과를 산출하기 위해 사용되었다.'
+- source_sentence: 'query: 변한후의 생년은 알려져 있나요?'
+ sentences:
+ - 'passage: 변한후는 고려의 왕족으로, 문종과 인예왕후의 8남이었습니다. 그의 생년은 알려져 있지 않으며, 성은 왕, 이름은 음, 본관은
+ 개성입니다. 그는 순종, 선종 등의 친동생들과 함께 태어난 것으로 알려져 있습니다. 또한 권신 이자연의 외손자이기도 합니다. 1077년에 관작이
+ 부여되어 검교사공 상주국 변한후가 되었고, 1086년에 관작이 추가되면서 식읍이 증가했습니다. 그러나 왕음은 부여공 왕수와 적경궁주의 결혼을
+ 반대하며 금관후 왕비와 진한공 왕유 등과 함께 근친혼이라며 그 부당함을 간하였지만, 왕은 그 결혼을 듣지 않았습니다. 그리고 1086년에 세상을
+ 떠났습니다. 그의 시호는 장순이며, 후사가 없어 불교의 예법에 따라 시체를 매장하지 않고 가루를 내어 산천에 뿌렸습니다. 그의 조부는 현종이고,
+ 친조모는 원혜왕후이며, 외조부는 이자연이고, 외조모는 계림국대부인 김씨입니다. 어머니는 문종 제2비 인예왕후이고, 형은 순종, 선종, 헌종,
+ 숙종, 예종, 대각국사 의천, 상안공 왕수, 보응승통 왕경, 적경궁주, 보령궁주 등이 있습니다. 이모로는 문종 제3비 인경현비, 문종 제4비
+ 인절현비, 외숙으로는 이호, 이석, 이정 등이 있습니다.'
+ - 'passage: 산악긴귀박쥐(Plecotus macrobullaris)는 애기박쥐과에 속하는 박쥐의 일종이며, 원래는 스위스와 오스트리아에서
+ 갈색긴귀박쥐와 회색긴귀박쥐 사이의 종간종으로 처음 기술되었습니다. 나중에 프랑스와 오스트리아에서도 발견되었고, 알프스긴귀박쥐라는 이름에도 불구하고
+ 알프스 산맥에서만 제한적으로 분포하지 않았습니다. 이들은 갈색긴귀박쥐와 달리 흰색 하체 부위가 있습니다. 주로 나방을 먹이로 삼고, 알프스
+ 목초지와 같은 앞이 트인 개활지에서 잡습니다. 연구결과에 따르면, 산악긴귀박쥐의 분포 패턴과 진화 경로에 대한 정보를 파악할 수 있었습니다.'
+ - 'passage: 지구는 극단적인 화산 활동과 다른 물체와의 빈번한 충돌로 인해 처음에는 용융되었다.결국 물이 대기 중에 쌓이기 시작하면서
+ 행성의 바깥층이 냉각되어 단단한 지각을 형성하게 된 것이다.달은 얼마 후에 형성되었는데, 아마도 지구 질량의 약 10%를 가진 화성 크기의
+ 물체가 반짝이는 타격으로 지구에 영향을 미친 결과일 것이다.이 물체의 질량 중 일부는 지구와 합쳐져 내부 구성이 크게 바뀌었고 일부는 우주로
+ 방출되었다.일부 물질은 살아남아 궤도를 도는 달을 형성했다.분출과 화산 활동은 원시 대기를 생성했다.혜성에서 전달된 얼음에 의해 증가된 응축
+ 수증기는 바다를 생성했다.'
+- source_sentence: 'query: 북한가족법 몇 차 개정에서 이혼판결 확정 후 3개월 내에 등록시에만 유효하다는 조항을 확실히 했을까?'
+ sentences:
+ - 'passage: 1990년에 제정된 북한 가족법은 지금까지 4차례 개정되어 현재에 이르고 있다. 1993년에 이루어진 제1차 개정은 주로
+ 규정의 정확성을 기하기 위하여 몇몇 조문을 수정한 것이며, 실체적인 내용을 보완한 것은 상속의 승인과 포기기간을 설정한 제52조 정도라고 할
+ 수 있다. 2004년에 이루어진 제2차에 개정에서는 제20조제3항을 신설하여 재판상 확정된 이혼판결을 3개월 내에 등록해야 이혼의 효력이 발생한다는
+ 것을 명확하게 하였다. 2007년에 이루어진 제3차 개정에서는 부모와 자녀 관계 또한 신분등록기관에 등록한 때부터 법적 효력이 발생한다는 것을
+ 신설(제25조제2항)하였다. 또한 미성년자, 노동능력 없는 자의 부양과 관련(제37조제2항)하여 기존에는 “부양능력이 있는 가정성원이 없을
+ 경우에는 따로 사는 부모나 자녀, 조부모나 손자녀, 형제자매가 부양한다”고 규정하고 있었던 것을 “부양능력이 있는 가정성원이 없을 경우에는
+ 따로 사는 부모나 자녀가 부양하며 그들이 없을 경우에는 조부모나 손자녀, 형제자매가 부양한다”로 개정하였다.'
+ - "passage: 제목 제310회 제1차 정례회 상임위원회 의원 격려물품 구입비 지출\n제310회 제1차 정례회 기간중 상임위원회 개최에 따른\
+ \ 운영경비를 다음과 같이 지출하고자 합니다.\n 1. 건 명 : 회기 중 상임위원회 의원 격려물품 구입비 지출(음료 구입)\n 2. 대 상\
+ \ : 행정재무·복지건설위원회 의원 등\n 3. 지출일자 : 2021. 06. 16.(수)\n 4. 지출금액 : 금60,000원(금육만원)\n\
+ \ 5. 업 체 : ㈜에치와이 한국야구르트\n 6. 지출방법 : 신용카드 사용 후 결제계좌 입금 및 정산처리\n 7. 예산과목 : 의회사무국,\
+ \ 지방의회 운영 지원, 의정활동 지원, 1.의정 공통업무 지원, 의회비, 의정운영공통경비."
+ - 'passage: 환경마크 제도, 인증기준 변경으로 기업부담 줄인다
+
+ 환경마크 제도 소개
+
+ □ 개요
+
+ ○ 동일 용도의 다른 제품에 비해 ‘제품의 환경성*’을 개선한 제품에 로고와 설명을 표시할 수 있도록하는 인증 제도
+
+ ※ 제품의 환경성 : 재료와 제품을 제조․소비 폐기하는 전과정에서 오염물질이나 온실가스 등을 배출하는 정도 및 자원과 에너지를 소비하는 정도
+ 등 환경에 미치는 영향력의 정도(「환경기술 및 환경산업 지원법」제2조제5호)
+
+ □ 법적근거
+
+ ○ 「환경기술 및 환경산업 지원법」제17조(환경표지의 인증)
+
+ □ 관련 국제표준
+
+ ○ ISO 14024(제1유형 환경라벨링)
+
+ □ 적용대상
+
+ ○ 사무기기, 가전제품, 생활용품, 건축자재 등 156개 대상제품군
+
+ □ 인증현황
+
+ ○ 2,737개 기업의 16,647개 제품(2015.12월말 기준)'
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+metrics:
+- cosine_accuracy@1
+- cosine_accuracy@3
+- cosine_accuracy@5
+- cosine_accuracy@10
+- cosine_precision@1
+- cosine_precision@3
+- cosine_precision@5
+- cosine_precision@10
+- cosine_recall@1
+- cosine_recall@3
+- cosine_recall@5
+- cosine_recall@10
+- cosine_ndcg@10
+- cosine_mrr@10
+- cosine_map@100
+model-index:
+- name: SentenceTransformer based on intfloat/multilingual-e5-small
+ results:
+ - task:
+ type: information-retrieval
+ name: Information Retrieval
+ dataset:
+ name: miracl
+ type: miracl
+ metrics:
+ - type: cosine_accuracy@1
+ value: 0.5727699530516432
+ name: Cosine Accuracy@1
+ - type: cosine_accuracy@3
+ value: 0.7230046948356808
+ name: Cosine Accuracy@3
+ - type: cosine_accuracy@5
+ value: 0.7699530516431925
+ name: Cosine Accuracy@5
+ - type: cosine_accuracy@10
+ value: 0.8826291079812206
+ name: Cosine Accuracy@10
+ - type: cosine_precision@1
+ value: 0.5727699530516432
+ name: Cosine Precision@1
+ - type: cosine_precision@3
+ value: 0.3004694835680751
+ name: Cosine Precision@3
+ - type: cosine_precision@5
+ value: 0.21784037558685443
+ name: Cosine Precision@5
+ - type: cosine_precision@10
+ value: 0.14507042253521127
+ name: Cosine Precision@10
+ - type: cosine_recall@1
+ value: 0.3679558834488412
+ name: Cosine Recall@1
+ - type: cosine_recall@3
+ value: 0.49870705715776137
+ name: Cosine Recall@3
+ - type: cosine_recall@5
+ value: 0.562497205454952
+ name: Cosine Recall@5
+ - type: cosine_recall@10
+ value: 0.6899047483554527
+ name: Cosine Recall@10
+ - type: cosine_ndcg@10
+ value: 0.594002458817878
+ name: Cosine Ndcg@10
+ - type: cosine_mrr@10
+ value: 0.6634398986511661
+ name: Cosine Mrr@10
+ - type: cosine_map@100
+ value: 0.5293082252900748
+ name: Cosine Map@100
+ - task:
+ type: information-retrieval
+ name: Information Retrieval
+ dataset:
+ name: autorag embedding
+ type: autorag_embedding
+ metrics:
+ - type: cosine_accuracy@1
+ value: 0.7192982456140351
+ name: Cosine Accuracy@1
+ - type: cosine_accuracy@3
+ value: 0.8859649122807017
+ name: Cosine Accuracy@3
+ - type: cosine_accuracy@5
+ value: 0.9210526315789473
+ name: Cosine Accuracy@5
+ - type: cosine_accuracy@10
+ value: 0.9736842105263158
+ name: Cosine Accuracy@10
+ - type: cosine_precision@1
+ value: 0.7192982456140351
+ name: Cosine Precision@1
+ - type: cosine_precision@3
+ value: 0.29532163742690065
+ name: Cosine Precision@3
+ - type: cosine_precision@5
+ value: 0.18421052631578946
+ name: Cosine Precision@5
+ - type: cosine_precision@10
+ value: 0.09736842105263158
+ name: Cosine Precision@10
+ - type: cosine_recall@1
+ value: 0.7192982456140351
+ name: Cosine Recall@1
+ - type: cosine_recall@3
+ value: 0.8859649122807017
+ name: Cosine Recall@3
+ - type: cosine_recall@5
+ value: 0.9210526315789473
+ name: Cosine Recall@5
+ - type: cosine_recall@10
+ value: 0.9736842105263158
+ name: Cosine Recall@10
+ - type: cosine_ndcg@10
+ value: 0.8505066340734073
+ name: Cosine Ndcg@10
+ - type: cosine_mrr@10
+ value: 0.8107908660540241
+ name: Cosine Mrr@10
+ - type: cosine_map@100
+ value: 0.8122096592491329
+ name: Cosine Map@100
+---
+
+# SentenceTransformer based on intfloat/multilingual-e5-small
+
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small) on the df_3, df_2, df_5, df_0, df_1, df_8, df_7, df_6 and df_9 datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+
+## Model Details
+
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small)
+- **Maximum Sequence Length:** 512 tokens
+- **Output Dimensionality:** 384 dimensions
+- **Similarity Function:** Cosine Similarity
+- **Training Datasets:**
+ - df_3
+ - df_2
+ - df_5
+ - df_0
+ - df_1
+ - df_8
+ - df_7
+ - df_6
+ - df_9
+
+
+
+### Model Sources
+
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+
+### Full Model Architecture
+
+```
+SentenceTransformer(
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+)
+```
+
+## Usage
+
+### Direct Usage (Sentence Transformers)
+
+First install the Sentence Transformers library:
+
+```bash
+pip install -U sentence-transformers
+```
+
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+
+# Download from the 🤗 Hub
+model = SentenceTransformer("sentence_transformers_model_id")
+# Run inference
+sentences = [
+ 'query: 북한가족법 몇 차 개정에서 이혼판결 확정 후 3개월 내에 등록시에만 유효하다는 조항을 확실히 했을까?',
+ 'passage: 1990년에 제정된 북한 가족법은 지금까지 4차례 개정되어 현재에 이르고 있다. 1993년에 이루어진 제1차 개정은 주로 규정의 정확성을 기하기 위하여 몇몇 조문을 수정한 것이며, 실체적인 내용을 보완한 것은 상속의 승인과 포기기간을 설정한 제52조 정도라고 할 수 있다. 2004년에 이루어진 제2차에 개정에서는 제20조제3항을 신설하여 재판상 확정된 이혼판결을 3개월 내에 등록해야 이혼의 효력이 발생한다는 것을 명확하게 하였다. 2007년에 이루어진 제3차 개정에서는 부모와 자녀 관계 또한 신분등록기관에 등록한 때부터 법적 효력이 발생한다는 것을 신설(제25조제2항)하였다. 또한 미성년자, 노동능력 없는 자의 부양과 관련(제37조제2항)하여 기존에는 “부양능력이 있는 가정성원이 없을 경우에는 따로 사는 부모나 자녀, 조부모나 손자녀, 형제자매가 부양한다”고 규정하고 있었던 것을 “부양능력이 있는 가정성원이 없을 경우에는 따로 사는 부모나 자녀가 부양하며 그들이 없을 경우에는 조부모나 손자녀, 형제자매가 부양한다”로 개정하였다.',
+ 'passage: 환경마크 제도, 인증기준 변경으로 기업부담 줄인다\n환경마크 제도 소개\n□ 개요\n○ 동일 용도의 다른 제품에 비해 ‘제품의 환경성*’을 개선한 제품에 로고와 설명을 표시할 수 있도록하는 인증 제도\n※ 제품의 환경성 : 재료와 제품을 제조․소비 폐기하는 전과정에서 오염물질이나 온실가스 등을 배출하는 정도 및 자원과 에너지를 소비하는 정도 등 환경에 미치는 영향력의 정도(「환경기술 및 환경산업 지원법」제2조제5호)\n□ 법적근거\n○ 「환경기술 및 환경산업 지원법」제17조(환경표지의 인증)\n□ 관련 국제표준\n○ ISO 14024(제1유형 환경라벨링)\n□ 적용대상\n○ 사무기기, 가전제품, 생활용품, 건축자재 등 156개 대상제품군\n□ 인증현황\n○ 2,737개 기업의 16,647개 제품(2015.12월말 기준)',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 384]
+
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities.shape)
+# [3, 3]
+```
+
+
+
+
+
+
+
+## Evaluation
+
+### Metrics
+
+#### Information Retrieval
+
+* Datasets: `miracl` and `autorag_embedding`
+* Evaluated with [InformationRetrievalEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
+
+| Metric | miracl | autorag_embedding |
+|:--------------------|:----------|:------------------|
+| cosine_accuracy@1 | 0.5728 | 0.7193 |
+| cosine_accuracy@3 | 0.723 | 0.886 |
+| cosine_accuracy@5 | 0.77 | 0.9211 |
+| cosine_accuracy@10 | 0.8826 | 0.9737 |
+| cosine_precision@1 | 0.5728 | 0.7193 |
+| cosine_precision@3 | 0.3005 | 0.2953 |
+| cosine_precision@5 | 0.2178 | 0.1842 |
+| cosine_precision@10 | 0.1451 | 0.0974 |
+| cosine_recall@1 | 0.368 | 0.7193 |
+| cosine_recall@3 | 0.4987 | 0.886 |
+| cosine_recall@5 | 0.5625 | 0.9211 |
+| cosine_recall@10 | 0.6899 | 0.9737 |
+| **cosine_ndcg@10** | **0.594** | **0.8505** |
+| cosine_mrr@10 | 0.6634 | 0.8108 |
+| cosine_map@100 | 0.5293 | 0.8122 |
+
+
+
+
+
+## Training Details
+
+### Training Datasets
+df_3
+
+#### df_3
+
+* Dataset: df_3
+* Size: 305,654 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 13 tokens
- mean: 28.1 tokens
- max: 57 tokens
| - min: 108 tokens
- mean: 316.61 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:-------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 경남 지역 문제를 풀어간 유일한 돌파구가 된 것으로 정부사업의 하나로 착수되었지만 주민주도형 지속가능 도시재생사업으로 설립된 것은 뭐야? | passage: 장승포 마을관리협동조합 역시 그렇게 정부사업의 일환으로 시작되었지만 주민들에게는 지역문제를 해결하는 유일한 돌파구였다. 그들은 여러 차례 회의를 거쳐 바다로 둘러싸인 지역의 특성을 상품화해 자생력을 기르기로 하였다. 그렇게 시작된 ‘마을상품’ 만들기 사업. 거제도 바다에서 나는 장어로 만든 거제건장어, 빼데기죽, 거제고동탕, 어묵고로케, 유자막걸리 그리고 거제동백꽃빵을 개발해 시제품을 만들고, 플리마켓에서 소비자들의 반응을 살폈다. 특히 반응이 좋았던 건장어조림은 상표등록을 앞두고 있어 장승포를 대표할 브랜드로 모두의 기대를 한 몸에 받고 있다. 장승포 마을관리협동조합은 주민주도형의 지속가능한 도시재생사업을 만들기 위해 경상남도에 설립된 최초의 마을관리협동조합이다. 지역자원을 활용한 다양한 상품 개발을 성공적으로 이끈 주민들의 시도는 조선업에 의존하던 산업구조를 개선시키는 위대한 도약이 될 것이다. |
+ | query: 연방정부는 재해 지역 이재민을 수용할 임시 숙소의 운영 비용을 어떻게 전액 제공하고 있어? | passage: 6) 특별 지원
가. 이재민 임시 피난처 제공
연방정부는 주정부나 지방자치정부를 통해 재난 지역 이재민을 수용할 임시 숙소 운영 비용을 전액 지원한다. 주정부나 지방자치정부는 이재민에게 재난일로부터 18개월간 임시숙소를 제공한다.
임시숙소 개발 지역의 공공시설 가설을 위해 예산의 75%는 연방정부가 부담하며, 단 나머지는 주정부가 부담한다.
나. 임시월부금 지원
연방정부는 재해피해로 경제적 어려움에 봉착한 개인이나 가정에게 임시 융자를 제공하며, 재난피해로 임대주택을 상실하게 될 경우 18개월 한도내에 주택 임대 비용 지원한다.
다. 실직 수당 지원
연방정부는 재난으로 발생한 실직자에게 주정부 최저 임금수당 기준에 준하는 실직수당을 26주 동안 지원한다. 주정부는 실직자들을 위한 재취업 프로그램을 마련하며, 실직자재취업 프로그램이 없는 주정부에 연방자금을 지원한다. |
+ | query: 제4회 제주음식박람회에서 라이브경연으로 제주로컬푸드경연인 한식요리의 금상 상금은 얼마지? | passage: 태풍‘미탁’북상으로 제4회 제주음식박람회 축소 운영
제4회 제주음식박람회 프로그램
□ 행사 프로그램
⑥ 분야별 시상내역
| 구분 | 항목 | 시상내역 | 시상금 | 훈격 | 상장수여자 |
| --- | --- | --- | --- | --- | --- |
| 전시경연 | 제주 외식음식 | 농·수·축산물 | 대상 1 | 1,000천원 | 농림축산 식품부장관 | 제주시장 |
| 농산물 | 금상 1 | 500천원 | 도지사 | 도 보건복지 여성국장 |
| 축산물 | 금상 1 | 500천원 | 도지사 | 도 보건복지 여성국장 |
| 수산물 | 금상 1 | 500천원 | 도지사 | 도 보건복지 여성국장 |
| 향토음식 | 전통차롱 | 금상 1 | 500천원 | 도지사 | 도 보건복지 여성국장 |
| 제주 떡 | 떡 | 금상 1 | 500천원 | 도지사 | 도 보건복지 여성국장 |
| 건강음식 | 저염요리 | 금상 1 | 1,000천원 | 식품의약품 안전처장 | 제주시장 |
| 라이브경연 | 제주로컬푸드경연 | 한식요리 | 금상 1 | 1,000천원 | 식품의약품 안전처장 | 제주시장 |
| 창작퓨전(대학생) | 금상 1 | 1,000천원 | 식품의약품 안전처장 | 제주시장 |
| 창작퓨전(고교생) | 금상 1 | 500천원 | 도 교육감 | 제주시장 |
| 어린이 사생대회 | 대상 1 | - | 도 교육감 | 제주시장 |
| 최우수 2 | | 도 교육감 | 제주시장 | |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_2
+
+#### df_2
+
+* Dataset: df_2
+* Size: 185,427 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 13 tokens
- mean: 30.36 tokens
- max: 67 tokens
| - min: 75 tokens
- mean: 299.53 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:--------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 러시아의 원유 및 유류생산품이 2013년 해외 수출에서 차지한 비율은 몇 퍼센트일까? | passage: 2015년 이후, 러시아 경제는 2014년 7월 서방의 제재와 국제유가 하락으로 인해 심각한 영향을 받고 있는데, 국민소득의 급격한 감소는 물론 소비자의 수요, 투자자의 투자심리까지 위축시키고 있다. 이로 인해 2015년 러시아의 실질국민소득이 3.7% 감소하였다. 또한 2015년 8월 두 번째 국제유가의 급락의 여파로 인해 경제회복에 대한 기대는 더 희미해지게 되었다. 러시아의 원유의 생산과 수출은 러시아의 국내 경제는 물론 세계 에너지 시장에도 중요한 영향을 미친다. 2013년 러시아의 대외 수출에서 원유 및 유류생산품이 차지하는 비중은 50%, 러시아 재정수입의 45%에 이르렀다. 러시아는 국제유가의 하락과 서방 제재로 인해 상류부분 투자 및 관련 인프라 구축에 필요한 재원 확보에 상당한 어려움을 겪고 있으며, 주요 파이프라인 프로젝트에도 많은 문제점을 안고 있다. 2014년 12월 1일 푸틴 대통령이 터키 스트림 파이프라인 프로젝트가 사우스 스트림 파이프라인 프로젝트를 대체할 것이라고 선언하였고 러시아 측에서는 터키 스트림이 상당히 타당성이 있는 것으로 평가되었으나, 자금조달의 어려움과 2015년 12월 2일 터��의 러시아 전투기 격추 사건으로 인해 사실상 진행이 중단된 상태에 있다. |
+ | query: 이날 종가 기준으로 아시아나항공이 보유한 아시아나IDT 지분가치는 에어부산보다 얼마나 높은가? | passage: 전날 아시아나항공 주가는 상한가를 기록하고 7천280원에 마감했다. 이날도 아시아나 주가는 16.07% 오른 8천450원에 거래를 마쳤다. 금호산업이 보유한 아시아나 지분 33.49%(6천868만8천63주)의 가치는 전날보다 약 800억원 불어나 6천억원 선에 다가섰다.
아시아나는 전날 채권단에 제출한 수정 자구계획에서 인수자 요청이 있을 경우 별도로 협의하겠지만, 자회사를 함께 매각하는 '통매각' 방식을 추진하겠다고 했다.
이에 따라 아시아나의 자회사인 에어부산과 에어서울, 아시아나IDT 등도 함께 묶어서 매각할 가능성이 크다.
아시아나항공은 에어부산 지분 44.17%, 에어서울 지분 100%, 아시아나IDT 지분 76.22% 등을 보유하고 있다.
상장사인 에어부산 지분의 가치는 이날 공가 기준으로 1천600억원, 아시아나IDT는 1천975억원에 달한다. |
+ | query: 2016년 상반기에는 몇 종류의 시설을 제외한 모든 상업용 건축물의 신축허가 연면적이 증가했어? | passage: 2016년 상반기 건축 인허가 면적, 전년동기 대비 9.2% 증가- 착공은 3.0% 감소, 준공은 13.4% 증가
2016년 상반기 행위유형별 건축허가 현황
4. 상업용 행위유형별 건축허가 현황 및 변화
ㅇ 상업용 신축허가 연면적 현황 및 변화
- 판매시설(△36.9%)을 제외한 모든 상업용 건축물의 신축허가 연면적 증가(9.0%)
- 업무시설(33.6%)이 가장 많이 증가 하였으며, 기타 상업용(15.4%), 제2종근린생활시설(6.2%), 제1종근린생활시설(5.0%) 순으로 증가
* 기타 상업용: 야영장시설(653.6%), 숙박시설(41.3%), 위험물저장 및 처리시설(6.3%), 운수시설, 위락시설, 자동차관련시설 등
- 지방(2.4%)보다 수도권(17.0%)에서의 증가율이 더 높게 나타나며, 특히 수도권 업무시설(42.0%)의 증가가 두드러짐
ㅇ 상업용 증개축 연면적 현황 및 변화
- 기타 상업용(△76.2%)과 판매시설(△39.9%)을 제외한 모든 상업용 건축물의 증개축 연면적이 소폭 증가하였으나, 감소폭이 커 상업용 전체 증개축 연면적은 전년 동기 대비 △46.4% 감소
- 그러나 동수는 증가(4.0%)한 것으로 보아 전년 동기 대비 소규모 증개축이 이루어진 것으로 추정
- 지역별로 살펴보면 수도권에서는 △63.9% 감소한 반면 지방에서는 15.9% 증가하였으며 특히 지방에서 제1종근린생활시설(62.7%)의 증가가 두드러짐
ㅇ 상업용 용도변경 연면적 현황 및 변화
- 기타 상업용(△24.6%)과 제1종근린생활시설(△7.3%)을 제외한 모든 상업용 시설의 연면적이 전년 동기대비 증가(6.1%)
- 그러나 동수는 감소(△4.3%)한 것으로 보아 전년 동기 대비 대규모 용도변경이 이루어진 것으로 추정
- 지역별로 살펴보면 수도권에서는 15.3% 증가한 반면 지방에서는 △2.5% 감소하였으며, 특히 수도권 판매시설(213.9%)의 용도변경허가 면적 증가가 두드러짐 |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_5
+
+#### df_5
+
+* Dataset: df_5
+* Size: 230,492 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 11 tokens
- mean: 23.25 tokens
- max: 58 tokens
| - min: 49 tokens
- mean: 249.42 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 애플에 따르면 썬더볼트 포트는 데이터를 얼마나 빨리 전송할 수 있나요? | passage: 현재 맥 제품군은 인텔 x86-64 프로세서를 사용하고 있다.애플은 10년 전 모토로라 68000 아키텍처에서 전환할 때와 마찬가지로 PowerPC 칩(로제타라고 함)에서 전환할 때 에뮬레이터를 도입했다.매킨토시는 새로운 CPU 아키텍처로 성공적으로 전환한 유일한 주류 컴퓨터 플랫폼이며, 두 번이나 그렇게 했다.현재 모든 맥 모델은 1.4GHz 맥 미니, 맥북 프로(레티나 디스플레이 없음), 맥북 에어 외에 최소 8GB의 RAM을 표준으로 배송합니다.현재의 Mac 컴퓨터는 메인 CPU에 내장된 인텔 그래픽뿐만 아니라 ATI Radeon 또는 nVidia GeForce 그래픽 카드를 사용한다.현재 모든 맥(레티나 디스플레이가 없는 맥북 프로 제외)은 이중 기능 DVD/CD 버너가 포함된 광학 미디어 드라이브와 함께 배송되지 않습니다.애플은 이를 슈퍼드라이브(SuperDrive)라고 부르고 있다.현재 맥에는 USB와 썬더볼트의 두 가지 표준 데이터 전송 포트가 있습니다 (2015년 버전 제외), USB-C 포트와 헤드폰 포트만 있습니다.맥북 프로, 아이맥, 맥북 에어, 맥 미니 컴퓨터에는 현재 애플이 초당 최대 10기가비트의 속도로 데이터를 전송할 수 있는 '해더볼트' 포트도 탑재되어 있다.USB는 1998년 아이맥 G3에 도입되어 오늘날에는 어디에나 존재하는 반면, 파이어 와이어는 하드 드라이브나 비디오 카메라와 같은 고성능 장치에 주로 예약되어 있다.2005년 10월에 출시된 당시 새로운 아이맥 G5를 시작으로, Apple은 적절한 모델에 내장된 iSight 카메라와 컴퓨터에 저장된 미디어에 액세스하기 위해 Apple Remote 또는 키보드로 작동할 수 있는 프론트 로우라는 미디어 센터 인터페이스를 포함하기 시작했습니다.프론트 로우는 2011년 현재 단종되었지만, 애플리케이션 리모콘은 더 이상 새로운 맥과 번들이 되지 않는다. |
+ | query: 라오스는 몇 개의 행정 지역으로 구성되어 있나요? | passage: 라오스에는 총 18개의 행정 지역으로 구성되어 있습니다. 여기에는 17개의 주와 1개의 도가 포함됩니다. 이들 중 일부 주는 앗타푸, 보케오, 볼리캄사이, 참파사크, 후아판, 캄무안, 루앙남타, 루앙프라방, 우돔싸이, 퐁살리, 사이냐불리, 살라완, 사반나케트, 세콩, 비엔티안 도, 비엔티안 주, 싸이솜분, 씨앙쿵 등이 있습니다. 각 주는 군(무앙, 문)과 마을(반, 바안)으로 더 나누어져 있습니다. |
+ | query: 포유류의 머리카락에 사용되는 또 다른 이름은 무엇인가요? | passage: 털로도 알려져 있는 포유동물의 머리카락은 개체군, 개체군 내의 유기체, 심지어 개별 유기체에서도 색상이 다양할 수 있다.명암 색상 변화는 포유류 분류군에서 일반적이다.때때로 이 색상 변화는 연령 변화에 의해 결정되지만 다른 경우에는 다른 요인에 의해 결정된다.다른 개체군 또는 환경 조건과의 생태학적 상호 작용과 같은 선택적 압력은 종종 포유류 착색의 변화로 이어진다.이러한 선택적 압력은 생존을 증가시키기 위해 특정 색상을 선호한다.칙플라그는 포유류의 착색을 형성하는 주요 선택 압력으로 생각되지만 성적 선택, 의사 소통 및 생리학적 과정이 착색의 진화에도 영향을 미칠 수 있다는 증거도 있다.칙플라그는 포식자나 먹이로부터 유기체를 은폐하는 데 도움이 되기 때문에 색상 변화의 가장 주된 메커니즘이다.코트 색상은 또한 포식자에 대한 종의 구성체에게 경고, 생식 목적의 건강 표시, 어미와 새끼 사이의 의사 소통, 포식자를 위협하는 것과 같은 종 내 의사 소통을 위한 것일 수 있다.연구에 따르면 어떤 경우에는 암컷과 수컷의 코트 색상의 차이가 짝 선택 과정에서 중요한 정보 영양과 호르몬 수치를 나타낼 수 있다.코트 색상 변화에 대한 한 가지 최종 메커니즘은 열대 또는 북극 환경의 온도 조절과 같은 생리학적 반응 목적이다.색상 변이에 대해 많은 것이 관찰되었지만 코트 색상을 유전자와 연결하는 유전적인 것의 대부분은 아직 알려지지 않았다.색소 침착 유전자가 발견되는 유전 부위는 1) 털의 색소 침착의 공간적 분포를 변경하고 2) 털의 밀도와 분포를 변경하여 표현형에 영향을 미치는 것으로 알려져 있다.정량적 형질 매핑은 색소 침착 변화를 담당하는 유전자좌의 분포를 더 잘 이해하는 데 사용된다.그러나 유전자 부위는 알려져 있지만 이러한 유전자가 어떻게 발현되는지에 대해서는 아직 배울 것이 많다. |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_0
+
+#### df_0
+
+* Dataset: df_0
+* Size: 174,425 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 13 tokens
- mean: 34.0 tokens
- max: 67 tokens
| - min: 84 tokens
- mean: 299.47 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:----------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: NC에 합류하게 된 박석민이 올해 기록한 안타 수는 홈런 수 보다 몇 개 더 많은가? | passage: 박민우는 박석민의 합류에 대해 “우리 팀에 있어서는 '천군만마(千軍萬馬)'를 얻은 것과도 같다”라고 말했다. 또한 “박석민 선수는 KBO 최고의 선수 중 한 명이지 않나”라고 했다. 올해 박석민은 135경기에서 448타수 144안타 26홈런 116타점 타율 3할2푼1리를 기록했다.
박석민이 합류하면서 NC 내야진은 긴장감이 더하게 됐다. 박민우 역시 마찬가지다. 박민우는 기존 내야진 중에서도 가장 막내다. 그는 “경쟁이 치열하게 될 것이다. 개인적인 경쟁이 시작될 것”이라고 했다.
앞서 박민우는 올시즌 성적에 대한 진한 아쉬움을 드러내기도 했다. |
+ | query: 26일 열린 삼성과 KIA의 경기에서 양 팀 전체 득점수 대비 삼성의 득점수는 얼마인가? | passage: 최대 강점이 약점으로 돌변했다. 지키는 힘이 떨어진 삼성이 좀처럼 연패의 늪에서 빠져나오지 못하고 있다. 그 사이 순위는 7위까지 떨어졌다. 불펜 붕괴에 부상 악재, 순위 추락까지 3중고를 겪고 있는 사자군단이다.
삼성은 지난 26일 KIA에 5-8로 패했다. 경기 초반부터 뒤지던 흐름을 후반 1점차까지 따라붙었지만 8회 믿었던 불펜이 실점해 추격 동력을 잃었고, 패배로 이어졌다. 이날 패배로 4연패 수렁에 빠진 삼성은 순위가 7위까지 떨어졌다.
불펜 난조가 심각하다. 올시즌 신구조화가 잘 이뤄진 삼성 불펜은 과거 왕조시절 불펜을 떠오르게 할 만큼 철벽 위용을 뽐냈다. |
+ | query: WKBL은 무슨 방안을 검토중인가? | passage: 구단 해체 수순에 돌입한 구리 KDB생명이 시즌 최종전에서도 승리를 따내지 못하고 고개를 숙였다. KDB는 7일 부천실내체육관에서 열린 2017-2018 신한은행 여자프로농구(WKBL) 정규리그 부천 KEB하나은행과의 경기에서 61대 84로 완패했다. 이날 패배로 KDB는 22연패를 당한 채 시즌을 마쳤다. 올 시즌 전적은 4승 31패로 최하위에 그쳤다. WKBL은 지난 6일 “KDB생명이 2017-2018 시즌을 끝으로 더 이상 구단 운영을 하지 않겠다는 의사를 전했다”고 밝혔다. WKBL은 KDB와 구단 해체 및 리그 탈퇴 관련 내용을 협의 중이며, 구단을 연맹이 위탁 관리하는 방안을 검토하고 있다. KDB는 2018-2019 시즌 연맹을 통해 위탁 운영되더라도 이후 새 주인을 찾아야 한다. WKBL은 1998년 5개 구단 체제로 출범한 뒤 2000년 KDB의 전신 금���생명이 창단하면서 6개 구단 체제를 유지했다. 2012년 4월 신세계가 해체됐으나 그해 9월 하나금융그룹이 팀을 창단하면서 리그 참가 구단 수를 유지했다. 그러나 KDB의 해체로 다시 5개 구단 체제가 될 위기에 놓였다. 박구인 기자 captain@kmib.co.kr |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_1
+
+#### df_1
+
+* Dataset: df_1
+* Size: 370,157 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 11 tokens
- mean: 26.67 tokens
- max: 72 tokens
| - min: 37 tokens
- mean: 267.43 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:-----------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 경상소득 분포 가운데 어떤 계층이 전반적으로 줄어드는 경향을 보여? | passage: 6) 교육수준
(1) 경상소득
○ 교육수준에 따른 경상소득의 분포를 살펴보면, 대학교졸업 이상이 가장 높은 수준으로 나타나고, 고등학교졸업, 중학교졸업의 순서로 분포됨을 알 수 있음. 대졸자 가구주와 고졸 가구주의 경상소득 차이는 대략 1천만원 정도로 꾸준히 유지되고 있으며, 중졸가구주는 고졸가구주에 비해 1천만원 가량 낮은 수준으로 경상소득이 분포되고 있음.
○ 소득 하위계층에 대한 경상소득 분포를 보면, 소득 하위 ~10%의 계층은 전반적으로 경상소득이 감소하는 추세를 보이고 있음. 소득 하위 10%~20% 계층은 경상소득이 증가하는 것으로 나타남.
○ 소득 하위 ~10% 계층에서는 다른 학력의 계층은 경상소득이 증가하고 있으나, 대졸학력의 가구주는 경상소득이 감소하고 있는 것으로 나타나고 있음.
(2) 가처분 소득
○ 교육수준에 따른 가처분소득의 분포를 살펴보면, 대학교졸업 이상이 가장 높은 수준으로 나타나고, 고등학교졸업, 중학교졸업의 순서로 분포됨을 알 수 있음. 대졸자가구주와 ���졸 가구주의 가처분소득 차이는 경상소득에서 나타나는 차이보다는 좀 더 줄어들어 대략 7백만원 정도로 꾸준히 유지되고 있으며, 중졸가구주는 고졸가구주에 비해 8백만원 가량 낮은 수준으로 가처분소득이 분포되고 있음.
○ 소득 하위계층에 대한 가처분소득 분포를 보면, 증가하는 경향성을 보이고 있음. 그러나, 유의할 점은 대졸이상의 소득 하위 계층은 다른 저학력의 계층보다 가처분소득이 낮다는 것임. 이는 기본적으로 연령효과에 따른 기초연금에 기인한 것으로 보여짐. |
+ | query: 일자리 미스매치로 인한 실직자는 전국 평균에 비해 경기도에서 많았니? | passage: 2) 경기도 중소기업의 일자리 미스매치 유형
□ 2013년 기준, 경기도의 경우 일자리 미스매치에 의한 실업자는 10.7만명으로 전체 실업자의 57.9%를 차지하여 전국(47.3%)보다 높게 나타나고 있음
○ 전국적으로 일자리수요 부족에 의한 실업자는 42.5만명(전체 실업자의 52.7%), 일자리 미스매치에 의한 실업자는 38.2만명(전체 실업자의 47.3%)
○ 경기도를 대상으로 한 실업자 분해 결과에 의하면, 노동수요부족에 의한 실업은 42.1%에 불과하고, 나머지 57.9%는 미스매치에 의한 실업으로 분석됨
– 마찰적 미스매치(정보 부족과 임금·근로조건 등 보상 불일치)는 27.6%, 구조적 미스매치(숙련 및 직주불일치)는 30.3%로 나타남
– 구조적 미스매치를 숙련 미스매치와 직주 불일치로 인한 공간 미스매치로 분해할 경우, 공간 미스매치는 19.0%로 나타남 |
+ | query: 어떤 방식이 인터넷상에 교육관련 콘텐츠가 저장되어 있는 걸까? | passage: 또한 교육 자료를 온라인에 반드시 탑재해야 한다고 인식하고 있다. 대부분의 이러닝은 온라인상에 교육관련 콘텐츠가 저장되어 있기 때문에, 교육 자료는 반드시 온라인에만 존재한다고 인식하고 있다. 하지만 대부분이 이러한 형태를 가지고 있다는 것이지, 반드시 이렇지는 않다는 것이다. 몇몇 이러닝 시스템은 휴대용 기기(Tablet PC, 스마트폰, 전자사전 등)에 교육콘텐츠를 저장하고 배포하여 그 단말기를 오프라인 상에서 활용하는 특징을 지니고 있다. 또한 CD 또는 DVD에 저장하여 각 개인의 PC에서 구동시키는 방식도 현재까지 활용되고 있다. 이러한 다양한 저장방식이 있음에도 불구하고, 대부분의 이러닝이 온라인에 콘텐츠를 저장하는 방식을 활용하다보니, 모두 그러한 방식을 택하고 있다고 인식하기도 한다. |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_8
+
+#### df_8
+
+* Dataset: df_8
+* Size: 165,273 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 12 tokens
- mean: 26.85 tokens
- max: 87 tokens
| - min: 86 tokens
- mean: 338.86 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:-----------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 곤살레스-파라모는 언제 이사회에서 그의 자리에서 업그레이드 되었을까? | passage: 2004년 6월부터 집행이사회에 참여했던 스페인 출신의 주제 마누엘 곤살레스-파라모는 2012년 6월 초에 이사국을 떠날 예정이었고 2012년 5월 말 현재 아무런 교체가 이뤄지지 않았다.스페인은 바르셀로나 출신으로 법률부서를 이끄는 ECB 베테랑 안토니오 사인즈 데 비쿠냐를 이르면 2012년 1월 곤살레스-파라모의 후임으로 지명했으나 룩셈부르크, 핀란드, 슬로베니아 등의 대안이 제시됐고 5월까지 결정이 내려지지 않았다.오랜 정치적 싸움 끝에 룩셈부르크의 이브 메르슈가 곤살레스-파라모의 후임으로 임명되었다. |
+ | query: 북한이 대표단을 파견하는 데에 전용기를 택한 이유가 뭐야? | passage: 한편 북한은 평창동계올림픽 개막일인 오늘 김여정 부부장 등 북한 고위급 대표단을 전용기을 이용해 파견하겠다고 통보했습니다. 청와대는 내일 문재인 대통령이 북한 고위급 대표단을 접견하고 오찬을 함께 할 예정이라고 밝혔습니다. 이효용 기자가 보도합니다. [리포트] 김정은 위원장의 여동생 김여정 제1부부장을 비롯한 북한 고위급 대표단이 오늘 전용기로 서해 직항로를 통해 방문합니다. 북한은 어제 통지문을 보내 대표단이 오늘 평양을 출발해 낮 1시30분 인천공항에 도착할 예정이라고 알려왔습니다. 명목상 국가수반인 김영남 최고인민회의 상임위원장과 김일성 일가의 일원인 김여정이 포함된 만큼 대표단의 위상과 체면을 고려해 전용기를 택한 것으로 보입니다. 고위급 대표단은 2박 3일간 머물면서 평창올림픽 개막식에 참석하고 문재인 대통령도 접견할 예정입니다. [김의겸/청와대 대변인 : 문재인 대통령은 10일 북측 고위급 대표단을 접견하고 오찬을 함께할 예정입니다.] 이 자리에서 어떤 대화가 오갈지, 또 김여정이 김정은의 친서나 구두 메시지를 전달할지 등이 주목됩니다. [조한범/통일연구원 선임연구위원 : (김여정은) 단순한 김정은의 동생이 아니고 김정은의 의사를 대변하는 (인물입니다). 사실상 남북한 양측 지도자간에 간접적인 의사 교환이 이루어지는 그런 의미가 있다고 봐야겠죠.] 일각에선 전용��편 방문이 제재 위반일 수 있다는 지적이 나오는 가운데, 정부 관계자는 전용기의 방남 자체를 금지하는 제재 규정은 없는 것으로 본다면서도 전용기가 미국의 제재대상인 고려항공과 무관한지 여부 등에 대해 긴밀히 논의하고 있다고 밝혔습니다. KBS 뉴스 이효용입니다. |
+ | query: 공사수주 대가로 5억여원을 받은 혐의로 천안시 환경사업소 간부를 구속한 기관은? | passage: 대전지검 천안지청은 28일 공사수주 대가로 5억여원을 받은 혐의(특정범죄가중처벌법상 뇌물수수)로 천안시 환경사업소 간부 최 모(51)씨를 구속하고 부하 직원 이 모(44)씨를 같은 혐의로 불구속 입건했다. 또 건설업체 대표 황 모씨 등 2명에 대해서는 돈을 건넨 혐의(뇌물공여)로 불구속 입건했다. 검찰에 따르면 최씨는 지난 2005년부터 2008년까지 천안지역 오·폐수 종말처리장 공사 등의 수주를 받게 해주는 대가로 6차례에 걸쳐 4억8000여만원을 받은 혐의다. 검찰은 지난 26일 최씨의 자택을 압수수색하던 중 오디오 스피커 안에 숨겨진 1만원권 1400만원을 찾아내기도 했다. 검찰은 또 최씨가 또 다른 건설업체로부터도 뇌물을 받은 정황을 포착하고 수사를 확대하고 있다. 하지만 최씨는 뇌물수수에 대해 전면 부인하고 있는 것으로 알려졌다. |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_7
+
+#### df_7
+
+* Dataset: df_7
+* Size: 333,967 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 12 tokens
- mean: 27.88 tokens
- max: 78 tokens
| - min: 48 tokens
- mean: 289.02 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:-----------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 유해화학물질관리법의 취급제한 물질 중 어린이용 잉크제품에 적용되는 화학물질은 어떤 것일까? | passage: 어린이용품에 유해물질 사용 엄격해진다
□ 장난감, 문구용품 등 어린이용품에 어린이 건강에 위해성이 큰 프탈레이트계 2종 등 4개 화학물질의 사용이 엄격히 제한된다.
□ 환경부(장관 윤성규)는 2012년 9월 27일 환경보건법에 따라 제정해 고시한 「어린이용품 환경유해인자 사용제한 등에 관한 규정」을 1년의 계도기간이 지나는 오는 28일부터 본격적으로 실시한다고 17일 밝혔다.
□ 이 규정의 시행으로 어린이용품을 제조 또는 수입하는 사람은 오는 28일부터 플라스틱 제품, 목재 제품, 잉크 제품 등의 어린이용품에 다이-n-옥틸프탈레이트(DNOP), 다이이소노닐프탈레이트(DINP), 트라이뷰틸 주석(TBT), 노닐페놀 등 4개 물질의 사용제한 기준을 지켜야 한다.
※ DNOP(Di-n-Octylphthalate, 다이-n-옥틸 프탈레이트), DINP(Di-isononylphthalate, 다이이소노닐프탈레이트), TBT(Tributyltin compounds, 트라이뷰틸 주석), 노닐페놀(Nonylphenol)
○ DNOP, DINP는 어린이용 플라스틱 제품에 적용되며 아이들이 입으로 빨거나 손으로 만질 때 노출되는 양인 전이량을 고려해 설정된 제한기준을 지켜야 한다.
○ TBT, 노닐페놀은 유해화학물질관리법의 취급제한 물질로 법상 기준을 동일하게 적용해 해당 물질이나 그 물질을 0.1% 이상 함유한 혼합물질을 사용할 수 없다.
- TBT는 어린이용 목제제품, 노닐페놀은 어린이용 잉크제품에 적용된다.
※ 전이량 : 제품에 함유된 환경유해인자가 경구(빠는 행위), 피부, 흡입을 통해 사람의 몸으로 들어갈 수 있는 양
※ 취급제한물질 : 특정용도로 사용되는 경우 위해성이 크다고 인정돼 그 용도로의 제조, 수입, 판매, 보관, 저장, 운반 또는 사용을 금지한 물질(유해화학물질관리법제2조제5호) |
+ | query: 정부는 온라인 성범죄에 관한 시민들의 걱정을 해소하고 안전을 보강하려고 어떻게 했지? | passage: 정부는 최근 새롭게 대두되는 불법도촬 등 디지털 성범죄에 대한 국민 불안감을 해소하고 안전을 강화하기 위하여 ‘디지털 성범죄 피해방지 종합대책’(2017.9.26.)을 마련하였고, 관련 기관이 대응책을 마련하고 있음
○ 디지털 성범죄 정보의 유포·신고와 관련하여 방송통신심의위원회는 ‘디지털 성범죄 대응팀’을 신설하고(2018. 4.), 신속 대응을 위한 긴급심의제도를 도입하는 등 관련 대책을 추진하고 있음
○ 디지털 성범죄 단속·수사와 관련하여 경찰청은 각 지방 경찰청의 ‘사이버수사대’ 내에 전담 수사팀인 ‘사이버성폭력수사팀’을 신설해 수사의 전문성을 강화하고 있음 |
+ | query: 온라인 광고물신고시스템을 마련한다면 광고물을 빠르게 허가받게 되는 건 누구야? | passage: 라. 온라인 광고물신고시스템 도입
□ 온라인 광고물신고시스템을 구축하여, 민원인의 경우 신속하게 광고물을 허가(신고)받을 수 있게 하고, 담당공무원의 경우 행정 부담을 줄일 수 있도록 제도개선이 요구됨
□ 첫째, 민원인의 편의증진을 위하여 신고대상 옥외광고물의 경우 온라인을 통해 관련 서류를 제출하는 방안이 있음. 또한 사전표시지정에 의해 승인 완료된 건축물의 광고물일 경우에는 온라인으로 허가를 접수하는 등의 방안이 고려될 수 있을 것임
○ 싱가폴의 경우 “온라인 광고시스템(E-advertisement)”을 구축하여 민원인의 편의와 행정관리의 효율성을 증대시키는 수단으로 활용함. 이는 광고물의 타입에 따라 각종 제반 서류를 민원이 직접 방문하는 번거로움 없이 온라인상으로 인·허가 절차를 밟도록 하는 제도임
□ 둘째, 온라인 심의제를 도입하여 광고물 심의위원들이 온라인상으로 접속하여 심의할 수 있도록 하는 방안이 필요함. 현재 심의위원회 위원들을 소집해서, 회의하는 데 수일이 소요되는데, 온라인 방식을 도입한다면 광고물 심의에 드는 시간과 노력이 경감될 수 있을 것임
□ 셋째, 온라인 광고물신고시스템을 도입할 경우, 담당공무원이 직접 수기로 광고물 관련 데이터를 입력하는데 드는 행정비용을 절감할 수 있을 것임. 앞으로 체계적인 옥외광고물 DB구축이 가능해져서, 효율적인 행정관리체제를 수립하는데 용이할 것으로 보임 |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_6
+
+#### df_6
+
+* Dataset: df_6
+* Size: 270,399 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 12 tokens
- mean: 27.95 tokens
- max: 56 tokens
| - min: 66 tokens
- mean: 302.9 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:--------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 돈이 보이는 빅데이터는 누가 적었어요? | passage: 돈이 보이는 빅데이터/이종석/김영��� 넓고 광활한 인터넷 세상에서 정보는 지칠 줄 모르고 쌓여가고, 빅데이터를 알면 알수록 돈이 된다고 한다. 빅데이터, 딥러닝, 인공지능을 활용해 어떻게 수익을 창출할 수 있을까. 빅데이터로 어떻게 성과를 낼 수 있을까. 알고리즘 개발자이자 빅데이터 비즈니스 컨설턴트로 기업 현장에서 빅데이터를 활용해 수익을 창출해온 이종석 박사가 20여년간 세계 여러 기업을 거치며 얻은 현장 경험과 연구를 한 권으로 정리한 빅데이터 활용 가이드다. 애매모호한 빅데이터 개념 정의부터 아이디어를 현실로 바꿔줄 빅데이터 활용법까지 4차 산업혁명 시대 필수 지식 빅데이터가 한 손에 잡힌다. yjjoe@fnnews.com 조윤주 기자 |
+ | query: 2016 소프트웨어주간의 우수 SW기업 투자유치 설명회에 참여한 SW기업은 몇 개야? | passage: 상상을 현실로, 소프트웨어가 미래다!
□ 「2016 소프트웨어주간」의 주요행사는 다음과 같다.
첫째, 우수 SW기업의 비즈니스에 새로운 가능성을 제시한다.
ㅇ 먼저, ‘SW산업인의 날’에서는 어려운 경제여건 속에서도 자신의 자리에서 최선을 다하는 각계각층의 SW산업인을 격려하고, SW산업 발전에 기여한 공로자 44명을 포상*할 예정이다.
* SW산업발전 유공자 포상제도가 도입(1999년) 이래, 최초로 금탑산업훈장 수여
ㅇ 또한, ‘우수 SW기업 투자유치 설명회’에서는 SW기업 15개사가 참여한 가운데, 우수 SW제품을 체험할 수 있는 전시회와 투자자 ・바이어가 참여하는 1:1 비즈니스 상담회가 진행될 예정이다.
* SW산업인의 날 : 11.28.(월) 17:30-19:40, 코엑스 그랜드볼룸 104-105호
* 우수SW기업 투자유치 설명회 : 11.28.(월)-11.29.(화), 코엑스 그랜드볼룸 101-102호
ㅇ ‘클라우드 Day’에서는 ‘스마트 교육, 클라우드를 만나다’를 주제로 교육 분야에서의 클라우드 활용 사례 및 기대효과 등을 소개하고 향후 발전방안을 모색하는 한편,
- ‘공개SW Day’와 ‘공개SW 개발자 Off Day’에서는 활용 범위가 빠르게 확산되고 있는 공개 SW분야의 최신 동향과 적용방안을 소개하고, 개발자간 네트워킹 행사를 진행할 예정이다.
* 클라우드 Day : 12.1.(목) 14:00-18:00, 코엑스 컨퍼런스룸 402, 403호
* 공개SW Day : 12.2.(금) 13:30-18:00, 코엑스 그랜드 볼룸 104-105호
* 공개SW 개발자 Off Day : 12.2.(금) 17:30-22:10, 역삼동 마루180 |
+ | query: 얼마 규모의 투입재원이 2013년도에 초기 사업화 펀드에 대해 축조되었니? | passage: 산업부 데쓰밸리 기간 중소기업 을 위한 , 'R&D ' '초기 사업화 (Death-Valley Bridge) 펀드 출시
초기 사업화 펀드 소개
〔 운영계획〕
□ (조성규모) 2013년에는 기술료 200억원, 2014년에도 기술료 99억원을 출연하여 지원하고 2015년부터 일반회계 편성 검토
* 투자기간은 3년 이내 존속기간은 8년으로 함(필요시 2년 이내 연장 가능)
ㅇ 2013년도에는 선정된 운용사 및 민간 투자자로부터 자금을 조달하여 250억원 규모로 투자재원 조성
□ (투자전략) 최초 결성 펀드는 정보비대칭에 따른 투자실패위험 최소화를 위해 산업기술 R&D (성공) 완료 과제 투자 원칙 제시
ㅇ 2013년도에는 투자 시점을 기준으로 2년 前에 R&D에 성공한 기업으로 구체적인 사업화 계획을 제시할 수 있는 국내 중소기업
□ (지원규모) 업체당 최대 20억원까지 투자(모태펀드는 평균 15.7억원 투자)
ㅇ 대․중견기업보다는 중소기업의 설비투자 규모 등을 고려하고 제한된 재원으로 다수의 중소기업 지원을 위해 20억원으로 한정
□ (손실충당) 초기 사업화 투자 유도를 위해서 정부가 위험을 분담
ㅇ GP의 정부출자지분에 대한 우선손실충당의무 를 배제하고 기타민간출자자에 대해서는 GP와 LP간에 협의로 정함
□ (운영체계) 산업부 주관으로 관리기관을 지정하고 주요한 결정사안은 운용委, 평가委를 구성 운영하여 처리
ㅇ 한국산업��술진흥원 (KIAT)을 관리기관으로 하되, 운용사 선정이후 한국벤처투자로 이관하여 관리함
ㅇ 이와 더불어 사업화전문회사*를 활용한 기술평가 및 사업화컨설팅등을 사업화 주기 全 에 걸쳐서 포괄적으로 지원
* 투자기업 사업화 지원을 목적으로 관리보수외에 매년 펀드 결성총액의 1%까지 ‘사업화전문회사’ 컨설팅 비용*으로 추가 지원 |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+df_9
+
+#### df_9
+
+* Dataset: df_9
+* Size: 126,908 training samples
+* Columns: query and pos
+* Approximate statistics based on the first 1000 samples:
+ | | query | pos |
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
+ | type | string | string |
+ | details | - min: 11 tokens
- mean: 24.51 tokens
- max: 60 tokens
| - min: 48 tokens
- mean: 302.15 tokens
- max: 512 tokens
|
+* Samples:
+ | query | pos |
+ |:----------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+ | query: 엑소의 리패키지 앨범의 타이틀곡은? | passage: 8월 18일 0시에 리패키지 앨범 《LOTTO》로 컴백하였다. 타이틀 곡 "Lotto"를 포함한 신곡 4개와 정규 3집 타이틀곡과 수록곡 모두가 수록 되었다. 공식적으로는 19일부터 활동하였으며, MBC와 KBS에서는 상업성 논란으로 타이틀 곡의 제목을 "Lotto"가 아닌 "Louder"로 바꾸어 방송한다. 8월 25일 자정 0시에 드라마 《달의연인 보보경심 려》의 OST "너를 위해"를 발매하였고. 첸, 백현, 시우민이 참여하였다. 이는 새로운 유닛이 나올 것이라는 것을 잠재적으로 발표한 셈이었다. 9월 17일, MBC 《무한도전》을 통해 EXO와 유재석의 꿈에 그리던 콜라보가 성사되었다. 타이틀 곡은 《Dancing King》으로, 오후 20시 음원 발매되었다. |
+ | query: 서울올림픽의 마스코트는 무엇인가? | passage: 지구촌 최대 겨울 스포츠 축제의 마무리는 그야말로 흥겨운 무대였습니다. K팝 스타들의 열정적인 공연까지 더해져서 평창의 마지막 밤을 화려하게 장식했습니다. 박선우 기자가 전합니다. [리포트] 화려한 불꽃과 함께 17일 간의 여정을 마무리하는 마지막 축제가 막을 올립니다. 개회식에 이어 남북한 선수들은 맨 마지막으로 나란히 행진해 커다란 환호를 받았습니다. &쾌지나 칭칭나네&에 맞춰 서울올림픽의 마스코트인 호돌이와 평창의 마스코트 수호랑이 함께 등장해 눈길을 끌었습니다. 개회식에서 찬사를 받았던 드론 쇼는 수호랑을 형상화해 평창의 밤하늘을 수놓았습니다. K팝을 대표하는 스타들의 열정적인 무대도 눈길을 끌었습니다. 엑소와 씨엘의 공연이 펼쳐지자 개회식 분위기는 절정으로 치달았습니다. 차기 개최지인 베이징의 공연은 장이머우 감독의 연출로 중국의 전통과 현재의 조화를 잘 담아냈습니다. 흥겨웠던 평창의 마지막 밤을 뒤로 하고, 바흐 IOC 위원장이 열전이 마무리됐음을 알렸습니다. [토마스 바흐/IOC 위원장 : 한국 국민들께 감사합니다. 땡큐 바이바이 코리아!] 마침내 성화가 꺼지고, 지구촌은 평창과의 작별을 고했습니다. 감동과 환희의 드라마를 써나간 선수들은 4년 뒤 베이징에서 다시 만날 것을 기약했습니다. KBS 뉴스 박선우입니다. |
+ | query: 류예는 중화인민공화국의 배우이다. | passage: 류예(1978년 3월 23일 ~)는 중화인민공화국의 배우로, 중앙희극학원에서 교육받았습니다. 그는 여러 영화에 출연했으며, 그 중에는 '그 산, 그 사람, 그 개'(1999), '란유'(2001), '발자크와 바느질하는 중국 소녀'(2002), '퍼플 버터플라이'(2003), '꿈꾸는 풍경'(2003), '미인초'(2003), '모리화'(2004), '의신의귀'(2005), '청춘애인사건'(2005), '아수'(2005), '무극'(2006), '황후화'(2007), '미니'(2007), '다크 매터'(2007), '천당구'(2007), '커넥트'(2008), '경한'(2008), '건국대업'(2009), '난징! 난징!(2009)', '철인'(2009), '3중 충돌'(2010), '애출색'(2010), '건당위업'(2011), '부재양니고단'(2011), '초한지 영웅의 부활'(2013), '봉배도저'(2013), '살계'(2013), '폴리스 스토리 2014'(2014), '웨이팅'(2014), '베이징, 뉴욕'(2014), '놈놈놈 주자, 희자, 비자'(2015), '세이빙 미스터 우'(2016), '대폭격'(2016), '마이 워'(2016), '야공작'(2017), '건군대업'(2017), '대폭격'(2018), '북평무전사'(2014), '파파취나얼 시즌 3'(2015) 등이 있습니다. 또한, 2001년에는 금마장 영화제 남우주연상을, 2004년에는 홍콩 영화 금계장 영화제 남우주연상을 수상했습니다. |
+* Loss: GISTEmbeddLossWithMargin.CachedGISTEmbedLossWithMargin with these parameters:
+ ```json
+ {'guide': SentenceTransformer(
+ (0): Transformer({'max_seq_length': 522, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+ (2): Normalize()
+ ), 'temperature': 0.01, 'mini_batch_size': 100, 'margin_strategy': 'absolute', 'margin': 0.1}
+ ```
+
+
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 20000
+- `per_device_eval_batch_size`: 4096
+- `learning_rate`: 0.00025
+- `num_train_epochs`: 2
+- `warmup_ratio`: 0.05
+- `fp16`: True
+- `dataloader_drop_last`: True
+- `batch_sampler`: no_duplicates
+
+#### All Hyperparameters
+Click to expand
+
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 20000
+- `per_device_eval_batch_size`: 4096
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 0.00025
+- `weight_decay`: 0.0
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1.0
+- `num_train_epochs`: 2
+- `max_steps`: -1
+- `lr_scheduler_type`: linear
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.05
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: False
+- `fp16`: True
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: True
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: False
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `tp_size`: 0
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: False
+- `resume_from_checkpoint`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: False
+- `prompts`: None
+- `batch_sampler`: no_duplicates
+- `multi_dataset_batch_sampler`: proportional
+
+
+
+### Training Logs
+| Epoch | Step | Training Loss | miracl_cosine_ndcg@10 | autorag_embedding_cosine_ndcg@10 |
+|:------:|:----:|:-------------:|:---------------------:|:--------------------------------:|
+| 0.8654 | 90 | 0.5068 | - | - |
+| 0.9615 | 100 | 0.5072 | - | - |
+| 1.0769 | 110 | 0.3826 | - | - |
+| 1.1731 | 120 | 0.5147 | 0.5905 | 0.8244 |
+| 1.2692 | 130 | 0.2878 | - | - |
+| 1.3654 | 140 | 0.2986 | - | - |
+| 1.4615 | 150 | 0.4127 | - | - |
+| 1.5577 | 160 | 0.3314 | 0.5852 | 0.8511 |
+| 1.6538 | 170 | 0.3626 | - | - |
+| 1.75 | 180 | 0.2842 | - | - |
+| 1.8462 | 190 | 0.3986 | - | - |
+| 1.9423 | 200 | 0.2893 | 0.5940 | 0.8505 |
+
+
+### Framework Versions
+- Python: 3.11.10
+- Sentence Transformers: 4.1.0
+- Transformers: 4.51.3
+- PyTorch: 2.7.0+cu126
+- Accelerate: 1.6.0
+- Datasets: 3.5.1
+- Tokenizers: 0.21.1
+
+## Citation
+
+### BibTeX
+
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+ author = "Reimers, Nils and Gurevych, Iryna",
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+ month = "11",
+ year = "2019",
+ publisher = "Association for Computational Linguistics",
+ url = "https://arxiv.org/abs/1908.10084",
+}
+```
+
+
+
+
+
+
\ No newline at end of file