Spaces:

yoon2566
/

script

Sleeping

App Files Files Community

script / app.py

yoon2566

Update app.py

f640b97 verified over 1 year ago

raw

history blame

2.67 kB

	import gradio as gr
	from youtube_transcript_api import YouTubeTranscriptApi
	from youtube_transcript_api._errors import NoTranscriptFound, TranscriptsDisabled
	import re

	def extract_video_id(url):
	"""YouTube URL에서 비디오 ID를 추출하는 함수"""
	video_id = None
	if 'youtube.com/watch?v=' in url:
	video_id = url.split('youtube.com/watch?v=')[1][:11]
	elif 'youtu.be/' in url:
	video_id = url.split('youtu.be/')[1][:11]
	return video_id

	def get_transcript(url):
	"""YouTube 영상의 스크립트를 추출하는 함수"""
	try:
	video_id = extract_video_id(url)
	if not video_id:
	return "올바른 YouTube URL을 입력해주세요."

	try:
	# 먼저 한국어 자막 시도
	transcript_list = YouTubeTranscriptApi.get_transcript(video_id, languages=['ko'])
	except NoTranscriptFound:
	try:
	# 한국어 자막이 없으면 영어 자막 시도
	transcript_list = YouTubeTranscriptApi.get_transcript(video_id, languages=['en'])
	except NoTranscriptFound:
	try:
	# 일반 자막이 없으면 자동 생성된 자막 시도
	transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
	transcript = transcript_list.find_generated_transcript(['ko', 'en'])
	transcript_list = transcript.fetch()
	except:
	return "이 영상에는 자막이 없거나 자막을 가져올 수 없습니다."

	# 전체 스크립트 텍스트 구성
	full_transcript = ""
	for transcript in transcript_list:
	text = transcript['text']
	timestamp = transcript['start']
	minutes = int(timestamp // 60)
	seconds = int(timestamp % 60)
	full_transcript += f"[{minutes:02d}:{seconds:02d}] {text}\n"

	return full_transcript

	except TranscriptsDisabled:
	return "이 영상은 자막이 비활성화되어 있습니다."
	except Exception as e:
	return f"오류가 발생했습니다: {str(e)}"

	# Gradio 인터페이스 생성
	iface = gr.Interface(
	fn=get_transcript,
	inputs=gr.Textbox(label="YouTube URL을 입력하세요"),
	outputs=gr.Textbox(label="추출된 스크립트", lines=10),
	title="YouTube 스크립트 추출기",
	description="YouTube 영상의 URL을 입력하면 자동으로 스크립트를 추출합니다. (일반 자막 또는 자동 생성된 자막)"
	)

	# 애플리케이션 실행
	if __name__ == "__main__":
	iface.launch()