{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "v5hvo8QWN-a9" }, "source": [ "# Installing Whisper\n", "\n", "The commands below will install the Python packages needed to use Whisper models and evaluate the transcription results." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "id": "ZsJUxc0aRsAf" }, "outputs": [], "source": [ "! pip install git+https://github.com/openai/whisper.git" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "id": "3CqtR2Fi5-vP" }, "outputs": [], "source": [ "import io\n", "import os\n", "import numpy as np\n", "\n", "try:\n", " import tensorflow # required in Colab to avoid protobuf compatibility issues\n", "except ImportError:\n", " pass\n", "\n", "import torch\n", "import pandas as pd\n", "import urllib\n", "import tarfile\n", "import whisper\n", "import torchaudio\n", "\n", "from scipy.io import wavfile\n", "from tqdm.notebook import tqdm\n", "\n", "\n", "pd.options.display.max_rows = 100\n", "pd.options.display.max_colwidth = 1000\n", "DEVICE = \"cuda\" if torch.cuda.is_available() else \"cpu\"" ] }, { "cell_type": "markdown", "metadata": { "id": "1IMEkgyagYto" }, "source": [ "# Loading the Fleurs dataset\n", "\n", "Select the language of the Fleur dataset to download. Please note that the transcription and translation performance varies widely depending on the language. Appendix D.2 in the paper contains the performance breakdown by language." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 49, "referenced_widgets": [ "d36195a3d8184ec98132aa9e857bcc64", "10736c04e5b94344a9e948a89b859d8a", "d458d02a2dfe45ae918cbb1d53f4abfe" ] }, "id": "L4lPK5106Of2", "outputId": "313c1993-fb43-4315-800a-fc7cf34d7be5" }, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "Dropdown(description='Language:', index=39, options=(('Select language', None), ('----------', None), ('Afrika…" ], "application/vnd.jupyter.widget-view+json": { "version_major": 2, "version_minor": 0, "model_id": "d36195a3d8184ec98132aa9e857bcc64" } }, "metadata": {} } ], "source": [ "import ipywidgets as widgets\n", "\n", "languages = {\"af_za\": \"Afrikaans\", \"am_et\": \"Amharic\", \"ar_eg\": \"Arabic\", \"as_in\": \"Assamese\", \"az_az\": \"Azerbaijani\", \"be_by\": \"Belarusian\", \"bg_bg\": \"Bulgarian\", \"bn_in\": \"Bengali\", \"bs_ba\": \"Bosnian\", \"ca_es\": \"Catalan\", \"cmn_hans_cn\": \"Chinese\", \"cs_cz\": \"Czech\", \"cy_gb\": \"Welsh\", \"da_dk\": \"Danish\", \"de_de\": \"German\", \"el_gr\": \"Greek\", \"en_us\": \"English\", \"es_419\": \"Spanish\", \"et_ee\": \"Estonian\", \"fa_ir\": \"Persian\", \"fi_fi\": \"Finnish\", \"fil_ph\": \"Tagalog\", \"fr_fr\": \"French\", \"gl_es\": \"Galician\", \"gu_in\": \"Gujarati\", \"ha_ng\": \"Hausa\", \"he_il\": \"Hebrew\", \"hi_in\": \"Hindi\", \"hr_hr\": \"Croatian\", \"hu_hu\": \"Hungarian\", \"hy_am\": \"Armenian\", \"id_id\": \"Indonesian\", \"is_is\": \"Icelandic\", \"it_it\": \"Italian\", \"ja_jp\": \"Japanese\", \"jv_id\": \"Javanese\", \"ka_ge\": \"Georgian\", \"kk_kz\": \"Kazakh\", \"km_kh\": \"Khmer\", \"kn_in\": \"Kannada\", \"ko_kr\": \"Korean\", \"lb_lu\": \"Luxembourgish\", \"ln_cd\": \"Lingala\", \"lo_la\": \"Lao\", \"lt_lt\": \"Lithuanian\", \"lv_lv\": \"Latvian\", \"mi_nz\": \"Maori\", \"mk_mk\": \"Macedonian\", \"ml_in\": \"Malayalam\", \"mn_mn\": \"Mongolian\", \"mr_in\": \"Marathi\", \"ms_my\": \"Malay\", \"mt_mt\": \"Maltese\", \"my_mm\": \"Myanmar\", \"nb_no\": \"Norwegian\", \"ne_np\": \"Nepali\", \"nl_nl\": \"Dutch\", \"oc_fr\": \"Occitan\", \"pa_in\": \"Punjabi\", \"pl_pl\": \"Polish\", \"ps_af\": \"Pashto\", \"pt_br\": \"Portuguese\", \"ro_ro\": \"Romanian\", \"ru_ru\": \"Russian\", \"sd_in\": \"Sindhi\", \"sk_sk\": \"Slovak\", \"sl_si\": \"Slovenian\", \"sn_zw\": \"Shona\", \"so_so\": \"Somali\", \"sr_rs\": \"Serbian\", \"sv_se\": \"Swedish\", \"sw_ke\": \"Swahili\", \"ta_in\": \"Tamil\", \"te_in\": \"Telugu\", \"tg_tj\": \"Tajik\", \"th_th\": \"Thai\", \"tr_tr\": \"Turkish\", \"uk_ua\": \"Ukrainian\", \"ur_pk\": \"Urdu\", \"uz_uz\": \"Uzbek\", \"vi_vn\": \"Vietnamese\", \"yo_ng\": \"Yoruba\"}\n", "selection = widgets.Dropdown(\n", " options=[(\"Select language\", None), (\"----------\", None)] + sorted([(f\"{v} ({k})\", k) for k, v in languages.items()]),\n", " value=\"ko_kr\",\n", " description='Language:',\n", " disabled=False,\n", ")\n", "\n", "selection" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "4eihI6oK6Of2", "outputId": "42874540-06ec-442a-aa14-71f52f964de0" }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Selected language: Korean (ko_kr)\n" ] } ], "source": [ "lang = selection.value\n", "language = languages[lang]\n", "\n", "assert lang is not None, \"Please select a language\"\n", "print(f\"Selected language: {language} ({lang})\")" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "id": "GuCCB2KYOJCE" }, "outputs": [], "source": [ "class Fleurs(torch.utils.data.Dataset):\n", " \"\"\"\n", " A simple class to wrap Fleurs and subsample a portion of the dataset as needed.\n", " \"\"\"\n", " def __init__(self, lang, split=\"test\", subsample_rate=1, device=DEVICE):\n", " url = f\"https://storage.googleapis.com/xtreme_translations/FLEURS102/{lang}.tar.gz\"\n", " tar_path = os.path.expanduser(f\"~/.cache/fleurs/{lang}.tgz\")\n", " os.makedirs(os.path.dirname(tar_path), exist_ok=True)\n", "\n", " if not os.path.exists(tar_path):\n", " with urllib.request.urlopen(url) as source, open(tar_path, \"wb\") as output:\n", " with tqdm(total=int(source.info().get(\"Content-Length\")), ncols=80, unit='iB', unit_scale=True, unit_divisor=1024) as loop:\n", " while True:\n", " buffer = source.read(8192)\n", " if not buffer:\n", " break\n", "\n", " output.write(buffer)\n", " loop.update(len(buffer))\n", "\n", " labels = {}\n", " all_audio = {}\n", " with tarfile.open(tar_path, \"r:gz\") as tar:\n", " for member in tar.getmembers():\n", " name = member.name\n", " if name.endswith(f\"{split}.tsv\"):\n", " labels = pd.read_table(tar.extractfile(member), names=(\"id\", \"file_name\", \"raw_transcription\", \"transcription\", \"_\", \"num_samples\", \"gender\"))\n", "\n", " if f\"/{split}/\" in name and name.endswith(\".wav\"):\n", " audio_bytes = tar.extractfile(member).read()\n", " all_audio[os.path.basename(name)] = wavfile.read(io.BytesIO(audio_bytes))[1]\n", " \n", "\n", " self.labels = labels.to_dict(\"records\")[::subsample_rate]\n", " self.all_audio = all_audio\n", " self.device = device\n", "\n", " def __len__(self):\n", " return len(self.labels)\n", "\n", " def __getitem__(self, item):\n", " record = self.labels[item]\n", " audio = torch.from_numpy(self.all_audio[record[\"file_name\"]].copy())\n", " text = record[\"transcription\"]\n", " \n", " return (audio, text)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "id": "-YcRU5jqNqo2" }, "outputs": [], "source": [ "dataset = Fleurs(lang, subsample_rate=10) # subsample 10% of the dataset for a quick demo" ] }, { "cell_type": "markdown", "metadata": { "id": "0ljocCNuUAde" }, "source": [ "# Running inference on the dataset using a medium Whisper model\n", "\n", "The following will take a few minutes to transcribe and translate utterances in the dataset." ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "_PokfNJtOYNu", "outputId": "7d848480-a589-42c5-d456-611522091f51" }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Model is multilingual and has 762,321,920 parameters.\n" ] } ], "source": [ "model = whisper.load_model(\"medium\")\n", "print(\n", " f\"Model is {'multilingual' if model.is_multilingual else 'English-only'} \"\n", " f\"and has {sum(np.prod(p.shape) for p in model.parameters()):,} parameters.\"\n", ")" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "id": "F74Yfr696Of5" }, "outputs": [], "source": [ "options = dict(language=language, beam_size=5, best_of=5)\n", "transcribe_options = dict(task=\"transcribe\", **options)\n", "translate_options = dict(task=\"translate\", **options)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 49, "referenced_widgets": [ "97bfe56acfa04fd4899ece60a26bee17", "4ca421b430b54f5ba66bf981e4d4e003", "ad6e4f8221c843f9b406d5bf18206aab", "e7ca545307994521996af790a22497bf", "822ae53e841b42008c5aefb9cc7da64a", "37a30b9b7bd34421bd3d0679b81d8bad", "61dee3eff0b14127b06de151cabb5bf8", "0ed86ac53e8146eca0ab4aa7e9e8da19", "8b1c829b6c2b47a280069b758a6dec2b", "3f2f720394cd406eac1487e37994a9b8", "ddefd1c4b2174b538a1df784050899d7" ] }, "id": "7OWTn_KvNk59", "outputId": "31cfe3bd-73dd-489b-b972-1920d727afce", "scrolled": false }, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ " 0%| | 0/39 [00:00\n", "
\n", "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
referencetranscriptiontranslation
0재입국 충격은 신혼 단계가 없기 때문에 문화 충격보다 빠르게 발생하며 더 오래 지속하고 더 극심할 수 있습니다재입국 충격은 신혼 단계가 없기 때문에 문화 충격보다 빠르게 발생하며 더 오래 지속하고 더 극심할 수 있습니다.The reentry shock does not have a honeymoon stage, so it occurs faster than the cultural shock and can last longer and be more severe.
1불행히도 운전자의 행동이 100% 확실하다고 예측할 수 없기 때문에 교통 흐름을 연구하기란 어렵다불행히도 운전자의 행동이 100% 확실하다고 예측할 수 없기 때문에 교통 흐름을 연구하기란 어렵다.Unfortunately, it is difficult to study the flow of traffic because the driver's behavior is not 100% certain.
2합금은 기본적으로 금속 두 개 이상의 혼합물이다 주기율표 상에 원소가 많이 있다는 것을 잊지 마라합금은 기본적으로 금속 2개 이상의 혼합물이다. 주기율표상의 원소가 많이 있다는 것을 잊지 마라.Don't forget that there are more than two metals in the alloy. Don't forget that there are more than two metals in the alloy.
3홍콩 섬은 홍콩 영토에 홍콩이라는 이름을 부여한 곳이자 많은 관광객들이 주안점으로 여기는 곳이다홍콩섬은 홍콩 영토에 홍콩이라는 이름을 부여한 곳이자 많은 관광객들이 주한점으로 여기는 곳이다.Hong Kong Island is a place named Hong Kong on Hong Kong territory, and it is the main destination of many tourists.
4남자들을 단호히 거절하고 자신의 입장을 고수하는 것을 두려워하지 말라문화적 차이든 아니든 희롱은 간과될 수 없다!남자들을 단호히 거절하고 자신의 입장을 고수하는 것을 두려워하지 말라. 문화적 차이든 아니든 희롱은 간과 될 수 없다.Do not be afraid to reject men and defend your position. Whether it is a cultural difference or not, it cannot be ignored.
5좀 더 작은 섬의 대부분은 독립 국가이거나 프랑스와 관련이 있고 호화로운 비치 리조트로 알려져 있다좀 더 작은 섬의 대부분은 독립국가이거나 프랑스와 관련이 있고, 호화로운 비치 리조트로 알려져 있다.Most of the smaller islands are independent or related to France, and are known as luxurious beach resorts.
6사실 이게 존재한다는 사실을 아는 사람이 있다고 해도 찾는 것조차 쉽지 않습니다 일단 동굴 안에 들어가면 완전한 고립입니다사실 이게 존재한다는 사실을 아는 사람이 있다고 해도 찾는 것조차 쉽지 않습니다. 일단 동그란에 들어가면 완전한 고립입니다.In fact, even if there are people who know that this exists, it is not easy to find it. Once you enter the cave, it is a complete isolation.
7원단이 너무 뜨거워지지 않도록 주의하세요원단이 수축하거나 그을릴 수 있습니다원단이 너무 뜨거워지지 않도록 주의하세요. 원단이 수축하거나 그을릴 수 있습니다.Be careful not to heat the fabric too much. The fabric may shrink or get dirty.
8도널드 트럼프 미국 대통령은 늦은 일요일 시간대에 대변인을 통해 발표한 성명에서 미군이 시리아에서 철수할 것이라고 발표했다도널드 트럼프 미국 대통령은 늦은 일요일 시간대에 대변인을 통해 발표한 성명에서 미군이 시리아에서 철수할 것이라고 발표했다.U.S. President Donald Trump announced on Sunday that the U.S. military would withdraw from Syria in his speech.
9미국 체조 협회는 미국 올림픽 위원회의 서한을 지지하며 미국의 전 운동선수가 안전한 환경을 가질 수 있도록 돕는 올림픽 관계자의 절대적 필요성을 인정합니다미국 체조협회는 미국 올림픽위원회의 서한을 지지하며 미국의 전 운동선수가 안전한 환경을 가질 수 있도록 돕는 올림픽 관계자의 절대적 필요성을 인정합니다.The U.S. Sports Association supports the call of the U.S. Olympic Committee to help all athletes in the U.S. have a safe environment.
10\"이건 작별 인사가 아닙니다. 이것은 한 장의 끝이며 새로운 장의 시작입니다.\"\\t \" \" 이 건 | 작 별 | 인 사 가 | 아 닙 니 다 . | 이 것 은 | 한 | 장 의 | 끝 이 며 | 새 로 운 | 장 의 | 시 작 입 니 다 . \" \" |이건 작별인사가 아닙니다. 이것은 한작의 끝이며 새로운 작의 시작입니다.This is not a farewell. This is the end of one work and the beginning of a new work.
11남아프리카 공화국의 특정 공원 또는 남아프리카 공화국 국립공원 전체에 입장할 수 있는 와일드 카드를 구매하는 것이 이득일 수 있습니다남아프리카 공화국의 특정 공원 또는 남아프리카 공화국 국립공원 전체에 입장할 수 있는 와일드카드를 구매하는 것이 이득일 수 있습니다.It may be beneficial to purchase a wild card that allows you to enter a specific park or a national park of South Africa.
12높은 고도나 산길을 넘어 운전하려고 하면 눈 빙판 또는 영하의 기온 등이 생길 가능성에 대해 고려해야 한다높은 고도나 산길을 넘어 운전하려고 하면 눈, 빙판 또는 영하의 기온 등이 생길 가능성에 대해 고려해야 한다.If you want to drive over high altitude or mountain roads, you have to consider the possibility of snow, ice, or the temperature of a movie.
13이 이야기에 관계된 두 명의 성인 자녀를 둔 기혼자인 듀발은 밀러에게 깊은 인상을 남기지 않았습니다이 이야기에 관계된 두 명의 성인 자녀를 둔 기혼자인 듀발은 밀러에게 깊은 임상을 남기지 않았습니다.Duval, who had two adult children related to this story, did not leave a deep impression on Miller.
14찬드라 셰카르 솔랑키 경찰서장은 피고인이 얼굴을 가린 채 법정에 나왔다고 말했다찬드라 시에카르 솔랑키 경찰서장은 피고인이 얼굴을 가린 채 법적에 나왔다고 말했다.The police chief of Chandra Shekhar Solanki said that the defendant covered his face and came out legally.
15지하철의 정규 안내 방송은 카탈로니아어로만 제공되나 계획에 없던 운행 중단 시에는 자동 시스템을 통해 스페인어 영어 프랑스어 아라비아어 일본어를 포함한 다양한 언어로 방송됩니다지하철의 정규 안내 방송은 카탈로니아어로만 제공되나 계획에 없던 운행 중단 시에는 자동 시스템을 통해 스페인어, 영어, 프랑스어, 아라비아어, 일본어를 포함한 다양한 언어로 방송됩니다.Subway's regular announcement broadcast is only available in Catalan, but it will be broadcast in Spanish, English, French, Arabic, and Japanese.
16그는 그 소문을 정치적 수다와 어리석음\"\"이라고 언급했습니다.그는 그 소문을 정치적 수다와 어리석음이라고 언급했습니다.He mentioned the rumor as political talk and foolishness.
17지구가 마치 움직이지 않는 것처럼 느껴지기에 언뜻 보면 맞는 말 같기도 하죠지구가 마치 움직이지 않은 것처럼 느껴지기에 언특보면 맞는 말 같기도 하죠?It feels as if the earth is not moving, and it seems to be right.
18어린이와 노약자를 포함한 6명의 인질들은 필리핀 사진작가들과 마찬가지로 일찍 풀려났다어린이와 노약자를 포함한 6명의 인질들은 필리핀 사진작가들과 마찬가지로 일찍 풀려났다.Children and old people, including 6 people, were released early, just like the Philippine photographers.
19같은 줄을 따라 남자는 무릎을 덮는 바지를 입을 것을 요구받는다같은 줄을 따라 남자는 무릎을 덮는 바지를 입을 것을 요구받는다.The man is asked to wear pants that cover his knees along the same line.
20그것은 기차와 자동차 및 여러 교통수단을 가져다주었습니다그것은 기차와 자동차 및 여러 교통수단을 가져다 주었습니다.It was given by trains, cars, and other means of transport.
21모로코 술탄은 다루 이 바드야daru l-badya라는 도시로 재건축하고 여기에 무역 거점을 세운 스페인 상인들은 이곳을 카사블랑카라고 불렀다모로코 슬타는 다루이 바드야라는 도시로 재건축하고 여기에 무역 거점을 세운 스페인 상인들은 이곳을 카사블랑카라고 불렀다.Morocco Sultan was rebuilt as a city called Darui Badia The Spanish merchants who built a trade point here called this place Casablanca.
22비록 대부분 이론에 의존하긴 해도 프로그램은 궁수자리 은하 관측을 시뮬레이션하도록 짜여 있습니다비록 대부분 이론에 의존하긴 해도, 프로그램은 궁수자리 은하관측을 시뮬레이션하도록 짜여 있습니다.Although most of them rely on theory, the program is designed to simulate the Milky Way of the palace.
23아동이 위탁 보호를 받게 되는 이유는 방치에서 학대 심지어 강탈에 이르기까지 광범위하게 다양합니다아동이 위탁보호를 받게 되는 이유는 방치에서 학대, 심지어 강탈에 이르기까지 광범위하게 다양합니다.The reason why children are protected is that they can be abused, abused, and even robbed.
24뇌 병리와 행동 사이의 상관관계가 과학자들의 연구를 돕습니다뇌병리와 행동사이의 상관관계가 과학자들의 연구를 돕습니다.The relationship between brain
25사람들은 귀국길에 오르는 여행객들에게도 인내심과 이해심이 필요하다고 생각하지 않을 수 있다사람들은 귀국길에 오르는 여행객들에게도 인내심과 이해심이 필요하다고 생각하지 않을 수 있다.People may not think that patience and understanding are necessary for travelers on their way back home.
26교전이 발발한 직후 영국은 독일에 대한 해상 봉쇄를 시작한다교전이 발발한 직후 영국은 독일에 대한 해상붕쇄를 시작한다.As there is a fierce conflict,
27이렇게 되면 플레이어들이 장치를 허공에서 움직여 동작과 움직임을 제어할 수 있게 된다이렇게 되면 플레이어들이 장치를 허공해서 움직여 동작과 움직임을 제어할 수 있게 된다.In this way, players can control the movement by moving the device in the air.
28스펙트럼의 또 다른 끝에서는 팀이 해오던 모든 것을 바꾸고 자신만의 방식으로 만들어야 한다고 생각하는 인지하지 못한 개인으로 바뀝니다스펙트럼의 또 다른 끝에서는 팀이 해오던 모든 것을 바꾸고 자신만의 방식으로 만들어야 한다고 생각하는 인지하지 못한 개인으로 바뀝니다.At the other end of the spectrum, you have to change everything your team has been doing and make it your own way. It turns into an unrecognizable individual.
29피라미드 사운드와 광선 쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다피라미드 사운드와 광선쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다.Pyramid Sound and Glow Show is one of the things that attracts children's interest the most in this area.
30장면들이 피라미드들 위에 비쳤고 다른 피라미드들에는 불이 밝혀졌다장면들이 피라미드들 위에 비쳤고, 다른 피라미드들에는 불이 밝혀졌다.The scenes were reflected on the pyramids, and the fire was lit on the other pyramids.
31이곳은 남아프리카의 명소 중 하나로 남아프리카 국립 공원sanparks의 플래그십입니다이곳은 남아프리카의 명소 중 하나로 남아프리카 국립공원의 플래그십입니다.This is one of the famous places in South Africa and is a flagship of South African National Park.
32아직도 존재하는 것으로 알려진 25개의 던랩 브로드 사이드는 이 문서의 남아있는 가장 오래된 사본이다 손으로 쓴 원본은 더 이상 남아 있지 않다아직도 존재하는 것으로 알려진 25개의 덜랩 브로드 사이드는 이 문서에 남아있는 가장 오래된 사번이다. 손으로 쓴 원보는 더 이상 남아있지 않다.The 25th Dunlap Broadside, which is known to still exist, is the oldest document in this document. The original document written by hand no longer exists.
33상트페테르부르크 크루즈는 시내에서의 시간이 포함됩니다. 크루즈 승객은 비자 요건에서 제외됩니다약관을 확인하세요상트 페테르브르크 크루즈는 시내에서의 시간이 포함됩니다. 크루즈 승객은 비자 요건에서 제외됩니다. 약관을 확인하세요.St.Petersburg Cruise includes time in the city. Cruise passengers are excluded from visa conditions. Please check your passport.
34블로그는 학생들의 글쓰기를 개선하는 데에도 도움이 됩니다 학생들이 종종 부족한 문법과 철자법으로 블로그를 시작하지만 독자들의 존재가 일반적으로 그러한 점들을 변화시킵니다블로그는 학생들의 글쓰기를 개선하는 데에도 도움이 됩니다. 학생들이 종종 부족한 문법과 철자법으로 블로그를 시작하지만 독자들의 존재가 일반적으로 그러한 점들을 변화시킵니다.Blogs help students to improve their writing skills. Students often start blogs with poor grammar and spelling, as readers tend to change in a mysterious way.
35델 포트로가 2세트에서 먼저 어드밴티지를 얻었지만 6 대 6이 된 후 다시 타이 브레이크가 필요했다델포트로가 2세트에서 먼저 어드밴티지를 얻었지만 6대6이 된 후 다시 타이브레이크가 필요했다.Del Potro got an advantage in the second set first, but needed a tiebreak again after 6 to 6.
36이것은 몇몇 동사와 사물을 구별하는 중요한 방법이다이것은 몇몇 동사와 사물을 구별하는 중요한 방법이다.This is an important method of distinguishing some verbs and things.
37교회의 핵심 권력은 천 년 넘게 로마에 머물렀다 이런 힘과 돈의 편중은 이 교리가 합당한지에 대한 의문을 낳았다교회의 핵심 권력은 1000년 넘게 로마에 머물렀다. 이러한 힘과 돈의 편중은 이 교리가 합당한지에 대한 의문을 낳았다.The main power of the church has remained in Rome for over 1,000 years. The power of the church has remained in Rome for over 1,000 years.
38보고서는 행정부의 현재 이라크 정책에 대해 거의 모든 측면에서 매우 비판적이며 즉각적인 방향 변경을 촉구합니다보고서는 행정부의 현재 이라크 정책에 대해 거의 모든 측면에서 매우 비판적이며 즉각적인 방향변경을 촉구합니다.The report is very critical of the current Iraqi policy of the administration, and calls for an immediate change of direction.
\n", "
\n", " \n", " \n", " \n", "\n", " \n", "
\n", " \n", " " ] }, "metadata": {}, "execution_count": 10 } ], "source": [ "data = pd.DataFrame(dict(reference=references, transcription=transcriptions, translation=translations))\n", "data" ] } ], "metadata": { "accelerator": "GPU", "colab": { "collapsed_sections": [], "provenance": [] }, "gpuClass": "standard", "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.9" }, "widgets": { "application/vnd.jupyter.widget-state+json": { "d36195a3d8184ec98132aa9e857bcc64": { "model_module": "@jupyter-widgets/controls", "model_name": "DropdownModel", "model_module_version": "1.5.0", "state": { "_dom_classes": [], "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "DropdownModel", "_options_labels": [ "Select language", "----------", "Afrikaans (af_za)", "Amharic (am_et)", "Arabic (ar_eg)", "Armenian (hy_am)", "Assamese (as_in)", "Azerbaijani (az_az)", "Belarusian (be_by)", "Bengali (bn_in)", "Bosnian (bs_ba)", "Bulgarian (bg_bg)", "Catalan (ca_es)", "Chinese (cmn_hans_cn)", "Croatian (hr_hr)", "Czech (cs_cz)", "Danish (da_dk)", "Dutch (nl_nl)", "English (en_us)", "Estonian (et_ee)", "Finnish (fi_fi)", "French (fr_fr)", "Galician (gl_es)", "Georgian (ka_ge)", "German (de_de)", "Greek (el_gr)", "Gujarati (gu_in)", "Hausa (ha_ng)", "Hebrew (he_il)", "Hindi (hi_in)", "Hungarian (hu_hu)", "Icelandic (is_is)", "Indonesian (id_id)", "Italian (it_it)", "Japanese (ja_jp)", "Javanese (jv_id)", "Kannada (kn_in)", "Kazakh (kk_kz)", "Khmer (km_kh)", "Korean (ko_kr)", "Lao (lo_la)", "Latvian (lv_lv)", "Lingala (ln_cd)", "Lithuanian (lt_lt)", "Luxembourgish (lb_lu)", "Macedonian (mk_mk)", "Malay (ms_my)", "Malayalam (ml_in)", "Maltese (mt_mt)", "Maori (mi_nz)", "Marathi (mr_in)", "Mongolian (mn_mn)", "Myanmar (my_mm)", "Nepali (ne_np)", "Norwegian (nb_no)", "Occitan (oc_fr)", "Pashto (ps_af)", "Persian (fa_ir)", "Polish (pl_pl)", "Portuguese (pt_br)", "Punjabi (pa_in)", "Romanian (ro_ro)", "Russian (ru_ru)", "Serbian (sr_rs)", "Shona (sn_zw)", "Sindhi (sd_in)", "Slovak (sk_sk)", "Slovenian (sl_si)", "Somali (so_so)", "Spanish (es_419)", "Swahili (sw_ke)", "Swedish (sv_se)", "Tagalog (fil_ph)", "Tajik (tg_tj)", "Tamil (ta_in)", "Telugu (te_in)", "Thai (th_th)", "Turkish (tr_tr)", "Ukrainian (uk_ua)", "Urdu (ur_pk)", "Uzbek (uz_uz)", "Vietnamese (vi_vn)", "Welsh (cy_gb)", "Yoruba (yo_ng)" ], "_view_count": null, "_view_module": "@jupyter-widgets/controls", "_view_module_version": "1.5.0", "_view_name": "DropdownView", "description": "Language:", "description_tooltip": null, "disabled": false, "index": 39, "layout": "IPY_MODEL_10736c04e5b94344a9e948a89b859d8a", "style": "IPY_MODEL_d458d02a2dfe45ae918cbb1d53f4abfe" } }, "10736c04e5b94344a9e948a89b859d8a": { "model_module": "@jupyter-widgets/base", "model_name": "LayoutModel", "model_module_version": "1.2.0", "state": { "_model_module": "@jupyter-widgets/base", "_model_module_version": "1.2.0", "_model_name": "LayoutModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "LayoutView", "align_content": null, "align_items": null, "align_self": null, "border": null, "bottom": null, "display": null, "flex": null, "flex_flow": null, "grid_area": null, "grid_auto_columns": null, "grid_auto_flow": null, "grid_auto_rows": null, "grid_column": null, "grid_gap": null, "grid_row": null, "grid_template_areas": null, "grid_template_columns": null, "grid_template_rows": null, "height": null, "justify_content": null, "justify_items": null, "left": null, "margin": null, "max_height": null, "max_width": null, "min_height": null, "min_width": null, "object_fit": null, "object_position": null, "order": null, "overflow": null, "overflow_x": null, "overflow_y": null, "padding": null, "right": null, "top": null, "visibility": null, "width": null } }, "d458d02a2dfe45ae918cbb1d53f4abfe": { "model_module": "@jupyter-widgets/controls", "model_name": "DescriptionStyleModel", "model_module_version": "1.5.0", "state": { "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "DescriptionStyleModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "StyleView", "description_width": "" } }, "97bfe56acfa04fd4899ece60a26bee17": { "model_module": "@jupyter-widgets/controls", "model_name": "HBoxModel", "model_module_version": "1.5.0", "state": { "_dom_classes": [], "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "HBoxModel", "_view_count": null, "_view_module": "@jupyter-widgets/controls", "_view_module_version": "1.5.0", "_view_name": "HBoxView", "box_style": "", "children": [ "IPY_MODEL_4ca421b430b54f5ba66bf981e4d4e003", "IPY_MODEL_ad6e4f8221c843f9b406d5bf18206aab", "IPY_MODEL_e7ca545307994521996af790a22497bf" ], "layout": "IPY_MODEL_822ae53e841b42008c5aefb9cc7da64a" } }, "4ca421b430b54f5ba66bf981e4d4e003": { "model_module": "@jupyter-widgets/controls", "model_name": "HTMLModel", "model_module_version": "1.5.0", "state": { "_dom_classes": [], "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "HTMLModel", "_view_count": null, "_view_module": "@jupyter-widgets/controls", "_view_module_version": "1.5.0", "_view_name": "HTMLView", "description": "", "description_tooltip": null, "layout": "IPY_MODEL_37a30b9b7bd34421bd3d0679b81d8bad", "placeholder": "​", "style": "IPY_MODEL_61dee3eff0b14127b06de151cabb5bf8", "value": "100%" } }, "ad6e4f8221c843f9b406d5bf18206aab": { "model_module": "@jupyter-widgets/controls", "model_name": "FloatProgressModel", "model_module_version": "1.5.0", "state": { "_dom_classes": [], "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "FloatProgressModel", "_view_count": null, "_view_module": "@jupyter-widgets/controls", "_view_module_version": "1.5.0", "_view_name": "ProgressView", "bar_style": "success", "description": "", "description_tooltip": null, "layout": "IPY_MODEL_0ed86ac53e8146eca0ab4aa7e9e8da19", "max": 39, "min": 0, "orientation": "horizontal", "style": "IPY_MODEL_8b1c829b6c2b47a280069b758a6dec2b", "value": 39 } }, "e7ca545307994521996af790a22497bf": { "model_module": "@jupyter-widgets/controls", "model_name": "HTMLModel", "model_module_version": "1.5.0", "state": { "_dom_classes": [], "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "HTMLModel", "_view_count": null, "_view_module": "@jupyter-widgets/controls", "_view_module_version": "1.5.0", "_view_name": "HTMLView", "description": "", "description_tooltip": null, "layout": "IPY_MODEL_3f2f720394cd406eac1487e37994a9b8", "placeholder": "​", "style": "IPY_MODEL_ddefd1c4b2174b538a1df784050899d7", "value": " 39/39 [05:47<00:00, 9.52s/it]" } }, "822ae53e841b42008c5aefb9cc7da64a": { "model_module": "@jupyter-widgets/base", "model_name": "LayoutModel", "model_module_version": "1.2.0", "state": { "_model_module": "@jupyter-widgets/base", "_model_module_version": "1.2.0", "_model_name": "LayoutModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "LayoutView", "align_content": null, "align_items": null, "align_self": null, "border": null, "bottom": null, "display": null, "flex": null, "flex_flow": null, "grid_area": null, "grid_auto_columns": null, "grid_auto_flow": null, "grid_auto_rows": null, "grid_column": null, "grid_gap": null, "grid_row": null, "grid_template_areas": null, "grid_template_columns": null, "grid_template_rows": null, "height": null, "justify_content": null, "justify_items": null, "left": null, "margin": null, "max_height": null, "max_width": null, "min_height": null, "min_width": null, "object_fit": null, "object_position": null, "order": null, "overflow": null, "overflow_x": null, "overflow_y": null, "padding": null, "right": null, "top": null, "visibility": null, "width": null } }, "37a30b9b7bd34421bd3d0679b81d8bad": { "model_module": "@jupyter-widgets/base", "model_name": "LayoutModel", "model_module_version": "1.2.0", "state": { "_model_module": "@jupyter-widgets/base", "_model_module_version": "1.2.0", "_model_name": "LayoutModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "LayoutView", "align_content": null, "align_items": null, "align_self": null, "border": null, "bottom": null, "display": null, "flex": null, "flex_flow": null, "grid_area": null, "grid_auto_columns": null, "grid_auto_flow": null, "grid_auto_rows": null, "grid_column": null, "grid_gap": null, "grid_row": null, "grid_template_areas": null, "grid_template_columns": null, "grid_template_rows": null, "height": null, "justify_content": null, "justify_items": null, "left": null, "margin": null, "max_height": null, "max_width": null, "min_height": null, "min_width": null, "object_fit": null, "object_position": null, "order": null, "overflow": null, "overflow_x": null, "overflow_y": null, "padding": null, "right": null, "top": null, "visibility": null, "width": null } }, "61dee3eff0b14127b06de151cabb5bf8": { "model_module": "@jupyter-widgets/controls", "model_name": "DescriptionStyleModel", "model_module_version": "1.5.0", "state": { "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "DescriptionStyleModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "StyleView", "description_width": "" } }, "0ed86ac53e8146eca0ab4aa7e9e8da19": { "model_module": "@jupyter-widgets/base", "model_name": "LayoutModel", "model_module_version": "1.2.0", "state": { "_model_module": "@jupyter-widgets/base", "_model_module_version": "1.2.0", "_model_name": "LayoutModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "LayoutView", "align_content": null, "align_items": null, "align_self": null, "border": null, "bottom": null, "display": null, "flex": null, "flex_flow": null, "grid_area": null, "grid_auto_columns": null, "grid_auto_flow": null, "grid_auto_rows": null, "grid_column": null, "grid_gap": null, "grid_row": null, "grid_template_areas": null, "grid_template_columns": null, "grid_template_rows": null, "height": null, "justify_content": null, "justify_items": null, "left": null, "margin": null, "max_height": null, "max_width": null, "min_height": null, "min_width": null, "object_fit": null, "object_position": null, "order": null, "overflow": null, "overflow_x": null, "overflow_y": null, "padding": null, "right": null, "top": null, "visibility": null, "width": null } }, "8b1c829b6c2b47a280069b758a6dec2b": { "model_module": "@jupyter-widgets/controls", "model_name": "ProgressStyleModel", "model_module_version": "1.5.0", "state": { "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "ProgressStyleModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "StyleView", "bar_color": null, "description_width": "" } }, "3f2f720394cd406eac1487e37994a9b8": { "model_module": "@jupyter-widgets/base", "model_name": "LayoutModel", "model_module_version": "1.2.0", "state": { "_model_module": "@jupyter-widgets/base", "_model_module_version": "1.2.0", "_model_name": "LayoutModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "LayoutView", "align_content": null, "align_items": null, "align_self": null, "border": null, "bottom": null, "display": null, "flex": null, "flex_flow": null, "grid_area": null, "grid_auto_columns": null, "grid_auto_flow": null, "grid_auto_rows": null, "grid_column": null, "grid_gap": null, "grid_row": null, "grid_template_areas": null, "grid_template_columns": null, "grid_template_rows": null, "height": null, "justify_content": null, "justify_items": null, "left": null, "margin": null, "max_height": null, "max_width": null, "min_height": null, "min_width": null, "object_fit": null, "object_position": null, "order": null, "overflow": null, "overflow_x": null, "overflow_y": null, "padding": null, "right": null, "top": null, "visibility": null, "width": null } }, "ddefd1c4b2174b538a1df784050899d7": { "model_module": "@jupyter-widgets/controls", "model_name": "DescriptionStyleModel", "model_module_version": "1.5.0", "state": { "_model_module": "@jupyter-widgets/controls", "_model_module_version": "1.5.0", "_model_name": "DescriptionStyleModel", "_view_count": null, "_view_module": "@jupyter-widgets/base", "_view_module_version": "1.2.0", "_view_name": "StyleView", "description_width": "" } } } } }, "nbformat": 4, "nbformat_minor": 0 }