{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "v5hvo8QWN-a9" }, "source": [ "# Installing Whisper\n", "\n", "The commands below will install the Python packages needed to use Whisper models and evaluate the transcription results." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "id": "ZsJUxc0aRsAf" }, "outputs": [], "source": [ "! pip install git+https://github.com/openai/whisper.git" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "id": "3CqtR2Fi5-vP" }, "outputs": [], "source": [ "import io\n", "import os\n", "import numpy as np\n", "\n", "try:\n", " import tensorflow # required in Colab to avoid protobuf compatibility issues\n", "except ImportError:\n", " pass\n", "\n", "import torch\n", "import pandas as pd\n", "import urllib\n", "import tarfile\n", "import whisper\n", "import torchaudio\n", "\n", "from scipy.io import wavfile\n", "from tqdm.notebook import tqdm\n", "\n", "\n", "pd.options.display.max_rows = 100\n", "pd.options.display.max_colwidth = 1000\n", "DEVICE = \"cuda\" if torch.cuda.is_available() else \"cpu\"" ] }, { "cell_type": "markdown", "metadata": { "id": "1IMEkgyagYto" }, "source": [ "# Loading the Fleurs dataset\n", "\n", "Select the language of the Fleur dataset to download. Please note that the transcription and translation performance varies widely depending on the language. Appendix D.2 in the paper contains the performance breakdown by language." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 49, "referenced_widgets": [ "d36195a3d8184ec98132aa9e857bcc64", "10736c04e5b94344a9e948a89b859d8a", "d458d02a2dfe45ae918cbb1d53f4abfe" ] }, "id": "L4lPK5106Of2", "outputId": "313c1993-fb43-4315-800a-fc7cf34d7be5" }, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "Dropdown(description='Language:', index=39, options=(('Select language', None), ('----------', None), ('Afrika…" ], "application/vnd.jupyter.widget-view+json": { "version_major": 2, "version_minor": 0, "model_id": "d36195a3d8184ec98132aa9e857bcc64" } }, "metadata": {} } ], "source": [ "import ipywidgets as widgets\n", "\n", "languages = {\"af_za\": \"Afrikaans\", \"am_et\": \"Amharic\", \"ar_eg\": \"Arabic\", \"as_in\": \"Assamese\", \"az_az\": \"Azerbaijani\", \"be_by\": \"Belarusian\", \"bg_bg\": \"Bulgarian\", \"bn_in\": \"Bengali\", \"bs_ba\": \"Bosnian\", \"ca_es\": \"Catalan\", \"cmn_hans_cn\": \"Chinese\", \"cs_cz\": \"Czech\", \"cy_gb\": \"Welsh\", \"da_dk\": \"Danish\", \"de_de\": \"German\", \"el_gr\": \"Greek\", \"en_us\": \"English\", \"es_419\": \"Spanish\", \"et_ee\": \"Estonian\", \"fa_ir\": \"Persian\", \"fi_fi\": \"Finnish\", \"fil_ph\": \"Tagalog\", \"fr_fr\": \"French\", \"gl_es\": \"Galician\", \"gu_in\": \"Gujarati\", \"ha_ng\": \"Hausa\", \"he_il\": \"Hebrew\", \"hi_in\": \"Hindi\", \"hr_hr\": \"Croatian\", \"hu_hu\": \"Hungarian\", \"hy_am\": \"Armenian\", \"id_id\": \"Indonesian\", \"is_is\": \"Icelandic\", \"it_it\": \"Italian\", \"ja_jp\": \"Japanese\", \"jv_id\": \"Javanese\", \"ka_ge\": \"Georgian\", \"kk_kz\": \"Kazakh\", \"km_kh\": \"Khmer\", \"kn_in\": \"Kannada\", \"ko_kr\": \"Korean\", \"lb_lu\": \"Luxembourgish\", \"ln_cd\": \"Lingala\", \"lo_la\": \"Lao\", \"lt_lt\": \"Lithuanian\", \"lv_lv\": \"Latvian\", \"mi_nz\": \"Maori\", \"mk_mk\": \"Macedonian\", \"ml_in\": \"Malayalam\", \"mn_mn\": \"Mongolian\", \"mr_in\": \"Marathi\", \"ms_my\": \"Malay\", \"mt_mt\": \"Maltese\", \"my_mm\": \"Myanmar\", \"nb_no\": \"Norwegian\", \"ne_np\": \"Nepali\", \"nl_nl\": \"Dutch\", \"oc_fr\": \"Occitan\", \"pa_in\": \"Punjabi\", \"pl_pl\": \"Polish\", \"ps_af\": \"Pashto\", \"pt_br\": \"Portuguese\", \"ro_ro\": \"Romanian\", \"ru_ru\": \"Russian\", \"sd_in\": \"Sindhi\", \"sk_sk\": \"Slovak\", \"sl_si\": \"Slovenian\", \"sn_zw\": \"Shona\", \"so_so\": \"Somali\", \"sr_rs\": \"Serbian\", \"sv_se\": \"Swedish\", \"sw_ke\": \"Swahili\", \"ta_in\": \"Tamil\", \"te_in\": \"Telugu\", \"tg_tj\": \"Tajik\", \"th_th\": \"Thai\", \"tr_tr\": \"Turkish\", \"uk_ua\": \"Ukrainian\", \"ur_pk\": \"Urdu\", \"uz_uz\": \"Uzbek\", \"vi_vn\": \"Vietnamese\", \"yo_ng\": \"Yoruba\"}\n", "selection = widgets.Dropdown(\n", " options=[(\"Select language\", None), (\"----------\", None)] + sorted([(f\"{v} ({k})\", k) for k, v in languages.items()]),\n", " value=\"ko_kr\",\n", " description='Language:',\n", " disabled=False,\n", ")\n", "\n", "selection" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "4eihI6oK6Of2", "outputId": "42874540-06ec-442a-aa14-71f52f964de0" }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Selected language: Korean (ko_kr)\n" ] } ], "source": [ "lang = selection.value\n", "language = languages[lang]\n", "\n", "assert lang is not None, \"Please select a language\"\n", "print(f\"Selected language: {language} ({lang})\")" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "id": "GuCCB2KYOJCE" }, "outputs": [], "source": [ "class Fleurs(torch.utils.data.Dataset):\n", " \"\"\"\n", " A simple class to wrap Fleurs and subsample a portion of the dataset as needed.\n", " \"\"\"\n", " def __init__(self, lang, split=\"test\", subsample_rate=1, device=DEVICE):\n", " url = f\"https://storage.googleapis.com/xtreme_translations/FLEURS102/{lang}.tar.gz\"\n", " tar_path = os.path.expanduser(f\"~/.cache/fleurs/{lang}.tgz\")\n", " os.makedirs(os.path.dirname(tar_path), exist_ok=True)\n", "\n", " if not os.path.exists(tar_path):\n", " with urllib.request.urlopen(url) as source, open(tar_path, \"wb\") as output:\n", " with tqdm(total=int(source.info().get(\"Content-Length\")), ncols=80, unit='iB', unit_scale=True, unit_divisor=1024) as loop:\n", " while True:\n", " buffer = source.read(8192)\n", " if not buffer:\n", " break\n", "\n", " output.write(buffer)\n", " loop.update(len(buffer))\n", "\n", " labels = {}\n", " all_audio = {}\n", " with tarfile.open(tar_path, \"r:gz\") as tar:\n", " for member in tar.getmembers():\n", " name = member.name\n", " if name.endswith(f\"{split}.tsv\"):\n", " labels = pd.read_table(tar.extractfile(member), names=(\"id\", \"file_name\", \"raw_transcription\", \"transcription\", \"_\", \"num_samples\", \"gender\"))\n", "\n", " if f\"/{split}/\" in name and name.endswith(\".wav\"):\n", " audio_bytes = tar.extractfile(member).read()\n", " all_audio[os.path.basename(name)] = wavfile.read(io.BytesIO(audio_bytes))[1]\n", " \n", "\n", " self.labels = labels.to_dict(\"records\")[::subsample_rate]\n", " self.all_audio = all_audio\n", " self.device = device\n", "\n", " def __len__(self):\n", " return len(self.labels)\n", "\n", " def __getitem__(self, item):\n", " record = self.labels[item]\n", " audio = torch.from_numpy(self.all_audio[record[\"file_name\"]].copy())\n", " text = record[\"transcription\"]\n", " \n", " return (audio, text)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "id": "-YcRU5jqNqo2" }, "outputs": [], "source": [ "dataset = Fleurs(lang, subsample_rate=10) # subsample 10% of the dataset for a quick demo" ] }, { "cell_type": "markdown", "metadata": { "id": "0ljocCNuUAde" }, "source": [ "# Running inference on the dataset using a medium Whisper model\n", "\n", "The following will take a few minutes to transcribe and translate utterances in the dataset." ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "colab": { "base_uri": "https://localhost:8080/" }, "id": "_PokfNJtOYNu", "outputId": "7d848480-a589-42c5-d456-611522091f51" }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Model is multilingual and has 762,321,920 parameters.\n" ] } ], "source": [ "model = whisper.load_model(\"medium\")\n", "print(\n", " f\"Model is {'multilingual' if model.is_multilingual else 'English-only'} \"\n", " f\"and has {sum(np.prod(p.shape) for p in model.parameters()):,} parameters.\"\n", ")" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "id": "F74Yfr696Of5" }, "outputs": [], "source": [ "options = dict(language=language, beam_size=5, best_of=5)\n", "transcribe_options = dict(task=\"transcribe\", **options)\n", "translate_options = dict(task=\"translate\", **options)" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 49, "referenced_widgets": [ "97bfe56acfa04fd4899ece60a26bee17", "4ca421b430b54f5ba66bf981e4d4e003", "ad6e4f8221c843f9b406d5bf18206aab", "e7ca545307994521996af790a22497bf", "822ae53e841b42008c5aefb9cc7da64a", "37a30b9b7bd34421bd3d0679b81d8bad", "61dee3eff0b14127b06de151cabb5bf8", "0ed86ac53e8146eca0ab4aa7e9e8da19", "8b1c829b6c2b47a280069b758a6dec2b", "3f2f720394cd406eac1487e37994a9b8", "ddefd1c4b2174b538a1df784050899d7" ] }, "id": "7OWTn_KvNk59", "outputId": "31cfe3bd-73dd-489b-b972-1920d727afce", "scrolled": false }, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ " 0%| | 0/39 [00:00, ?it/s]" ], "application/vnd.jupyter.widget-view+json": { "version_major": 2, "version_minor": 0, "model_id": "97bfe56acfa04fd4899ece60a26bee17" } }, "metadata": {} } ], "source": [ "references = []\n", "transcriptions = []\n", "translations = []\n", "\n", "for audio, text in tqdm(dataset):\n", " transcription = model.transcribe(audio, **transcribe_options)[\"text\"]\n", " translation = model.transcribe(audio, **translate_options)[\"text\"]\n", " \n", " transcriptions.append(transcription)\n", " translations.append(translation)\n", " references.append(text)" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 1000 }, "id": "4nTyynELQ42j", "outputId": "869c720e-672d-40a4-af30-6ce548c6ccea", "scrolled": false }, "outputs": [ { "output_type": "execute_result", "data": { "text/plain": [ " reference \\\n", "0 재입국 충격은 신혼 단계가 없기 때문에 문화 충격보다 빠르게 발생하며 더 오래 지속하고 더 극심할 수 있습니다 \n", "1 불행히도 운전자의 행동이 100% 확실하다고 예측할 수 없기 때문에 교통 흐름을 연구하기란 어렵다 \n", "2 합금은 기본적으로 금속 두 개 이상의 혼합물이다 주기율표 상에 원소가 많이 있다는 것을 잊지 마라 \n", "3 홍콩 섬은 홍콩 영토에 홍콩이라는 이름을 부여한 곳이자 많은 관광객들이 주안점으로 여기는 곳이다 \n", "4 남자들을 단호히 거절하고 자신의 입장을 고수하는 것을 두려워하지 말라문화적 차이든 아니든 희롱은 간과될 수 없다! \n", "5 좀 더 작은 섬의 대부분은 독립 국가이거나 프랑스와 관련이 있고 호화로운 비치 리조트로 알려져 있다 \n", "6 사실 이게 존재한다는 사실을 아는 사람이 있다고 해도 찾는 것조차 쉽지 않습니다 일단 동굴 안에 들어가면 완전한 고립입니다 \n", "7 원단이 너무 뜨거워지지 않도록 주의하세요원단이 수축하거나 그을릴 수 있습니다 \n", "8 도널드 트럼프 미국 대통령은 늦은 일요일 시간대에 대변인을 통해 발표한 성명에서 미군이 시리아에서 철수할 것이라고 발표했다 \n", "9 미국 체조 협회는 미국 올림픽 위원회의 서한을 지지하며 미국의 전 운동선수가 안전한 환경을 가질 수 있도록 돕는 올림픽 관계자의 절대적 필요성을 인정합니다 \n", "10 \"이건 작별 인사가 아닙니다. 이것은 한 장의 끝이며 새로운 장의 시작입니다.\"\\t \" \" 이 건 | 작 별 | 인 사 가 | 아 닙 니 다 . | 이 것 은 | 한 | 장 의 | 끝 이 며 | 새 로 운 | 장 의 | 시 작 입 니 다 . \" \" | \n", "11 남아프리카 공화국의 특정 공원 또는 남아프리카 공화국 국립공원 전체에 입장할 수 있는 와일드 카드를 구매하는 것이 이득일 수 있습니다 \n", "12 높은 고도나 산길을 넘어 운전하려고 하면 눈 빙판 또는 영하의 기온 등이 생길 가능성에 대해 고려해야 한다 \n", "13 이 이야기에 관계된 두 명의 성인 자녀를 둔 기혼자인 듀발은 밀러에게 깊은 인상을 남기지 않았습니다 \n", "14 찬드라 셰카르 솔랑키 경찰서장은 피고인이 얼굴을 가린 채 법정에 나왔다고 말했다 \n", "15 지하철의 정규 안내 방송은 카탈로니아어로만 제공되나 계획에 없던 운행 중단 시에는 자동 시스템을 통해 스페인어 영어 프랑스어 아라비아어 일본어를 포함한 다양한 언어로 방송됩니다 \n", "16 그는 그 소문을 정치적 수다와 어리석음\"\"이라고 언급했습니다. \n", "17 지구가 마치 움직이지 않는 것처럼 느껴지기에 언뜻 보면 맞는 말 같기도 하죠 \n", "18 어린이와 노약자를 포함한 6명의 인질들은 필리핀 사진작가들과 마찬가지로 일찍 풀려났다 \n", "19 같은 줄을 따라 남자는 무릎을 덮는 바지를 입을 것을 요구받는다 \n", "20 그것은 기차와 자동차 및 여러 교통수단을 가져다주었습니다 \n", "21 모로코 술탄은 다루 이 바드야daru l-badya라는 도시로 재건축하고 여기에 무역 거점을 세운 스페인 상인들은 이곳을 카사블랑카라고 불렀다 \n", "22 비록 대부분 이론에 의존하긴 해도 프로그램은 궁수자리 은하 관측을 시뮬레이션하도록 짜여 있습니다 \n", "23 아동이 위탁 보호를 받게 되는 이유는 방치에서 학대 심지어 강탈에 이르기까지 광범위하게 다양합니다 \n", "24 뇌 병리와 행동 사이의 상관관계가 과학자들의 연구를 돕습니다 \n", "25 사람들은 귀국길에 오르는 여행객들에게도 인내심과 이해심이 필요하다고 생각하지 않을 수 있다 \n", "26 교전이 발발한 직후 영국은 독일에 대한 해상 봉쇄를 시작한다 \n", "27 이렇게 되면 플레이어들이 장치를 허공에서 움직여 동작과 움직임을 제어할 수 있게 된다 \n", "28 스펙트럼의 또 다른 끝에서는 팀이 해오던 모든 것을 바꾸고 자신만의 방식으로 만들어야 한다고 생각하는 인지하지 못한 개인으로 바뀝니다 \n", "29 피라미드 사운드와 광선 쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다 \n", "30 장면들이 피라미드들 위에 비쳤고 다른 피라미드들에는 불이 밝혀졌다 \n", "31 이곳은 남아프리카의 명소 중 하나로 남아프리카 국립 공원sanparks의 플래그십입니다 \n", "32 아직도 존재하는 것으로 알려진 25개의 던랩 브로드 사이드는 이 문서의 남아있는 가장 오래된 사본이다 손으로 쓴 원본은 더 이상 남아 있지 않다 \n", "33 상트페테르부르크 크루즈는 시내에서의 시간이 포함됩니다. 크루즈 승객은 비자 요건에서 제외됩니다약관을 확인하세요 \n", "34 블로그는 학생들의 글쓰기를 개선하는 데에도 도움이 됩니다 학생들이 종종 부족한 문법과 철자법으로 블로그를 시작하지만 독자들의 존재가 일반적으로 그러한 점들을 변화시킵니다 \n", "35 델 포트로가 2세트에서 먼저 어드밴티지를 얻었지만 6 대 6이 된 후 다시 타이 브레이크가 필요했다 \n", "36 이것은 몇몇 동사와 사물을 구별하는 중요한 방법이다 \n", "37 교회의 핵심 권력은 천 년 넘게 로마에 머물렀다 이런 힘과 돈의 편중은 이 교리가 합당한지에 대한 의문을 낳았다 \n", "38 보고서는 행정부의 현재 이라크 정책에 대해 거의 모든 측면에서 매우 비판적이며 즉각적인 방향 변경을 촉구합니다 \n", "\n", " transcription \\\n", "0 재입국 충격은 신혼 단계가 없기 때문에 문화 충격보다 빠르게 발생하며 더 오래 지속하고 더 극심할 수 있습니다. \n", "1 불행히도 운전자의 행동이 100% 확실하다고 예측할 수 없기 때문에 교통 흐름을 연구하기란 어렵다. \n", "2 합금은 기본적으로 금속 2개 이상의 혼합물이다. 주기율표상의 원소가 많이 있다는 것을 잊지 마라. \n", "3 홍콩섬은 홍콩 영토에 홍콩이라는 이름을 부여한 곳이자 많은 관광객들이 주한점으로 여기는 곳이다. \n", "4 남자들을 단호히 거절하고 자신의 입장을 고수하는 것을 두려워하지 말라. 문화적 차이든 아니든 희롱은 간과 될 수 없다. \n", "5 좀 더 작은 섬의 대부분은 독립국가이거나 프랑스와 관련이 있고, 호화로운 비치 리조트로 알려져 있다. \n", "6 사실 이게 존재한다는 사실을 아는 사람이 있다고 해도 찾는 것조차 쉽지 않습니다. 일단 동그란에 들어가면 완전한 고립입니다. \n", "7 원단이 너무 뜨거워지지 않도록 주의하세요. 원단이 수축하거나 그을릴 수 있습니다. \n", "8 도널드 트럼프 미국 대통령은 늦은 일요일 시간대에 대변인을 통해 발표한 성명에서 미군이 시리아에서 철수할 것이라고 발표했다. \n", "9 미국 체조협회는 미국 올림픽위원회의 서한을 지지하며 미국의 전 운동선수가 안전한 환경을 가질 수 있도록 돕는 올림픽 관계자의 절대적 필요성을 인정합니다. \n", "10 이건 작별인사가 아닙니다. 이것은 한작의 끝이며 새로운 작의 시작입니다. \n", "11 남아프리카 공화국의 특정 공원 또는 남아프리카 공화국 국립공원 전체에 입장할 수 있는 와일드카드를 구매하는 것이 이득일 수 있습니다. \n", "12 높은 고도나 산길을 넘어 운전하려고 하면 눈, 빙판 또는 영하의 기온 등이 생길 가능성에 대해 고려해야 한다. \n", "13 이 이야기에 관계된 두 명의 성인 자녀를 둔 기혼자인 듀발은 밀러에게 깊은 임상을 남기지 않았습니다. \n", "14 찬드라 시에카르 솔랑키 경찰서장은 피고인이 얼굴을 가린 채 법적에 나왔다고 말했다. \n", "15 지하철의 정규 안내 방송은 카탈로니아어로만 제공되나 계획에 없던 운행 중단 시에는 자동 시스템을 통해 스페인어, 영어, 프랑스어, 아라비아어, 일본어를 포함한 다양한 언어로 방송됩니다. \n", "16 그는 그 소문을 정치적 수다와 어리석음이라고 언급했습니다. \n", "17 지구가 마치 움직이지 않은 것처럼 느껴지기에 언특보면 맞는 말 같기도 하죠? \n", "18 어린이와 노약자를 포함한 6명의 인질들은 필리핀 사진작가들과 마찬가지로 일찍 풀려났다. \n", "19 같은 줄을 따라 남자는 무릎을 덮는 바지를 입을 것을 요구받는다. \n", "20 그것은 기차와 자동차 및 여러 교통수단을 가져다 주었습니다. \n", "21 모로코 슬타는 다루이 바드야라는 도시로 재건축하고 여기에 무역 거점을 세운 스페인 상인들은 이곳을 카사블랑카라고 불렀다. \n", "22 비록 대부분 이론에 의존하긴 해도, 프로그램은 궁수자리 은하관측을 시뮬레이션하도록 짜여 있습니다. \n", "23 아동이 위탁보호를 받게 되는 이유는 방치에서 학대, 심지어 강탈에 이르기까지 광범위하게 다양합니다. \n", "24 뇌병리와 행동사이의 상관관계가 과학자들의 연구를 돕습니다. \n", "25 사람들은 귀국길에 오르는 여행객들에게도 인내심과 이해심이 필요하다고 생각하지 않을 수 있다. \n", "26 교전이 발발한 직후 영국은 독일에 대한 해상붕쇄를 시작한다. \n", "27 이렇게 되면 플레이어들이 장치를 허공해서 움직여 동작과 움직임을 제어할 수 있게 된다. \n", "28 스펙트럼의 또 다른 끝에서는 팀이 해오던 모든 것을 바꾸고 자신만의 방식으로 만들어야 한다고 생각하는 인지하지 못한 개인으로 바뀝니다. \n", "29 피라미드 사운드와 광선쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다. \n", "30 장면들이 피라미드들 위에 비쳤고, 다른 피라미드들에는 불이 밝혀졌다. \n", "31 이곳은 남아프리카의 명소 중 하나로 남아프리카 국립공원의 플래그십입니다. \n", "32 아직도 존재하는 것으로 알려진 25개의 덜랩 브로드 사이드는 이 문서에 남아있는 가장 오래된 사번이다. 손으로 쓴 원보는 더 이상 남아있지 않다. \n", "33 상트 페테르브르크 크루즈는 시내에서의 시간이 포함됩니다. 크루즈 승객은 비자 요건에서 제외됩니다. 약관을 확인하세요. \n", "34 블로그는 학생들의 글쓰기를 개선하는 데에도 도움이 됩니다. 학생들이 종종 부족한 문법과 철자법으로 블로그를 시작하지만 독자들의 존재가 일반적으로 그러한 점들을 변화시킵니다. \n", "35 델포트로가 2세트에서 먼저 어드밴티지를 얻었지만 6대6이 된 후 다시 타이브레이크가 필요했다. \n", "36 이것은 몇몇 동사와 사물을 구별하는 중요한 방법이다. \n", "37 교회의 핵심 권력은 1000년 넘게 로마에 머물렀다. 이러한 힘과 돈의 편중은 이 교리가 합당한지에 대한 의문을 낳았다. \n", "38 보고서는 행정부의 현재 이라크 정책에 대해 거의 모든 측면에서 매우 비판적이며 즉각적인 방향변경을 촉구합니다. \n", "\n", " translation \n", "0 The reentry shock does not have a honeymoon stage, so it occurs faster than the cultural shock and can last longer and be more severe. \n", "1 Unfortunately, it is difficult to study the flow of traffic because the driver's behavior is not 100% certain. \n", "2 Don't forget that there are more than two metals in the alloy. Don't forget that there are more than two metals in the alloy. \n", "3 Hong Kong Island is a place named Hong Kong on Hong Kong territory, and it is the main destination of many tourists. \n", "4 Do not be afraid to reject men and defend your position. Whether it is a cultural difference or not, it cannot be ignored. \n", "5 Most of the smaller islands are independent or related to France, and are known as luxurious beach resorts. \n", "6 In fact, even if there are people who know that this exists, it is not easy to find it. Once you enter the cave, it is a complete isolation. \n", "7 Be careful not to heat the fabric too much. The fabric may shrink or get dirty. \n", "8 U.S. President Donald Trump announced on Sunday that the U.S. military would withdraw from Syria in his speech. \n", "9 The U.S. Sports Association supports the call of the U.S. Olympic Committee to help all athletes in the U.S. have a safe environment. \n", "10 This is not a farewell. This is the end of one work and the beginning of a new work. \n", "11 It may be beneficial to purchase a wild card that allows you to enter a specific park or a national park of South Africa. \n", "12 If you want to drive over high altitude or mountain roads, you have to consider the possibility of snow, ice, or the temperature of a movie. \n", "13 Duval, who had two adult children related to this story, did not leave a deep impression on Miller. \n", "14 The police chief of Chandra Shekhar Solanki said that the defendant covered his face and came out legally. \n", "15 Subway's regular announcement broadcast is only available in Catalan, but it will be broadcast in Spanish, English, French, Arabic, and Japanese. \n", "16 He mentioned the rumor as political talk and foolishness. \n", "17 It feels as if the earth is not moving, and it seems to be right. \n", "18 Children and old people, including 6 people, were released early, just like the Philippine photographers. \n", "19 The man is asked to wear pants that cover his knees along the same line. \n", "20 It was given by trains, cars, and other means of transport. \n", "21 Morocco Sultan was rebuilt as a city called Darui Badia The Spanish merchants who built a trade point here called this place Casablanca. \n", "22 Although most of them rely on theory, the program is designed to simulate the Milky Way of the palace. \n", "23 The reason why children are protected is that they can be abused, abused, and even robbed. \n", "24 The relationship between brain \n", "25 People may not think that patience and understanding are necessary for travelers on their way back home. \n", "26 As there is a fierce conflict, \n", "27 In this way, players can control the movement by moving the device in the air. \n", "28 At the other end of the spectrum, you have to change everything your team has been doing and make it your own way. It turns into an unrecognizable individual. \n", "29 Pyramid Sound and Glow Show is one of the things that attracts children's interest the most in this area. \n", "30 The scenes were reflected on the pyramids, and the fire was lit on the other pyramids. \n", "31 This is one of the famous places in South Africa and is a flagship of South African National Park. \n", "32 The 25th Dunlap Broadside, which is known to still exist, is the oldest document in this document. The original document written by hand no longer exists. \n", "33 St.Petersburg Cruise includes time in the city. Cruise passengers are excluded from visa conditions. Please check your passport. \n", "34 Blogs help students to improve their writing skills. Students often start blogs with poor grammar and spelling, as readers tend to change in a mysterious way. \n", "35 Del Potro got an advantage in the second set first, but needed a tiebreak again after 6 to 6. \n", "36 This is an important method of distinguishing some verbs and things. \n", "37 The main power of the church has remained in Rome for over 1,000 years. The power of the church has remained in Rome for over 1,000 years. \n", "38 The report is very critical of the current Iraqi policy of the administration, and calls for an immediate change of direction. " ], "text/html": [ "\n", "
\n", " | reference | \n", "transcription | \n", "translation | \n", "
---|---|---|---|
0 | \n", "재입국 충격은 신혼 단계가 없기 때문에 문화 충격보다 빠르게 발생하며 더 오래 지속하고 더 극심할 수 있습니다 | \n", "재입국 충격은 신혼 단계가 없기 때문에 문화 충격보다 빠르게 발생하며 더 오래 지속하고 더 극심할 수 있습니다. | \n", "The reentry shock does not have a honeymoon stage, so it occurs faster than the cultural shock and can last longer and be more severe. | \n", "
1 | \n", "불행히도 운전자의 행동이 100% 확실하다고 예측할 수 없기 때문에 교통 흐름을 연구하기란 어렵다 | \n", "불행히도 운전자의 행동이 100% 확실하다고 예측할 수 없기 때문에 교통 흐름을 연구하기란 어렵다. | \n", "Unfortunately, it is difficult to study the flow of traffic because the driver's behavior is not 100% certain. | \n", "
2 | \n", "합금은 기본적으로 금속 두 개 이상의 혼합물이다 주기율표 상에 원소가 많이 있다는 것을 잊지 마라 | \n", "합금은 기본적으로 금속 2개 이상의 혼합물이다. 주기율표상의 원소가 많이 있다는 것을 잊지 마라. | \n", "Don't forget that there are more than two metals in the alloy. Don't forget that there are more than two metals in the alloy. | \n", "
3 | \n", "홍콩 섬은 홍콩 영토에 홍콩이라는 이름을 부여한 곳이자 많은 관광객들이 주안점으로 여기는 곳이다 | \n", "홍콩섬은 홍콩 영토에 홍콩이라는 이름을 부여한 곳이자 많은 관광객들이 주한점으로 여기는 곳이다. | \n", "Hong Kong Island is a place named Hong Kong on Hong Kong territory, and it is the main destination of many tourists. | \n", "
4 | \n", "남자들을 단호히 거절하고 자신의 입장을 고수하는 것을 두려워하지 말라문화적 차이든 아니든 희롱은 간과될 수 없다! | \n", "남자들을 단호히 거절하고 자신의 입장을 고수하는 것을 두려워하지 말라. 문화적 차이든 아니든 희롱은 간과 될 수 없다. | \n", "Do not be afraid to reject men and defend your position. Whether it is a cultural difference or not, it cannot be ignored. | \n", "
5 | \n", "좀 더 작은 섬의 대부분은 독립 국가이거나 프랑스와 관련이 있고 호화로운 비치 리조트로 알려져 있다 | \n", "좀 더 작은 섬의 대부분은 독립국가이거나 프랑스와 관련이 있고, 호화로운 비치 리조트로 알려져 있다. | \n", "Most of the smaller islands are independent or related to France, and are known as luxurious beach resorts. | \n", "
6 | \n", "사실 이게 존재한다는 사실을 아는 사람이 있다고 해도 찾는 것조차 쉽지 않습니다 일단 동굴 안에 들어가면 완전한 고립입니다 | \n", "사실 이게 존재한다는 사실을 아는 사람이 있다고 해도 찾는 것조차 쉽지 않습니다. 일단 동그란에 들어가면 완전한 고립입니다. | \n", "In fact, even if there are people who know that this exists, it is not easy to find it. Once you enter the cave, it is a complete isolation. | \n", "
7 | \n", "원단이 너무 뜨거워지지 않도록 주의하세요원단이 수축하거나 그을릴 수 있습니다 | \n", "원단이 너무 뜨거워지지 않도록 주의하세요. 원단이 수축하거나 그을릴 수 있습니다. | \n", "Be careful not to heat the fabric too much. The fabric may shrink or get dirty. | \n", "
8 | \n", "도널드 트럼프 미국 대통령은 늦은 일요일 시간대에 대변인을 통해 발표한 성명에서 미군이 시리아에서 철수할 것이라고 발표했다 | \n", "도널드 트럼프 미국 대통령은 늦은 일요일 시간대에 대변인을 통해 발표한 성명에서 미군이 시리아에서 철수할 것이라고 발표했다. | \n", "U.S. President Donald Trump announced on Sunday that the U.S. military would withdraw from Syria in his speech. | \n", "
9 | \n", "미국 체조 협회는 미국 올림픽 위원회의 서한을 지지하며 미국의 전 운동선수가 안전한 환경을 가질 수 있도록 돕는 올림픽 관계자의 절대적 필요성을 인정합니다 | \n", "미국 체조협회는 미국 올림픽위원회의 서한을 지지하며 미국의 전 운동선수가 안전한 환경을 가질 수 있도록 돕는 올림픽 관계자의 절대적 필요성을 인정합니다. | \n", "The U.S. Sports Association supports the call of the U.S. Olympic Committee to help all athletes in the U.S. have a safe environment. | \n", "
10 | \n", "\"이건 작별 인사가 아닙니다. 이것은 한 장의 끝이며 새로운 장의 시작입니다.\"\\t \" \" 이 건 | 작 별 | 인 사 가 | 아 닙 니 다 . | 이 것 은 | 한 | 장 의 | 끝 이 며 | 새 로 운 | 장 의 | 시 작 입 니 다 . \" \" | | \n", "이건 작별인사가 아닙니다. 이것은 한작의 끝이며 새로운 작의 시작입니다. | \n", "This is not a farewell. This is the end of one work and the beginning of a new work. | \n", "
11 | \n", "남아프리카 공화국의 특정 공원 또는 남아프리카 공화국 국립공원 전체에 입장할 수 있는 와일드 카드를 구매하는 것이 이득일 수 있습니다 | \n", "남아프리카 공화국의 특정 공원 또는 남아프리카 공화국 국립공원 전체에 입장할 수 있는 와일드카드를 구매하는 것이 이득일 수 있습니다. | \n", "It may be beneficial to purchase a wild card that allows you to enter a specific park or a national park of South Africa. | \n", "
12 | \n", "높은 고도나 산길을 넘어 운전하려고 하면 눈 빙판 또는 영하의 기온 등이 생길 가능성에 대해 고려해야 한다 | \n", "높은 고도나 산길을 넘어 운전하려고 하면 눈, 빙판 또는 영하의 기온 등이 생길 가능성에 대해 고려해야 한다. | \n", "If you want to drive over high altitude or mountain roads, you have to consider the possibility of snow, ice, or the temperature of a movie. | \n", "
13 | \n", "이 이야기에 관계된 두 명의 성인 자녀를 둔 기혼자인 듀발은 밀러에게 깊은 인상을 남기지 않았습니다 | \n", "이 이야기에 관계된 두 명의 성인 자녀를 둔 기혼자인 듀발은 밀러에게 깊은 임상을 남기지 않았습니다. | \n", "Duval, who had two adult children related to this story, did not leave a deep impression on Miller. | \n", "
14 | \n", "찬드라 셰카르 솔랑키 경찰서장은 피고인이 얼굴을 가린 채 법정에 나왔다고 말했다 | \n", "찬드라 시에카르 솔랑키 경찰서장은 피고인이 얼굴을 가린 채 법적에 나왔다고 말했다. | \n", "The police chief of Chandra Shekhar Solanki said that the defendant covered his face and came out legally. | \n", "
15 | \n", "지하철의 정규 안내 방송은 카탈로니아어로만 제공되나 계획에 없던 운행 중단 시에는 자동 시스템을 통해 스페인어 영어 프랑스어 아라비아어 일본어를 포함한 다양한 언어로 방송됩니다 | \n", "지하철의 정규 안내 방송은 카탈로니아어로만 제공되나 계획에 없던 운행 중단 시에는 자동 시스템을 통해 스페인어, 영어, 프랑스어, 아라비아어, 일본어를 포함한 다양한 언어로 방송됩니다. | \n", "Subway's regular announcement broadcast is only available in Catalan, but it will be broadcast in Spanish, English, French, Arabic, and Japanese. | \n", "
16 | \n", "그는 그 소문을 정치적 수다와 어리석음\"\"이라고 언급했습니다. | \n", "그는 그 소문을 정치적 수다와 어리석음이라고 언급했습니다. | \n", "He mentioned the rumor as political talk and foolishness. | \n", "
17 | \n", "지구가 마치 움직이지 않는 것처럼 느껴지기에 언뜻 보면 맞는 말 같기도 하죠 | \n", "지구가 마치 움직이지 않은 것처럼 느껴지기에 언특보면 맞는 말 같기도 하죠? | \n", "It feels as if the earth is not moving, and it seems to be right. | \n", "
18 | \n", "어린이와 노약자를 포함한 6명의 인질들은 필리핀 사진작가들과 마찬가지로 일찍 풀려났다 | \n", "어린이와 노약자를 포함한 6명의 인질들은 필리핀 사진작가들과 마찬가지로 일찍 풀려났다. | \n", "Children and old people, including 6 people, were released early, just like the Philippine photographers. | \n", "
19 | \n", "같은 줄을 따라 남자는 무릎을 덮는 바지를 입을 것을 요구받는다 | \n", "같은 줄을 따라 남자는 무릎을 덮는 바지를 입을 것을 요구받는다. | \n", "The man is asked to wear pants that cover his knees along the same line. | \n", "
20 | \n", "그것은 기차와 자동차 및 여러 교통수단을 가져다주었습니다 | \n", "그것은 기차와 자동차 및 여러 교통수단을 가져다 주었습니다. | \n", "It was given by trains, cars, and other means of transport. | \n", "
21 | \n", "모로코 술탄은 다루 이 바드야daru l-badya라는 도시로 재건축하고 여기에 무역 거점을 세운 스페인 상인들은 이곳을 카사블랑카라고 불렀다 | \n", "모로코 슬타는 다루이 바드야라는 도시로 재건축하고 여기에 무역 거점을 세운 스페인 상인들은 이곳을 카사블랑카라고 불렀다. | \n", "Morocco Sultan was rebuilt as a city called Darui Badia The Spanish merchants who built a trade point here called this place Casablanca. | \n", "
22 | \n", "비록 대부분 이론에 의존하긴 해도 프로그램은 궁수자리 은하 관측을 시뮬레이션하도록 짜여 있습니다 | \n", "비록 대부분 이론에 의존하긴 해도, 프로그램은 궁수자리 은하관측을 시뮬레이션하도록 짜여 있습니다. | \n", "Although most of them rely on theory, the program is designed to simulate the Milky Way of the palace. | \n", "
23 | \n", "아동이 위탁 보호를 받게 되는 이유는 방치에서 학대 심지어 강탈에 이르기까지 광범위하게 다양합니다 | \n", "아동이 위탁보호를 받게 되는 이유는 방치에서 학대, 심지어 강탈에 이르기까지 광범위하게 다양합니다. | \n", "The reason why children are protected is that they can be abused, abused, and even robbed. | \n", "
24 | \n", "뇌 병리와 행동 사이의 상관관계가 과학자들의 연구를 돕습니다 | \n", "뇌병리와 행동사이의 상관관계가 과학자들의 연구를 돕습니다. | \n", "The relationship between brain | \n", "
25 | \n", "사람들은 귀국길에 오르는 여행객들에게도 인내심과 이해심이 필요하다고 생각하지 않을 수 있다 | \n", "사람들은 귀국길에 오르는 여행객들에게도 인내심과 이해심이 필요하다고 생각하지 않을 수 있다. | \n", "People may not think that patience and understanding are necessary for travelers on their way back home. | \n", "
26 | \n", "교전이 발발한 직후 영국은 독일에 대한 해상 봉쇄를 시작한다 | \n", "교전이 발발한 직후 영국은 독일에 대한 해상붕쇄를 시작한다. | \n", "As there is a fierce conflict, | \n", "
27 | \n", "이렇게 되면 플레이어들이 장치를 허공에서 움직여 동작과 움직임을 제어할 수 있게 된다 | \n", "이렇게 되면 플레이어들이 장치를 허공해서 움직여 동작과 움직임을 제어할 수 있게 된다. | \n", "In this way, players can control the movement by moving the device in the air. | \n", "
28 | \n", "스펙트럼의 또 다른 끝에서는 팀이 해오던 모든 것을 바꾸고 자신만의 방식으로 만들어야 한다고 생각하는 인지하지 못한 개인으로 바뀝니다 | \n", "스펙트럼의 또 다른 끝에서는 팀이 해오던 모든 것을 바꾸고 자신만의 방식으로 만들어야 한다고 생각하는 인지하지 못한 개인으로 바뀝니다. | \n", "At the other end of the spectrum, you have to change everything your team has been doing and make it your own way. It turns into an unrecognizable individual. | \n", "
29 | \n", "피라미드 사운드와 광선 쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다 | \n", "피라미드 사운드와 광선쇼는 이 지역에서 어린이들의 흥미를 가장 많이 끌어들이는 것들 중 하나입니다. | \n", "Pyramid Sound and Glow Show is one of the things that attracts children's interest the most in this area. | \n", "
30 | \n", "장면들이 피라미드들 위에 비쳤고 다른 피라미드들에는 불이 밝혀졌다 | \n", "장면들이 피라미드들 위에 비쳤고, 다른 피라미드들에는 불이 밝혀졌다. | \n", "The scenes were reflected on the pyramids, and the fire was lit on the other pyramids. | \n", "
31 | \n", "이곳은 남아프리카의 명소 중 하나로 남아프리카 국립 공원sanparks의 플래그십입니다 | \n", "이곳은 남아프리카의 명소 중 하나로 남아프리카 국립공원의 플래그십입니다. | \n", "This is one of the famous places in South Africa and is a flagship of South African National Park. | \n", "
32 | \n", "아직도 존재하는 것으로 알려진 25개의 던랩 브로드 사이드는 이 문서의 남아있는 가장 오래된 사본이다 손으로 쓴 원본은 더 이상 남아 있지 않다 | \n", "아직도 존재하는 것으로 알려진 25개의 덜랩 브로드 사이드는 이 문서에 남아있는 가장 오래된 사번이다. 손으로 쓴 원보는 더 이상 남아있지 않다. | \n", "The 25th Dunlap Broadside, which is known to still exist, is the oldest document in this document. The original document written by hand no longer exists. | \n", "
33 | \n", "상트페테르부르크 크루즈는 시내에서의 시간이 포함됩니다. 크루즈 승객은 비자 요건에서 제외됩니다약관을 확인하세요 | \n", "상트 페테르브르크 크루즈는 시내에서의 시간이 포함됩니다. 크루즈 승객은 비자 요건에서 제외됩니다. 약관을 확인하세요. | \n", "St.Petersburg Cruise includes time in the city. Cruise passengers are excluded from visa conditions. Please check your passport. | \n", "
34 | \n", "블로그는 학생들의 글쓰기를 개선하는 데에도 도움이 됩니다 학생들이 종종 부족한 문법과 철자법으로 블로그를 시작하지만 독자들의 존재가 일반적으로 그러한 점들을 변화시킵니다 | \n", "블로그는 학생들의 글쓰기를 개선하는 데에도 도움이 됩니다. 학생들이 종종 부족한 문법과 철자법으로 블로그를 시작하지만 독자들의 존재가 일반적으로 그러한 점들을 변화시킵니다. | \n", "Blogs help students to improve their writing skills. Students often start blogs with poor grammar and spelling, as readers tend to change in a mysterious way. | \n", "
35 | \n", "델 포트로가 2세트에서 먼저 어드밴티지를 얻었지만 6 대 6이 된 후 다시 타이 브레이크가 필요했다 | \n", "델포트로가 2세트에서 먼저 어드밴티지를 얻었지만 6대6이 된 후 다시 타이브레이크가 필요했다. | \n", "Del Potro got an advantage in the second set first, but needed a tiebreak again after 6 to 6. | \n", "
36 | \n", "이것은 몇몇 동사와 사물을 구별하는 중요한 방법이다 | \n", "이것은 몇몇 동사와 사물을 구별하는 중요한 방법이다. | \n", "This is an important method of distinguishing some verbs and things. | \n", "
37 | \n", "교회의 핵심 권력은 천 년 넘게 로마에 머물렀다 이런 힘과 돈의 편중은 이 교리가 합당한지에 대한 의문을 낳았다 | \n", "교회의 핵심 권력은 1000년 넘게 로마에 머물렀다. 이러한 힘과 돈의 편중은 이 교리가 합당한지에 대한 의문을 낳았다. | \n", "The main power of the church has remained in Rome for over 1,000 years. The power of the church has remained in Rome for over 1,000 years. | \n", "
38 | \n", "보고서는 행정부의 현재 이라크 정책에 대해 거의 모든 측면에서 매우 비판적이며 즉각적인 방향 변경을 촉구합니다 | \n", "보고서는 행정부의 현재 이라크 정책에 대해 거의 모든 측면에서 매우 비판적이며 즉각적인 방향변경을 촉구합니다. | \n", "The report is very critical of the current Iraqi policy of the administration, and calls for an immediate change of direction. | \n", "