vor 2 Jahren · 746aaaeafa
--- a/requirements.txt
+++ b/requirements.txt
@@ -3,4 +3,4 @@ numpy
 
				 torch
			
 
				 tqdm
			
 
				 more-itertools
			
 
				-tiktoken==0.3.3
			
 
				+tiktoken
			
--- a/tests/test_tokenizer.py
+++ b/tests/test_tokenizer.py
@@ -1,7 +1,17 @@
 
				+import pytest
			
 
				+
			
 
				 from whisper.tokenizer import get_tokenizer
			
 
				 
			
 
				 
			
 
				-def test_tokenizer():
			
 
				+@pytest.mark.parametrize("multilingual", [True, False])
			
 
				+def test_tokenizer(multilingual):
			
 
				+    tokenizer = get_tokenizer(multilingual=False)
			
 
				+    assert tokenizer.sot in tokenizer.sot_sequence
			
 
				+    assert len(tokenizer.all_language_codes) == len(tokenizer.all_language_tokens)
			
 
				+    assert all(c < tokenizer.timestamp_begin for c in tokenizer.all_language_tokens)
			
 
				+
			
 
				+
			
 
				+def test_multilingual_tokenizer():
			
 
				     gpt2_tokenizer = get_tokenizer(multilingual=False)
			
 
				     multilingual_tokenizer = get_tokenizer(multilingual=True)
			
 
				 
			
@@ -20,5 +30,5 @@ def test_split_on_unicode():
 
				     tokens = [8404, 871, 287, 6, 246, 526, 3210, 20378]
			
 
				     words, word_tokens = multilingual_tokenizer.split_tokens_on_unicode(tokens)
			
 
				 
			
 
				-    assert words == [" elle", " est", " l", "'", "�", "é", "rit", "oire"]
			
 
				+    assert words == [" elle", " est", " l", "'", "\ufffd", "é", "rit", "oire"]
			
 
				     assert word_tokens == [[8404], [871], [287], [6], [246], [526], [3210], [20378]]