3 years ago · eab8d920ed
--- a/whisper/decoding.py
+++ b/whisper/decoding.py
@@ -549,7 +549,13 @@ class DecodingTask:
 
															             assert isinstance(suppress_tokens, list), "suppress_tokens must be a list"
														
 
															         suppress_tokens.extend(
														
 
															-            [self.tokenizer.sot, self.tokenizer.sot_prev, self.tokenizer.sot_lm]
														
 
															+            [
														
 
															+                self.tokenizer.transcribe,
														
 
															+                self.tokenizer.translate,
														
 
															+                self.tokenizer.sot,
														
 
															+                self.tokenizer.sot_prev,
														
 
															+                self.tokenizer.sot_lm
														
 
															+            ]
														
 
															         )
														
 
															         if self.tokenizer.no_speech is not None:
														
 
															             # no-speech probability is collected separately
														
--- a/whisper/tokenizer.py
+++ b/whisper/tokenizer.py
@@ -161,6 +161,14 @@ class Tokenizer:
 
															         return self.tokenizer.eos_token_id
														
 
															     @cached_property
														
 
															+    def transcribe(self) -> int:
														
 
															+        return self._get_single_token_id("<|transcribe|>")
														
 
															+
														
 
															+    @cached_property
														
 
															+    def translate(self) -> int:
														
 
															+        return self._get_single_token_id("<|translate|>")
														
 
															+
														
 
															+    @cached_property
														
 
															     def sot(self) -> int:
														
 
															         return self._get_single_token_id("<|startoftranscript|>")
														
--- a/whisper/transcribe.py
+++ b/whisper/transcribe.py
@@ -197,35 +197,35 @@ def transcribe(
 
															             timestamp_tokens: torch.Tensor = tokens.ge(tokenizer.timestamp_begin)
														
 
															             consecutive = torch.where(timestamp_tokens[:-1] & timestamp_tokens[1:])[0].add_(1)
														
 
															             if len(consecutive) > 0:  # if the output contains two consecutive timestamp tokens
														
 
															+                if ended_with_single_timestamp := timestamp_tokens[-2:].tolist() == [False, True]:
														
 
															+                    consecutive = consecutive.tolist() + [len(tokens)]
														
 
															                 last_slice = 0
														
 
															                 for current_slice in consecutive:
														
 
															                     sliced_tokens = tokens[last_slice:current_slice]
														
 
															-                    start_timestamp_position = (
														
 
															-                        sliced_tokens[0].item() - tokenizer.timestamp_begin
														
 
															-                    )
														
 
															-                    end_timestamp_position = (
														
 
															-                        sliced_tokens[-1].item() - tokenizer.timestamp_begin
														
 
															-                    )
														
 
															+                    start_timestamp_pos = sliced_tokens[0].item() - tokenizer.timestamp_begin
														
 
															+                    end_timestamp_pos = sliced_tokens[-1].item() - tokenizer.timestamp_begin
														
 
															                     add_segment(
														
 
															-                        start=timestamp_offset + start_timestamp_position * time_precision,
														
 
															-                        end=timestamp_offset + end_timestamp_position * time_precision,
														
 
															+                        start=timestamp_offset + start_timestamp_pos * time_precision,
														
 
															+                        end=timestamp_offset + end_timestamp_pos * time_precision,
														
 
															                         text_tokens=sliced_tokens[1:-1],
														
 
															                         result=result,
														
 
															                     )
														
 
															                     last_slice = current_slice
														
 
															-                last_timestamp_position = (
														
 
															-                    tokens[last_slice - 1].item() - tokenizer.timestamp_begin
														
 
															-                )
														
 
															-                seek += last_timestamp_position * input_stride
														
 
															+                if ended_with_single_timestamp:
														
 
															+                    # single timestamp at the end means no speech after the last timestamp.
														
 
															+                    seek += segment.shape[-1]
														
 
															+                else:
														
 
															+                    # otherwise, ignore the unfinished segment and seek to the last timestamp
														
 
															+                    last_timestamp_pos = tokens[last_slice - 1].item() - tokenizer.timestamp_begin
														
 
															+                    seek += last_timestamp_pos * input_stride
														
 
															                 all_tokens.extend(tokens[: last_slice + 1].tolist())
														
 
															             else:
														
 
															                 duration = segment_duration
														
 
															                 timestamps = tokens[timestamp_tokens.nonzero().flatten()]
														
 
															                 if len(timestamps) > 0 and timestamps[-1].item() != tokenizer.timestamp_begin:
														
 
															                     # no consecutive timestamps but it has a timestamp; use the last one.
														
 
															-                    # single timestamp at the end means no speech after the last timestamp.
														
 
															-                    last_timestamp_position = timestamps[-1].item() - tokenizer.timestamp_begin
														
 
															-                    duration = last_timestamp_position * time_precision
														
 
															+                    last_timestamp_pos = timestamps[-1].item() - tokenizer.timestamp_begin
														
 
															+                    duration = last_timestamp_pos * time_precision
														
 
															                 add_segment(
														
 
															                     start=timestamp_offset,