Coder Social home page Coder Social logo

Comments (3)

trungkienbkhn avatar trungkienbkhn commented on May 24, 2024

@AB-hex , hello. Could your provide an example of your problem ?
For more information, the VAD feature, while generally beneficial when audio contains long sequences without any speech, it also creates new minor issues for audio that behaves well in default OpenAI logic:

  • truncation too close to speech, maybe leading to the loss of the final word.
  • VAD-specific hallucinations because the training data from OpenAI did not use VAD filtering, causing inconsistencies between training and inference.

Therefor, this option should only be enabled in a few special cases, default is False.

from faster-whisper.

AB-hex avatar AB-hex commented on May 24, 2024

Hello @trungkienbkhn,

I attempted to provide an example to illustrate the issue, but I found it challenging to isolate the effect I described earlier. Interestingly, the original tuned model also exhibits similar behavior in certain cases.

For instance, I trimmed the first 30 seconds of this video and observed that disabling VAD results in normal timestamps. However, when I attempt to transcribe the entire 63-minute lecture, the tuned ivrit-ai model also produces longer segments, which I'm trying to avoid, though there are some differences between the result of the faster-whisper quantized ivrit model.

At this point, I'm unable to isolate the effect definitively. I'm wondering if faster-whisper might offer additional tools or features that could help address this issue.

Thank you for your assistance.

from faster-whisper.

trungkienbkhn avatar trungkienbkhn commented on May 24, 2024

@AB-hex I tested your model with this video. It seems that I've encountered a similar issue with transcription segments 30s in length. (33.20s -> 59.98s, 60.00s -> 89.66s, ...)

Processing audio with duration 04:54.499
Processing segment at 00:00.000
[0.00s -> 7.64s] שלום חברים, אני אסיה והיום אנחנו ביפו, העיר יפו נמצאת בחלק הדרומי של תל אביב ושייכת לתל אביב מבחינה מוניציפלית.
[7.78s -> 15.70s]  החלק הכי יפה ביפו זה יפו עתיקה, פה אפשר למצוא הרבה אתרים ארכיאולוגיים, מוסדות דת כמו כנסיות, מסגדים, בתי כנסת והרבה מאוד אומנות.
[16.18s -> 21.74s]  היום הזמינו אותנו לפתיחת הארוחה ואנחנו נבדוק מה אנשים בישראל יכולים להגיד לנו על אומנות. בואו נלך.
Processing segment at 00:30.000
[33.20s -> 59.98s]  שלום ל... ירון ו... ניכל. סאשה, שלום לאבלין. הייתם בתארוכה למעלה? ודאי. ואיך היה? פנטסטי. יותר מדי אבל. מלהי ויפה ומרגיש. היה ממש יפה, תארוכה מאוד מעניינת. זה די מפתיע לראות דברים מהסוג הזה. מה אנחנו רואים פה היום? אנחנו רואים אוסף של יצורים שעשויים אך ורק מנייר במגוון די.
Processing segment at 01:00.000
[60.00s -> 89.66s]  גדול של טכניקות. יש אוריגמי, פופ-אפ, חיתוכי נייר, יש פיסול בנייר, יש קווילינג, יש קולאז'ים. משלושים ושניים אומנים שונים, 16 מדינות מכל העולם, 7 ישראלים מתוכם. היית כבר בתארוכה למעלה? כן. מה את חושבת? מדהים, מדהים. יש שם כמה יצירות שפשוט יפנטו אותי. ויש שם עוד יצירה של ילד בן 16 שזה עוד יותר מפתיע. שלום לך, איך קוראים לך? עינו אותו לדנו. מה אתה עושה פה היום במזון יפו?
Processing segment at 01:29.660
[89.66s -> 102.76s]  אני מציגי עבודה. אתה עוסק ספציפית באוריגמי? כן. העבודה הזו זה רק כיפולי נייר, כן? זה כיפולים, זה בלי הדבקות, זה בלי חיתוכים. אפשר להגיע לתוצאות מאוד מרשימות.
[112.70s -> 118.96s]  אתם מבקרים הרבה במזונים? מדי פעם, כן. אני יותר או פחות.
Processing segment at 01:59.660
[119.66s -> 140.92s]  למה? כי יש לי שעות עבודה מאוד ארוכות והן מעייפות. אתם מבקרים הרבה בתארוכות? משתדלים. מה התחום האומנות הכי אהוב עליכם? כל מה שיפה, ציון, כיסול. מה התחום האומנות האהוב עליכם? אולי אומנות קלאסית, אבל עכשיו נייר, בגלל זה באנו.
Processing segment at 02:20.920
[146.32s -> 169.48s] האם יש דבר כזה אומנות ישראלית? אני מניחה שיש, אבל קשה להגדיר אותה. בטח, בטח. מה זה? וואו, זה בדרך כלל דברים שהם יותר פוסט-מודרניים, דברים שמשלבים טכניקות. מאיפה אתה מגיע אלינו? אה, מגרמניה. מה אתה חושב על האומנות המקומית? יש דבר כזה אומנות ישראלית בכלל? יש. מה זה?
Processing segment at 02:50.920
Compression ratio threshold is not met with temperature 0.0 (2.401961 > 2.400000)
[171.38s -> 200.90s] אני לא חושבת שמתאר את הארץ. בדרך כלל ישראלים מנסים ליצור ממשהו שהוא מקומי. משהו שמשקף את הישראליות שלהם, בין אם זה עיתונים למשל, או שילוב של כל מיני... צבעים בוהקים ואבסטרקטיים בכל מיני צורות. יש אומנות ישראלית, בטח, בטח. וואו, שאלה קשה. זה מגוון מאוד. אני אישית מאוד אוהבת צילום, אז אני יכולה להגיד שזה בעיניי יכול להיות מאוד ישראלי. האם יש דבר כזה אומנות ישראלית? אני לא יודע אם יש דבר כזה, אני בטוח אומנים ישראלים. 
Processing segment at 03:20.900
[200.90s -> 222.72s]  הרבה? יש הרבה מאוד. את מתעסקת בתחום הצילום או בתחום אומנות? כן, אני מתסלמת. מתעסקת באומנות? כן. איזה? נייר? אני עוסק בפיסול. בנייר? לא. עץ וברזל. מה יותר כיף, תערוכה בינלאומית או תערוכה ישראלית? אומנות זה יופי, לא חשוב אם זה בינלאומי, ישראלי, אומנות.
Processing segment at 03:42.720
[240.28s -> 252.70s]  תודה חברים שהייתם איתנו בעוד פרק של Easy Hebrew, היום נגענו אמנם בקצה המזלג בנושאים של אומנות ישראלית או אומנות בישראל. אבל כמובן שאתם מזמנים בעצמכם להגיע לישראל או ליפנתיקה ולהתרשם מהאומנות המקוריות. אז תודה רבה, תודה רבה, תודה רבה, תודה רבה.
Processing segment at 04:12.720
[252.72s -> 256.92s]  ולהחליט מה זה אמנות ישראלית. ביי, נתראה ביפו.
Processing segment at 04:42.720
[292.02s -> 294.46s] כתוביות דודקאו על ידי כתוביות אינסטגרם.

Then I tried using the fw-large-v3 model, and it performed notably better.

Processing audio with duration 04:54.499
Processing segment at 00:00.000
[0.00s -> 2.90s]  שלום חברים, אני אסיה והיום אנחנו ביפו
[2.90s -> 5.20s]  העיר יפו נמצאת בחלק הדרומי של תל אביב
[5.20s -> 7.00s]  ושייכת לתל אביב מבחינה מוניציפלית
[7.52s -> 9.62s]  החלק הכי יפה ביפו זה יפו עתיקה
[9.62s -> 14.08s]  פה אפשר למצוא הרבה אתרים ארכיאולוגיים, מוסדות דת כמו כנסיות, מסגדים, בתי כנסת
[14.08s -> 15.66s]  והרבה מאוד אמנות
[15.66s -> 17.68s]  היום הזמינו אותנו לפתיחת תערוכה
[17.68s -> 20.58s]  ואנחנו נבדוק מה אנשים בישראל יכולים להגיד לנו על אמנות
[20.58s -> 21.60s]  בואו נלך
Processing segment at 00:30.000
[58.58s -> 59.98s]  תערוכה
Processing segment at 01:00.000
[60.00s -> 63.92s]  הכי גדול של טכניקות יש אוריגה מבופ-אפ, חיתוכי נייר, יש פיסול בנייר
[63.92s -> 66.42s]  יש קווילינג, יש קולאז'ים
[67.96s -> 70.96s]  מ32 אמנים שונים, 16 מדינות
[70.96s -> 73.98s]  מכל העולם, 7 ישראלים מתוכם
[73.98s -> 75.34s]  היית כבר בתערוכה למעלה?
[75.50s -> 75.96s]  כן
[75.96s -> 77.04s]  מה את חושבת?
[77.40s -> 81.56s]  אוו מדהים, מדהים, יש שם כמה יצירות שפשוט יפנטו אותי
[81.56s -> 84.26s]  ויש עומד יצירה שהיא לילדת בן 16 שזה עוד יותר מפתיע
[84.26s -> 85.64s]  שלום לך, איך קוראים לך?
[86.12s -> 87.28s]  אינו תולדנו
[87.28s -> 89.58s]  מה אתה עושה פה היום במזון יפו?
Processing segment at 01:30.000
[90.00s -> 91.40s]  אני מציגי עבודה
[91.40s -> 93.60s]  אתה עוסק ספציפית באוריגמי?
[93.68s -> 94.02s]  כן
[94.02s -> 97.10s]  העבודה הזו זה רק כיפולי נייר, כן?
[97.18s -> 99.78s]  זה כיפולים, זה בלי הדבקות, זה בלי חיתוכים
[99.78s -> 102.74s]  אפשר להגיע לתוצאות מאוד מרשימות
[112.54s -> 114.32s]  אתם מבקרים הרבה במוזיאונים?
[115.26s -> 116.56s]  מדי פעם, כן
[116.56s -> 118.84s]  אני יותר או פחות
Processing segment at 02:00.000
Compression ratio threshold is not met with temperature 0.0 (3.036530 > 2.400000)
Compression ratio threshold is not met with temperature 0.2 (3.120370 > 2.400000)
Compression ratio threshold is not met with temperature 0.4 (2.931193 > 2.400000)
Compression ratio threshold is not met with temperature 0.6 (3.054545 > 2.400000)
Compression ratio threshold is not met with temperature 0.8 (2.427083 > 2.400000)
Log probability threshold is not met with temperature 1.0 (-1.581809 < -1.000000)
[120.00s -> 120.24s]  למה?
[120.42s -> 125.36s]  כי יש לי שעות עבודה מאוד ארוכות והן מאוד יופות
[125.92s -> 127.46s]  אתם מבקרים הרבה בתערוכות?
[127.86s -> 128.56s]  משתדלים
[128.56s -> 131.22s]  מה תחום האמנות הכי אהוב עליכם?
[131.32s -> 134.06s]  כל מה שיחסה storage우�ות, תיסול
[134.06s -> 136.18s]  מה תחום האמנות האהוב עליכם?
[137.60s -> 138.48s]  כ schauenCorner
[138.48s -> 140.00s]  אולי האמנות קלסית אבל עכשיו נייר
[140.00s -> 140.88s]  בגלל זה באנו
[146.00s -> 147.62s]  אם יש דבר כזה
[147.62s -> 147.74s]  Darthimaan
[147.74s -> 148.54s]  האמנות ישראלית?
[148.80s -> 149.98s]  אני מניחה
[149.12s -> 149.92s]  אני מניחה
Reset prompt. prompt_reset_on_temperature threshold is met 1.000000 > 0.500000
Processing segment at 02:30.000
[150.00s -> 152.04s]  שיש אבל היא קשה להגדיר אותה.
[152.26s -> 153.24s]  בטח, בטח.
[153.36s -> 153.58s]  מה זה?
[154.84s -> 157.96s]  וואו, זה בדרך כלל דברים שהם יותר פוסט-מודרניים,
[157.98s -> 159.76s]  דברים שמשלבים טכניקות.
[159.86s -> 160.82s]  מאיפה אתה מגיע אלינו?
[161.60s -> 162.78s]  אה, מגרמניה.
[162.84s -> 164.90s]  מה אתה חושב על האומנות המקומית?
[165.88s -> 168.12s]  יש דבר כזה, אומנות ישראלית בכלל?
[168.36s -> 168.66s]  יש.
[168.88s -> 169.40s]  מה זה?
[171.16s -> 173.28s]  אני חושבת שמתארת את הארץ.
[173.98s -> 177.18s]  בדרך כלל ישראלים מנסים ליצור ממשהו שהוא מקומי,
[177.20s -> 179.36s]  משהו שמשקף את הישראליות שלהם,
Processing segment at 02:59.360
Compression ratio threshold is not met with temperature 0.0 (2.458333 > 2.400000)
Compression ratio threshold is not met with temperature 0.2 (2.439024 > 2.400000)
Compression ratio threshold is not met with temperature 0.4 (2.458333 > 2.400000)
Compression ratio threshold is not met with temperature 0.6 (2.458333 > 2.400000)
Compression ratio threshold is not met with temperature 0.8 (2.445993 > 2.400000)
[179.36s -> 180.84s]  בין אם זו עיתונים למשל,
[180.84s -> 186.44s]  או שילוב של כל מיני צבעים בוהקים ואבסטרקטים בכל מיני צורות.
[186.48s -> 188.36s]  יש אומנות ישראלית, בטח, בטח.
[188.56s -> 189.72s]  וואו, שאלה קשה.
[189.98s -> 190.82s]  זה מגוון מאוד.
[191.16s -> 192.98s]  אני אישית מאוד אוהבת צילום,
[193.12s -> 196.30s]  אז אני יכולה להגיד שזה בעיניי יכול להיות מאוד ישראלי.
[196.40s -> 197.90s]  האם יש דבר כזה, אומנות ישראלית?
[198.38s -> 199.92s]  אני לא יודע אם יש דבר כזה,
[199.96s -> 201.16s]  אבל יש בטוח אומנים ישראלים.
[201.48s -> 202.00s]  הרבה?
[202.36s -> 203.42s]  יש הרבה מאוד.
[203.64s -> 206.00s]  את מתעסקת בתחום הצילום או בתחום האומנות?
[206.16s -> 207.56s]  כן, אני מצלמת.
Reset prompt. prompt_reset_on_temperature threshold is met 1.000000 > 0.500000
Processing segment at 03:27.560
[207.56s -> 208.68s]  את עוסקת באמנות?
[208.80s -> 208.96s]  כן
[208.96s -> 209.72s]  איזה?
[210.26s -> 210.98s]  בנייר
[210.98s -> 212.14s]  אני עוסק בפיסול
[212.14s -> 213.44s]  בנייר?
[213.50s -> 215.14s]  לא, עץ וברזל
[215.14s -> 218.28s]  מה יותר כיף, תערוכה בינלאומית או תערוכה ישראלית?
[218.56s -> 222.66s]  האמנות זה יופי, לא חשוב אם זה ביאנוני, ישראלי, האמנות
Processing segment at 03:57.560
[240.14s -> 243.36s]  תודה חברים שהייתם איתנו בעוד פרק של איזה היפו
[243.36s -> 247.56s]  היום נגענו אמנם בקצוע מזלג בנושאים של אמנות ישראלית או אמנות בישראל
[247.56s -> 251.22s]  אבל כמובן שאתם מזמנים בעצמכם להגיע לישראל או ליפה תיקה
[251.22s -> 255.12s]  ולהתרשם מהאמנות המקומית ולהחליט מה זה אמנות ישראלית
[255.12s -> 256.72s]  ביי, נתראה ביפו
Processing segment at 04:27.560
[291.92s -> 294.46s]  תודה רבה

=> So I think that the problem lies with your tuned model. Unfortunately, fw doesn't have any options to improve this issue.

from faster-whisper.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.