چند سیکنڈ کی آڈیو سن کر کسی بھی آواز کی نقل کرنے والا اے آئی سسٹم تیار

16 جنوری ، 2023

مائیکرو سافٹ نے اسے تیار کیا ہے / فائل فوٹو

مائیکرو سافٹ نے آرٹی فیشل (اے آئی) ٹیکنالوجی پر مبنی ایک ایسا ماڈل تیار کیا ہے جو 3 سیکنڈ کی آڈیو سن کر کسی بھی فرد کی آواز کی نقل کرنے کی صلاحیت رکھتا ہے۔

وال ای نامی ٹیکسٹ ٹو اسپیچ اے آئی ماڈل نہ صرف کسی فرد کی عام آواز کی نقل کرسکتا ہے بلکہ اس کے جذباتی انداز کو بھی اپنا سکتا ہے۔

کمپنی کو توقع ہے کہ مستقبل قریب میں اسے ٹیکسٹ ٹو اسپیچ ایپس کے لیے استعمال کیا جاسکے گا۔

مائیکرو سافٹ نے اس اے آئی ماڈل کو نیورل کوڈک لینگوئج ماڈل قرار دیا ہے جو تحریر سے آڈیو بنا سکتا ہے جبکہ بولنے والے کی آواز کے چند سیکنڈ کے نمونے سن کر اس کی نقل کرسکتا ہے۔

اس حوالے سے ایک تحقیقی مقالے میں ماہرین نے بتایا کہ میٹا کی LibriLight آڈیو لائبریری سے 60 ہزار گھنٹوں کے انگلش زبان کے آڈیو ڈیٹا سے وال ای کو تربیت فراہم کی گئی۔

تحقیقی ٹیم نے اوپن سورس پیج Github میں وال ای کی صلاحیت کا مظاہرہ بھی کیا۔

ہر جملے کے بعد اس ماڈل کو بولنے کو کہا جاتا تو وہ 3 سیکنڈ کے بعد بولنے والے کی آواز کی نقل کرلیتا۔

مائیکرو سافٹ کے اس ماڈل نے بولنے والوں کے جذباتی لہجے کی بھی ہو بہو نقل کرنے میں کامیابی حاصل کی بلکہ پرشور ماحول میں بھی ایسا کرنے میں کامیاب رہا۔

کمپنی کے مطابق اس ماڈل کو بہتر بنانے کے لیے تربیتی ڈیٹا کو بڑھانے کی منصوبہ بندی کی جارہی ہے تاکہ اس ماڈل کی کارکردگی، بولنے کے انداز اور نقل وغیرہ کو مزید بہتر بنایا جاسکے۔

مائیکرو سافٹ کی جانب سے اس مادل کے کوڈ کو اوپن سورس فراہم نہیں کیا گیا، تاکہ اس کے غلط استعمال کی روک تھام ممکن ہوسکے۔

محققین کے مطابق چونکہ یہ ماڈل بولنے والی شناخت کو چھپاتا نہیں تو اس کے غلط استعمال کے خطرات موجود ہیں۔

چند سیکنڈ کی آڈیو سن کر کسی بھی آواز کی نقل کرنے والا اے آئی سسٹم تیار

مائیکرو سافٹ کے نئے ٹولز سوشل میڈیا صارفین کو ضرور پسند آئیں گے