| 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311411511611711811912012112212312412512612712812913013113213313413513613713813914014114214314414514614714814915015115215315415515615715815916016116216316416516616716816917017117217317417517617717817918018118218318418518618718818919019119219319419519619719819920020120220320420520620720820921021121221321421521621721821922022122222322422522622722822923023123223323423523623723823924024124224324424524624724824925025125225325425525625725825926026126226326426526626726826927027127227327427527627727827928028128228328428528628728828929029129229329429529629729829930030130230330430530630730830931031131231331431531631731831932032132232332432532632732832933033133233333433533633733833934034134234334434534634734834935035135235335435535635735835936036136236336436536636736836937037137237337437537637737837938038138238338438538638738838939039139239339439539639739839940040140240340440540640740840941041141241341441541641741841942042142242342442542642742842943043143243343443543643743843944044144244344444544644744844945045145245345445545645745845946046146246346446546646746846947047147247347447547647747847948048148248348448548648748848949049149249349449549649749849950050150250350450550650750850951051151251351451551651751851952052152252352452552652752852953053153253353453553653753853954054154254354454554654754854955055155255355455555655755855956056156256356456556656756856957057157257357457557657757857958058158258358458558658758858959059159259359459559659759859960060160260360460560660760860961061161261361461561661761861962062162262362462562662762862963063163263363463563663763863964064164264364464564664764864965065165265365465565665765865966066166266366466566666766866967067167267367467567667767867968068168268368468568668768868969069169269369469569669769869970070170270370470570670770870971071171271371471571671771871972072172272372472572672772872973073173273373473573673773873974074174274374474574674774874975075175275375475575675775875976076176276376476576676776876977077177277377477577677777877978078178278378478578678778878979079179279379479579679779879980080180280380480580680780880981081181281381481581681781881982082182282382482582682782882983083183283383483583683783883984084184284384484584684784884985085185285385485585685785885986086186286386486586686786886987087187287387487587687787887988088188288388488588688788888989089189289389489589689789889990090190290390490590690790890991091191291391491591691791891992092192292392492592692792892993093193293393493593693793893994094194294394494594694794894995095195295395495595695795895996096196296396496596696796896997097197297397497597697797897998098198298398498598698798898999099199299399499599699799899910001001100210031004100510061007100810091010101110121013101410151016101710181019102010211022102310241025102610271028102910301031103210331034103510361037103810391040104110421043104410451046104710481049105010511052105310541055105610571058105910601061106210631064106510661067106810691070107110721073107410751076107710781079108010811082108310841085108610871088108910901091109210931094109510961097109810991100110111021103110411051106110711081109111011111112111311141115111611171118111911201121112211231124112511261127112811291130113111321133113411351136113711381139114011411142114311441145114611471148114911501151115211531154115511561157115811591160116111621163116411651166116711681169117011711172117311741175117611771178117911801181118211831184118511861187118811891190119111921193119411951196119711981199120012011202120312041205120612071208120912101211121212131214121512161217121812191220122112221223122412251226122712281229123012311232123312341235123612371238123912401241124212431244124512461247124812491250125112521253125412551256125712581259126012611262126312641265126612671268126912701271127212731274127512761277127812791280128112821283128412851286128712881289129012911292129312941295129612971298129913001301 |
- <!doctype html>
- <html lang="pt" class="no-js">
- <head>
-
- <meta charset="utf-8">
- <meta name="viewport" content="width=device-width,initial-scale=1">
-
- <meta name="description" content="Targeting SOTA TTS solutions.">
-
-
-
- <link rel="canonical" href="https://speech.fish.audio/pt/">
-
-
-
- <link rel="next" href="install/">
-
-
-
- <link rel="alternate" href="/" hreflang="en">
-
- <link rel="alternate" href="/zh/" hreflang="zh">
-
- <link rel="alternate" href="/ja/" hreflang="ja">
-
- <link rel="alternate" href="/pt/" hreflang="pt">
-
- <link rel="alternate" href="/ko/" hreflang="ko">
-
- <link rel="alternate" href="/ar/" hreflang="ar">
-
-
-
- <link rel="icon" href="../assets/logo.svg">
- <meta name="generator" content="mkdocs-1.6.1, mkdocs-material-9.7.1">
-
-
-
- <title>Introdução - Fish Audio</title>
-
-
-
- <link rel="stylesheet" href="../assets/stylesheets/main.484c7ddc.min.css">
-
-
- <link rel="stylesheet" href="../assets/stylesheets/palette.ab4e12ef.min.css">
-
-
-
-
-
-
-
-
-
-
- <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
- <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
- <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
-
-
-
- <link rel="stylesheet" href="../stylesheets/extra.css">
-
- <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce(((e,_)=>(e<<5)-e+_.charCodeAt(0)),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
-
-
-
-
- </head>
-
-
-
-
-
-
-
-
-
- <body dir="ltr" data-md-color-scheme="default" data-md-color-primary="indigo" data-md-color-accent="indigo">
-
-
- <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
- <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
- <label class="md-overlay" for="__drawer"></label>
- <div data-md-component="skip">
-
-
- <a href="#inicio-rapido" class="md-skip">
- Ir para o conteúdo
- </a>
-
- </div>
- <div data-md-component="announce">
-
- </div>
-
-
-
-
- <header class="md-header md-header--shadow" data-md-component="header">
- <nav class="md-header__inner md-grid" aria-label="Cabeçalho">
- <a href="https://speech.fish.audio" title="Fish Audio" class="md-header__button md-logo" aria-label="Fish Audio" data-md-component="logo">
-
- <img src="../assets/logo.svg" alt="logo">
- </a>
- <label class="md-header__button md-icon" for="__drawer">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3zm0 5h18v2H3zm0 5h18v2H3z"/></svg>
- </label>
- <div class="md-header__title" data-md-component="header-title">
- <div class="md-header__ellipsis">
- <div class="md-header__topic">
- <span class="md-ellipsis">
- Fish Audio
- </span>
- </div>
- <div class="md-header__topic" data-md-component="header-topic">
- <span class="md-ellipsis">
-
- Introdução
-
- </span>
- </div>
- </div>
- </div>
-
-
- <form class="md-header__option" data-md-component="palette">
-
-
-
-
- <input class="md-option" data-md-color-media="(prefers-color-scheme)" data-md-color-scheme="default" data-md-color-primary="indigo" data-md-color-accent="indigo" aria-label="Switch to light mode" type="radio" name="__palette" id="__palette_0">
-
- <label class="md-header__button md-icon" title="Switch to light mode" for="__palette_1" hidden>
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m14.3 16-.7-2h-3.2l-.7 2H7.8L11 7h2l3.2 9zM20 8.69V4h-4.69L12 .69 8.69 4H4v4.69L.69 12 4 15.31V20h4.69L12 23.31 15.31 20H20v-4.69L23.31 12zm-9.15 3.96h2.3L12 9z"/></svg>
- </label>
-
-
-
-
-
- <input class="md-option" data-md-color-media="(prefers-color-scheme: light)" data-md-color-scheme="default" data-md-color-primary="black" data-md-color-accent="indigo" aria-label="Switch to dark mode" type="radio" name="__palette" id="__palette_1">
-
- <label class="md-header__button md-icon" title="Switch to dark mode" for="__palette_2" hidden>
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a4 4 0 0 0-4 4 4 4 0 0 0 4 4 4 4 0 0 0 4-4 4 4 0 0 0-4-4m0 10a6 6 0 0 1-6-6 6 6 0 0 1 6-6 6 6 0 0 1 6 6 6 6 0 0 1-6 6m8-9.31V4h-4.69L12 .69 8.69 4H4v4.69L.69 12 4 15.31V20h4.69L12 23.31 15.31 20H20v-4.69L23.31 12z"/></svg>
- </label>
-
-
-
-
-
- <input class="md-option" data-md-color-media="(prefers-color-scheme: dark)" data-md-color-scheme="slate" data-md-color-primary="black" data-md-color-accent="indigo" aria-label="Switch to light mode" type="radio" name="__palette" id="__palette_2">
-
- <label class="md-header__button md-icon" title="Switch to light mode" for="__palette_0" hidden>
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 18c-.89 0-1.74-.2-2.5-.55C11.56 16.5 13 14.42 13 12s-1.44-4.5-3.5-5.45C10.26 6.2 11.11 6 12 6a6 6 0 0 1 6 6 6 6 0 0 1-6 6m8-9.31V4h-4.69L12 .69 8.69 4H4v4.69L.69 12 4 15.31V20h4.69L12 23.31 15.31 20H20v-4.69L23.31 12z"/></svg>
- </label>
-
-
- </form>
-
-
-
- <script>var palette=__md_get("__palette");if(palette&&palette.color){if("(prefers-color-scheme)"===palette.color.media){var media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']");palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent")}for(var[key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
-
-
- <div class="md-header__option">
- <div class="md-select">
-
- <button class="md-header__button md-icon" aria-label="Selecione o idioma">
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m12.87 15.07-2.54-2.51.03-.03A17.5 17.5 0 0 0 14.07 6H17V4h-7V2H8v2H1v2h11.17C11.5 7.92 10.44 9.75 9 11.35 8.07 10.32 7.3 9.19 6.69 8h-2c.73 1.63 1.73 3.17 2.98 4.56l-5.09 5.02L4 19l5-5 3.11 3.11zM18.5 10h-2L12 22h2l1.12-3h4.75L21 22h2zm-2.62 7 1.62-4.33L19.12 17z"/></svg>
- </button>
- <div class="md-select__inner">
- <ul class="md-select__list">
-
- <li class="md-select__item">
- <a href="/" hreflang="en" class="md-select__link">
- English
- </a>
- </li>
-
- <li class="md-select__item">
- <a href="/zh/" hreflang="zh" class="md-select__link">
- 简体中文
- </a>
- </li>
-
- <li class="md-select__item">
- <a href="/ja/" hreflang="ja" class="md-select__link">
- 日本語
- </a>
- </li>
-
- <li class="md-select__item">
- <a href="/pt/" hreflang="pt" class="md-select__link">
- Português (Brasil)
- </a>
- </li>
-
- <li class="md-select__item">
- <a href="/ko/" hreflang="ko" class="md-select__link">
- 한국어
- </a>
- </li>
-
- <li class="md-select__item">
- <a href="/ar/" hreflang="ar" class="md-select__link">
- العربية
- </a>
- </li>
-
- </ul>
- </div>
- </div>
- </div>
-
-
-
-
- <label class="md-header__button md-icon" for="__search">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.52 6.52 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5"/></svg>
- </label>
- <div class="md-search" data-md-component="search" role="dialog">
- <label class="md-search__overlay" for="__search"></label>
- <div class="md-search__inner" role="search">
- <form class="md-search__form" name="search">
- <input type="text" class="md-search__input" name="query" aria-label="Buscar" placeholder="Buscar" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
- <label class="md-search__icon md-icon" for="__search">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.52 6.52 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5"/></svg>
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11z"/></svg>
- </label>
- <nav class="md-search__options" aria-label="Pesquisar">
-
- <a href="javascript:void(0)" class="md-search__icon md-icon" title="Compartilhar" aria-label="Compartilhar" data-clipboard data-clipboard-text="" data-md-component="search-share" tabindex="-1">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M18 16.08c-.76 0-1.44.3-1.96.77L8.91 12.7c.05-.23.09-.46.09-.7s-.04-.47-.09-.7l7.05-4.11c.54.5 1.25.81 2.04.81a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3c0 .24.04.47.09.7L8.04 9.81C7.5 9.31 6.79 9 6 9a3 3 0 0 0-3 3 3 3 0 0 0 3 3c.79 0 1.5-.31 2.04-.81l7.12 4.15c-.05.21-.08.43-.08.66 0 1.61 1.31 2.91 2.92 2.91s2.92-1.3 2.92-2.91A2.92 2.92 0 0 0 18 16.08"/></svg>
- </a>
-
- <button type="reset" class="md-search__icon md-icon" title="Limpar" aria-label="Limpar" tabindex="-1">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12z"/></svg>
- </button>
- </nav>
-
- <div class="md-search__suggest" data-md-component="search-suggest"></div>
-
- </form>
- <div class="md-search__output">
- <div class="md-search__scrollwrap" tabindex="0" data-md-scrollfix>
- <div class="md-search-result" data-md-component="search-result">
- <div class="md-search-result__meta">
- Inicializando a pesquisa
- </div>
- <ol class="md-search-result__list" role="presentation"></ol>
- </div>
- </div>
- </div>
- </div>
- </div>
-
-
-
- <div class="md-header__source">
- <a href="https://github.com/fishaudio/fish-speech" title="Ir ao repositório" class="md-source" data-md-component="source">
- <div class="md-source__icon md-icon">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M439.6 236.1 244 40.5c-5.4-5.5-12.8-8.5-20.4-8.5s-15 3-20.4 8.4L162.5 81l51.5 51.5c27.1-9.1 52.7 16.8 43.4 43.7l49.7 49.7c34.2-11.8 61.2 31 35.5 56.7-26.5 26.5-70.2-2.9-56-37.3L240.3 199v121.9c25.3 12.5 22.3 41.8 9.1 55-6.4 6.4-15.2 10.1-24.3 10.1s-17.8-3.6-24.3-10.1c-17.6-17.6-11.1-46.9 11.2-56v-123c-20.8-8.5-24.6-30.7-18.6-45L142.6 101 8.5 235.1C3 240.6 0 247.9 0 255.5s3 15 8.5 20.4l195.6 195.7c5.4 5.4 12.7 8.4 20.4 8.4s15-3 20.4-8.4l194.7-194.7c5.4-5.4 8.4-12.8 8.4-20.4s-3-15-8.4-20.4"/></svg>
- </div>
- <div class="md-source__repository">
- fishaudio/fish-speech
- </div>
- </a>
- </div>
-
- </nav>
-
- </header>
-
- <div class="md-container" data-md-component="container">
-
-
-
-
-
-
- <main class="md-main" data-md-component="main">
- <div class="md-main__inner md-grid">
-
-
-
- <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
- <div class="md-sidebar__scrollwrap">
- <div class="md-sidebar__inner">
-
- <nav class="md-nav md-nav--primary" aria-label="Navegação" data-md-level="0">
- <label class="md-nav__title" for="__drawer">
- <a href="https://speech.fish.audio" title="Fish Audio" class="md-nav__button md-logo" aria-label="Fish Audio" data-md-component="logo">
-
- <img src="../assets/logo.svg" alt="logo">
- </a>
- Fish Audio
- </label>
-
- <div class="md-nav__source">
- <a href="https://github.com/fishaudio/fish-speech" title="Ir ao repositório" class="md-source" data-md-component="source">
- <div class="md-source__icon md-icon">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M439.6 236.1 244 40.5c-5.4-5.5-12.8-8.5-20.4-8.5s-15 3-20.4 8.4L162.5 81l51.5 51.5c27.1-9.1 52.7 16.8 43.4 43.7l49.7 49.7c34.2-11.8 61.2 31 35.5 56.7-26.5 26.5-70.2-2.9-56-37.3L240.3 199v121.9c25.3 12.5 22.3 41.8 9.1 55-6.4 6.4-15.2 10.1-24.3 10.1s-17.8-3.6-24.3-10.1c-17.6-17.6-11.1-46.9 11.2-56v-123c-20.8-8.5-24.6-30.7-18.6-45L142.6 101 8.5 235.1C3 240.6 0 247.9 0 255.5s3 15 8.5 20.4l195.6 195.7c5.4 5.4 12.7 8.4 20.4 8.4s15-3 20.4-8.4l194.7-194.7c5.4-5.4 8.4-12.8 8.4-20.4s-3-15-8.4-20.4"/></svg>
- </div>
- <div class="md-source__repository">
- fishaudio/fish-speech
- </div>
- </a>
- </div>
-
- <ul class="md-nav__list" data-md-scrollfix>
-
-
-
-
-
-
-
-
-
- <li class="md-nav__item md-nav__item--active">
-
- <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
-
-
-
- <label class="md-nav__link md-nav__link--active" for="__toc">
-
-
-
- <span class="md-ellipsis">
-
-
- Introdução
-
-
- </span>
-
-
- <span class="md-nav__icon md-icon"></span>
- </label>
-
- <a href="./" class="md-nav__link md-nav__link--active">
-
-
-
- <span class="md-ellipsis">
-
-
- Introdução
-
-
- </span>
-
-
- </a>
-
-
- <nav class="md-nav md-nav--secondary" aria-label="Índice">
-
-
-
-
- <label class="md-nav__title" for="__toc">
- <span class="md-nav__icon md-icon"></span>
- Índice
- </label>
- <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
-
- <li class="md-nav__item">
- <a href="#inicio-rapido" class="md-nav__link">
- <span class="md-ellipsis">
-
- Início Rápido
-
- </span>
- </a>
-
- <nav class="md-nav" aria-label="Início Rápido">
- <ul class="md-nav__list">
-
- <li class="md-nav__item">
- <a href="#comece-pela-documentacao" class="md-nav__link">
- <span class="md-ellipsis">
-
- Comece pela documentação
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#guia-para-agentes-llm" class="md-nav__link">
- <span class="md-ellipsis">
-
- Guia para agentes LLM
-
- </span>
- </a>
-
- </li>
-
- </ul>
- </nav>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#fish-audio-s2" class="md-nav__link">
- <span class="md-ellipsis">
-
- Fish Audio S2
-
- </span>
- </a>
-
- <nav class="md-nav" aria-label="Fish Audio S2">
- <ul class="md-nav__list">
-
- <li class="md-nav__item">
- <a href="#variantes-do-modelo" class="md-nav__link">
- <span class="md-ellipsis">
-
- Variantes do Modelo
-
- </span>
- </a>
-
- </li>
-
- </ul>
- </nav>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#resultados-de-benchmark" class="md-nav__link">
- <span class="md-ellipsis">
-
- Resultados de Benchmark
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#destaques" class="md-nav__link">
- <span class="md-ellipsis">
-
- Destaques
-
- </span>
- </a>
-
- <nav class="md-nav" aria-label="Destaques">
- <ul class="md-nav__list">
-
- <li class="md-nav__item">
- <a href="#controle-inline-refinado-via-linguagem-natural" class="md-nav__link">
- <span class="md-ellipsis">
-
- Controle Inline Refinado via Linguagem Natural
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#arquitetura-dual-autoregressive" class="md-nav__link">
- <span class="md-ellipsis">
-
- Arquitetura Dual-Autoregressive
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#alinhamento-por-reforco" class="md-nav__link">
- <span class="md-ellipsis">
-
- Alinhamento por Reforço
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#streaming-em-producao-com-sglang" class="md-nav__link">
- <span class="md-ellipsis">
-
- Streaming em Produção com SGLang
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#suporte-multilingue" class="md-nav__link">
- <span class="md-ellipsis">
-
- Suporte Multilíngue
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#geracao-nativa-de-multiplos-falantes" class="md-nav__link">
- <span class="md-ellipsis">
-
- Geração Nativa de Múltiplos Falantes
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#geracao-de-multiplos-turnos" class="md-nav__link">
- <span class="md-ellipsis">
-
- Geração de Múltiplos Turnos
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#clonagem-de-voz-rapida" class="md-nav__link">
- <span class="md-ellipsis">
-
- Clonagem de Voz Rápida
-
- </span>
- </a>
-
- </li>
-
- </ul>
- </nav>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#creditos" class="md-nav__link">
- <span class="md-ellipsis">
-
- Créditos
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#relatorio-tecnico" class="md-nav__link">
- <span class="md-ellipsis">
-
- Relatório Técnico
-
- </span>
- </a>
-
- </li>
-
- </ul>
-
- </nav>
-
- </li>
-
-
-
-
-
-
-
-
- <li class="md-nav__item">
- <a href="install/" class="md-nav__link">
-
-
-
- <span class="md-ellipsis">
-
-
- Instalação
-
-
- </span>
-
-
- </a>
- </li>
-
-
-
-
-
-
-
-
- <li class="md-nav__item">
- <a href="finetune/" class="md-nav__link">
-
-
-
- <span class="md-ellipsis">
-
-
- Ajuste Fino
-
-
- </span>
-
-
- </a>
- </li>
-
-
-
-
-
-
-
-
- <li class="md-nav__item">
- <a href="inference/" class="md-nav__link">
-
-
-
- <span class="md-ellipsis">
-
-
- Inferência
-
-
- </span>
-
-
- </a>
- </li>
-
-
-
-
-
-
-
-
- <li class="md-nav__item">
- <a href="samples.md" class="md-nav__link">
-
-
-
- <span class="md-ellipsis">
-
-
- Amostras
-
-
- </span>
-
-
- </a>
- </li>
-
-
- </ul>
- </nav>
- </div>
- </div>
- </div>
-
-
-
- <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
- <div class="md-sidebar__scrollwrap">
- <div class="md-sidebar__inner">
-
- <nav class="md-nav md-nav--secondary" aria-label="Índice">
-
-
-
-
- <label class="md-nav__title" for="__toc">
- <span class="md-nav__icon md-icon"></span>
- Índice
- </label>
- <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
-
- <li class="md-nav__item">
- <a href="#inicio-rapido" class="md-nav__link">
- <span class="md-ellipsis">
-
- Início Rápido
-
- </span>
- </a>
-
- <nav class="md-nav" aria-label="Início Rápido">
- <ul class="md-nav__list">
-
- <li class="md-nav__item">
- <a href="#comece-pela-documentacao" class="md-nav__link">
- <span class="md-ellipsis">
-
- Comece pela documentação
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#guia-para-agentes-llm" class="md-nav__link">
- <span class="md-ellipsis">
-
- Guia para agentes LLM
-
- </span>
- </a>
-
- </li>
-
- </ul>
- </nav>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#fish-audio-s2" class="md-nav__link">
- <span class="md-ellipsis">
-
- Fish Audio S2
-
- </span>
- </a>
-
- <nav class="md-nav" aria-label="Fish Audio S2">
- <ul class="md-nav__list">
-
- <li class="md-nav__item">
- <a href="#variantes-do-modelo" class="md-nav__link">
- <span class="md-ellipsis">
-
- Variantes do Modelo
-
- </span>
- </a>
-
- </li>
-
- </ul>
- </nav>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#resultados-de-benchmark" class="md-nav__link">
- <span class="md-ellipsis">
-
- Resultados de Benchmark
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#destaques" class="md-nav__link">
- <span class="md-ellipsis">
-
- Destaques
-
- </span>
- </a>
-
- <nav class="md-nav" aria-label="Destaques">
- <ul class="md-nav__list">
-
- <li class="md-nav__item">
- <a href="#controle-inline-refinado-via-linguagem-natural" class="md-nav__link">
- <span class="md-ellipsis">
-
- Controle Inline Refinado via Linguagem Natural
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#arquitetura-dual-autoregressive" class="md-nav__link">
- <span class="md-ellipsis">
-
- Arquitetura Dual-Autoregressive
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#alinhamento-por-reforco" class="md-nav__link">
- <span class="md-ellipsis">
-
- Alinhamento por Reforço
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#streaming-em-producao-com-sglang" class="md-nav__link">
- <span class="md-ellipsis">
-
- Streaming em Produção com SGLang
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#suporte-multilingue" class="md-nav__link">
- <span class="md-ellipsis">
-
- Suporte Multilíngue
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#geracao-nativa-de-multiplos-falantes" class="md-nav__link">
- <span class="md-ellipsis">
-
- Geração Nativa de Múltiplos Falantes
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#geracao-de-multiplos-turnos" class="md-nav__link">
- <span class="md-ellipsis">
-
- Geração de Múltiplos Turnos
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#clonagem-de-voz-rapida" class="md-nav__link">
- <span class="md-ellipsis">
-
- Clonagem de Voz Rápida
-
- </span>
- </a>
-
- </li>
-
- </ul>
- </nav>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#creditos" class="md-nav__link">
- <span class="md-ellipsis">
-
- Créditos
-
- </span>
- </a>
-
- </li>
-
- <li class="md-nav__item">
- <a href="#relatorio-tecnico" class="md-nav__link">
- <span class="md-ellipsis">
-
- Relatório Técnico
-
- </span>
- </a>
-
- </li>
-
- </ul>
-
- </nav>
- </div>
- </div>
- </div>
-
-
-
- <div class="md-content" data-md-component="content">
-
- <article class="md-content__inner md-typeset">
-
-
-
- <a href="https://github.com/fishaudio/fish-speech/blob/main/docs/pt/index.md" title="Editar esta página" class="md-content__button md-icon" rel="edit">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M10 20H6V4h7v5h5v3.1l2-2V8l-6-6H6c-1.1 0-2 .9-2 2v16c0 1.1.9 2 2 2h4zm10.2-7c.1 0 .3.1.4.2l1.3 1.3c.2.2.2.6 0 .8l-1 1-2.1-2.1 1-1c.1-.1.2-.2.4-.2m0 3.9L14.1 23H12v-2.1l6.1-6.1z"/></svg>
- </a>
-
-
-
-
-
- <a href="https://github.com/fishaudio/fish-speech/raw/main/docs/pt/index.md" title="Ver fonte desta página" class="md-content__button md-icon">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M17 18c.56 0 1 .44 1 1s-.44 1-1 1-1-.44-1-1 .44-1 1-1m0-3c-2.73 0-5.06 1.66-6 4 .94 2.34 3.27 4 6 4s5.06-1.66 6-4c-.94-2.34-3.27-4-6-4m0 6.5a2.5 2.5 0 0 1-2.5-2.5 2.5 2.5 0 0 1 2.5-2.5 2.5 2.5 0 0 1 2.5 2.5 2.5 2.5 0 0 1-2.5 2.5M9.27 20H6V4h7v5h5v4.07c.7.08 1.36.25 2 .49V8l-6-6H6a2 2 0 0 0-2 2v16a2 2 0 0 0 2 2h4.5a8.2 8.2 0 0 1-1.23-2"/></svg>
- </a>
-
- <div align="center">
- <h1>Fish Speech</h1>
- <p><a href="../en/">English</a> | <a href="../zh/">简体中文</a> | <strong>Portuguese</strong> | <a href="../ja/">日本語</a> | <a href="../ko/">한국어</a> | <a href="../ar/">العربية</a> | <a href="../es/">Español</a></p>
- <a href="https://www.producthunt.com/products/fish-speech?embed=true&utm_source=badge-top-post-badge&utm_medium=badge&utm_source=badge-fish-audio-s1" target="_blank"><img src="https://api.producthunt.com/widgets/embed-image/v1/top-post-badge.svg?post_id=1023740&theme=light&period=daily&t=1761164814710" alt="Fish Audio S1 - Expressive Voice Cloning and Text-to-Speech | Product Hunt" style="width: 250px; height: 54px;" width="250" height="54" /></a>
- <a href="https://trendshift.io/repositories/7014" target="_blank">
- <img src="https://trendshift.io/api/badge/repositories/7014" alt="fishaudio%2Ffish-speech | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/>
- </a>
- </div>
- <p><br></p>
- <div align="center">
- <img src="https://count.getloli.com/get/@fish-speech?theme=asoul" /><br>
- </div>
- <p><br></p>
- <div align="center">
- <a target="_blank" href="https://discord.gg/Es5qTB9BcN">
- <img alt="Discord" src="https://img.shields.io/discord/1214047546020728892?color=%23738ADB&label=Discord&logo=discord&logoColor=white&style=flat-square"/>
- </a>
- <a target="_blank" href="https://hub.docker.com/r/fishaudio/fish-speech">
- <img alt="Docker" src="https://img.shields.io/docker/pulls/fishaudio/fish-speech?style=flat-square&logo=docker"/>
- </a>
- <a target="_blank" href="https://pd.qq.com/s/bwxia254o">
- <img alt="QQ Channel" src="https://img.shields.io/badge/QQ-blue?logo=tencentqq">
- </a>
- </div>
- <div align="center">
- <a target="_blank" href="https://huggingface.co/fishaudio/s2">
- <img alt="HuggingFace Model" src="https://img.shields.io/badge/🤗%20-models-orange"/>
- </a>
- <a target="_blank" href="https://fish.audio/blog/fish-audio-open-sources-s2/">
- <img alt="Fish Audio Blog" src="https://img.shields.io/badge/Blog-Fish_Audio_S2-1f7a8c?style=flat-square&logo=readme&logoColor=white"/>
- </a>
- <a target="_blank" href="https://arxiv.org/abs/2603.08823">
- <img alt="Paper | Technical Report" src="https://img.shields.io/badge/Paper-Technical_Report-b31b1b?style=flat-square"/>
- </a>
- </div>
- <div class="admonition info">
- <p class="admonition-title">Aviso de Licença</p>
- <p>Este repositório e todos os pesos de modelo associados são lançados sob a <strong>FISH AUDIO RESEARCH LICENSE</strong>. Consulte <a href="https://github.com/fishaudio/fish-speech/blob/main/LICENSE">LICENSE</a> para mais detalhes.</p>
- </div>
- <div class="admonition warning">
- <p class="admonition-title">Isenção de Responsabilidade Legal</p>
- <p>Não nos responsabilizamos por qualquer uso ilegal da base de códigos. Consulte as regulamentações locais sobre DMCA e outras leis relacionadas.</p>
- </div>
- <h2 id="inicio-rapido">Início Rápido</h2>
- <h3 id="comece-pela-documentacao">Comece pela documentação</h3>
- <p>Esta é a documentação oficial do Fish Audio S2. Você pode começar por aqui:</p>
- <ul>
- <li><a href="https://speech.fish.audio/pt/install/">Instalação</a></li>
- <li><a href="https://speech.fish.audio/pt/inference/">Inferência por Linha de Comando</a></li>
- <li><a href="https://speech.fish.audio/pt/inference/">Inferência WebUI</a></li>
- <li><a href="https://speech.fish.audio/pt/server/">Inferência via Servidor</a></li>
- <li><a href="https://speech.fish.audio/pt/install/">Configuração Docker</a></li>
- </ul>
- <blockquote>
- <p>[!IMPORTANT]
- <strong>Para servidor com SGLang, consulte o <a href="https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md">SGLang-Omni README</a>.</strong></p>
- </blockquote>
- <h3 id="guia-para-agentes-llm">Guia para agentes LLM</h3>
- <div class="language-text highlight"><pre><span></span><code><span id="__span-0-1"><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a>Instale e configure o Fish Audio S2 seguindo as instruções em https://speech.fish.audio/pt/install/ .
- </span></code></pre></div>
- <h2 id="fish-audio-s2">Fish Audio S2</h2>
- <p><strong>O melhor sistema de conversão de texto em fala entre código aberto e código fechado</strong></p>
- <p>O Fish Audio S2 é o modelo mais recente da <a href="https://fish.audio/">Fish Audio</a>. Treinado com mais de 10 milhões de horas de áudio em cerca de 50 idiomas, o S2 combina alinhamento por reforço com uma arquitetura Dual-Autoregressive para gerar fala natural, realista e emocionalmente expressiva.</p>
- <p>O S2 permite controle fino de prosódia e emoção dentro da própria frase com tags em linguagem natural, como <code>[laugh]</code>, <code>[whispers]</code> e <code>[super happy]</code>, além de oferecer suporte nativo a múltiplos falantes e múltiplos turnos.</p>
- <p>AcesVisite o <a href="https://fish.audio/">site da Fish Audio</a> para demonstrações ao vivo. Leia a <a href="https://fish.audio/blog/fish-audio-open-sources-s2/">postagem no blog</a> e o <a href="https://arxiv.org/abs/2603.08823">relatório técnico</a> para mais detalhes.</p>
- <h3 id="variantes-do-modelo">Variantes do Modelo</h3>
- <table>
- <thead>
- <tr>
- <th>Modelo</th>
- <th>Tamanho</th>
- <th>Disponibilidade</th>
- <th>Descrição</th>
- </tr>
- </thead>
- <tbody>
- <tr>
- <td>S2-Pro</td>
- <td>4B parâmetros</td>
- <td><a href="https://huggingface.co/fishaudio/s2-pro">HuggingFace</a></td>
- <td>Modelo carro-chefe completo com máxima qualidade e estabilidade</td>
- </tr>
- </tbody>
- </table>
- <p>Mais detalhes podem ser encontrados no <a href="https://arxiv.org/abs/2411.01156">relatório técnico</a>.</p>
- <h2 id="resultados-de-benchmark">Resultados de Benchmark</h2>
- <table>
- <thead>
- <tr>
- <th>Benchmark</th>
- <th>Fish Audio S2</th>
- </tr>
- </thead>
- <tbody>
- <tr>
- <td>Seed-TTS Eval — WER (Chinês)</td>
- <td><strong>0.54%</strong> (melhor geral)</td>
- </tr>
- <tr>
- <td>Seed-TTS Eval — WER (Inglês)</td>
- <td><strong>0.99%</strong> (melhor geral)</td>
- </tr>
- <tr>
- <td>Audio Turing Test (com instrução)</td>
- <td><strong>0.515</strong> média a posteriori</td>
- </tr>
- <tr>
- <td>EmergentTTS-Eval — Taxa de vitória</td>
- <td><strong>81.88%</strong> (maior geral)</td>
- </tr>
- <tr>
- <td>Fish Instruction Benchmark — TAR</td>
- <td><strong>93.3%</strong></td>
- </tr>
- <tr>
- <td>Fish Instruction Benchmark — Qualidade</td>
- <td><strong>4.51 / 5.0</strong></td>
- </tr>
- <tr>
- <td>Multilíngue (MiniMax Testset) — Melhor WER</td>
- <td><strong>11 de 24</strong> idiomas</td>
- </tr>
- <tr>
- <td>Multilíngue (MiniMax Testset) — Melhor SIM</td>
- <td><strong>17 de 24</strong> idiomas</td>
- </tr>
- </tbody>
- </table>
- <p>No Seed-TTS Eval, o S2 obteve o menor WER entre todos os modelos avaliados, incluindo sistemas fechados: Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90) e Seed-TTS (1.12/2.25). No Audio Turing Test, o valor 0.515 supera o Seed-TTS (0.417) em 24% e o MiniMax-Speech (0.387) em 33%. No EmergentTTS-Eval, o S2 se destacou especialmente em paralinguística (91.61%), perguntas (84.41%) e complexidade sintática (83.39%).</p>
- <h2 id="destaques">Destaques</h2>
- <p><img src="../assets/totalability.png" width=200%></p>
- <h3 id="controle-inline-refinado-via-linguagem-natural">Controle Inline Refinado via Linguagem Natural</h3>
- <p>O Fish Audio S2 permite controle localizado da geração de fala ao incorporar instruções em linguagem natural diretamente em posições específicas de palavras ou frases no texto. Em vez de depender de um conjunto fixo de tags predefinidas, o S2 aceita descrições textuais livres, como [whisper in small voice], [professional broadcast tone] ou [pitch up], permitindo controle de expressão aberto no nível da palavra.</p>
- <h3 id="arquitetura-dual-autoregressive">Arquitetura Dual-Autoregressive</h3>
- <p>O S2 é baseado em um transformer apenas decodificador, combinado com um codec de áudio RVQ (10 codebooks, ~21 Hz de taxa de quadros). A arquitetura Dual-AR divide a geração em duas etapas:</p>
- <ul>
- <li><strong>Slow AR</strong> opera no eixo temporal e prevê o codebook semântico principal.</li>
- <li><strong>Fast AR</strong> gera os 9 codebooks residuais restantes em cada passo de tempo, reconstruindo detalhes acústicos finos.</li>
- </ul>
- <p>Esse desenho assimétrico (4B parâmetros no eixo temporal e 400M no eixo de profundidade) mantém a inferência eficiente sem sacrificar fidelidade de áudio.</p>
- <h3 id="alinhamento-por-reforco">Alinhamento por Reforço</h3>
- <p>O S2 usa Group Relative Policy Optimization (GRPO) no pós-treinamento. Os mesmos modelos usados para filtrar e anotar dados de treino são reutilizados diretamente como modelos de recompensa no RL, eliminando o desalinhamento de distribuição entre os dados de pré-treinamento e os objetivos de pós-treinamento. O sinal de recompensa combina precisão semântica, aderência à instrução, preferência acústica e similaridade de timbre.</p>
- <h3 id="streaming-em-producao-com-sglang">Streaming em Produção com SGLang</h3>
- <p>Como a arquitetura Dual-AR é estruturalmente isomórfica a LLMs autoregressivos padrão, o S2 herda diretamente as otimizações nativas de serving do SGLang, incluindo continuous batching, paged KV cache, CUDA graph replay e prefix caching com RadixAttention.</p>
- <p>Em uma única NVIDIA H200:</p>
- <ul>
- <li><strong>RTF (Real-Time Factor):</strong> 0.195</li>
- <li><strong>Tempo até o primeiro áudio:</strong> ~100 ms</li>
- <li><strong>Throughput:</strong> mais de 3.000 acoustic tokens/s mantendo RTF abaixo de 0.5</li>
- </ul>
- <h3 id="suporte-multilingue">Suporte Multilíngue</h3>
- <p>O Fish Audio S2 oferece suporte a conversão de texto em fala multilíngue de alta qualidade sem a necessidade de fonemas ou processamento específico de idioma. Incluindo:</p>
- <p><strong>Inglês, Chinês, Japonês, Coreano, Árabe, Alemão, Francês...</strong></p>
- <p><strong>E MUITO MAIS!</strong></p>
- <p>A lista está em constante expansão, verifique o <a href="https://fish.audio/">Fish Audio</a> para os lançamentos mais recentes.</p>
- <h3 id="geracao-nativa-de-multiplos-falantes">Geração Nativa de Múltiplos Falantes</h3>
- <p><img src="../assets/chattemplate.png" width=200%></p>
- <p>O Fish Audio S2 permite enviar um áudio de referência com vários falantes; o modelo processa as características de cada voz por meio do token <code><|speaker:i|></code>. Depois, você controla o comportamento do modelo com o token de ID do falante, permitindo incluir várias vozes em uma única geração. Assim, não é mais necessário subir um áudio de referência separado para cada falante.</p>
- <h3 id="geracao-de-multiplos-turnos">Geração de Múltiplos Turnos</h3>
- <p>Graças à extensão do contexto do modelo, nosso modelo agora pode usar informações anteriores para melhorar a expressividade e a naturalidade dos conteúdos gerados subsequentemente.</p>
- <h3 id="clonagem-de-voz-rapida">Clonagem de Voz Rápida</h3>
- <p>O Fish Audio S2 suporta clonagem de voz precisa usando uma pequena amostra de referência (tipicamente de 10 a 30 segundos). O modelo captura o timbre, o estilo de fala e as tendências emocionais, produzindo vozes clonadas realistas e consistentes sem ajuste fino adicional.
- Para usar o servidor SGLang, consulte <a href="https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md">SGLang-Omni README</a> .</p>
- <hr />
- <h2 id="creditos">Créditos</h2>
- <ul>
- <li><a href="https://github.com/daniilrobnikov/vits2">VITS2 (daniilrobnikov)</a></li>
- <li><a href="https://github.com/fishaudio/Bert-VITS2">Bert-VITS2</a></li>
- <li><a href="https://github.com/innnky/gpt-vits">GPT VITS</a></li>
- <li><a href="https://github.com/b04901014/MQTTS">MQTTS</a></li>
- <li><a href="https://github.com/pytorch-labs/gpt-fast">GPT Fast</a></li>
- <li><a href="https://github.com/RVC-Boss/GPT-SoVITS">GPT-SoVITS</a></li>
- <li><a href="https://github.com/QwenLM/Qwen3">Qwen3</a></li>
- </ul>
- <h2 id="relatorio-tecnico">Relatório Técnico</h2>
- <div class="language-bibtex highlight"><pre><span></span><code><span id="__span-1-1"><a id="__codelineno-1-1" name="__codelineno-1-1" href="#__codelineno-1-1"></a><span class="nc">@misc</span><span class="p">{</span><span class="nl">fish-speech-v1.4</span><span class="p">,</span>
- </span><span id="__span-1-2"><a id="__codelineno-1-2" name="__codelineno-1-2" href="#__codelineno-1-2"></a><span class="w"> </span><span class="na">title</span><span class="p">=</span><span class="s">{Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis}</span><span class="p">,</span>
- </span><span id="__span-1-3"><a id="__codelineno-1-3" name="__codelineno-1-3" href="#__codelineno-1-3"></a><span class="w"> </span><span class="na">author</span><span class="p">=</span><span class="s">{Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing}</span><span class="p">,</span>
- </span><span id="__span-1-4"><a id="__codelineno-1-4" name="__codelineno-1-4" href="#__codelineno-1-4"></a><span class="w"> </span><span class="na">year</span><span class="p">=</span><span class="s">{2024}</span><span class="p">,</span>
- </span><span id="__span-1-5"><a id="__codelineno-1-5" name="__codelineno-1-5" href="#__codelineno-1-5"></a><span class="w"> </span><span class="na">eprint</span><span class="p">=</span><span class="s">{2411.01156}</span><span class="p">,</span>
- </span><span id="__span-1-6"><a id="__codelineno-1-6" name="__codelineno-1-6" href="#__codelineno-1-6"></a><span class="w"> </span><span class="na">archivePrefix</span><span class="p">=</span><span class="s">{arXiv}</span><span class="p">,</span>
- </span><span id="__span-1-7"><a id="__codelineno-1-7" name="__codelineno-1-7" href="#__codelineno-1-7"></a><span class="w"> </span><span class="na">primaryClass</span><span class="p">=</span><span class="s">{cs.SD}</span><span class="p">,</span>
- </span><span id="__span-1-8"><a id="__codelineno-1-8" name="__codelineno-1-8" href="#__codelineno-1-8"></a><span class="w"> </span><span class="na">url</span><span class="p">=</span><span class="s">{https://arxiv.org/abs/2411.01156}</span><span class="p">,</span>
- </span><span id="__span-1-9"><a id="__codelineno-1-9" name="__codelineno-1-9" href="#__codelineno-1-9"></a><span class="p">}</span>
- </span><span id="__span-1-10"><a id="__codelineno-1-10" name="__codelineno-1-10" href="#__codelineno-1-10"></a>
- </span><span id="__span-1-11"><a id="__codelineno-1-11" name="__codelineno-1-11" href="#__codelineno-1-11"></a><span class="nc">@misc</span><span class="p">{</span><span class="nl">liao2026fishaudios2technical</span><span class="p">,</span>
- </span><span id="__span-1-12"><a id="__codelineno-1-12" name="__codelineno-1-12" href="#__codelineno-1-12"></a><span class="w"> </span><span class="na">title</span><span class="p">=</span><span class="s">{Fish Audio S2 Technical Report}</span><span class="p">,</span><span class="w"> </span>
- </span><span id="__span-1-13"><a id="__codelineno-1-13" name="__codelineno-1-13" href="#__codelineno-1-13"></a><span class="w"> </span><span class="na">author</span><span class="p">=</span><span class="s">{Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han}</span><span class="p">,</span>
- </span><span id="__span-1-14"><a id="__codelineno-1-14" name="__codelineno-1-14" href="#__codelineno-1-14"></a><span class="w"> </span><span class="na">year</span><span class="p">=</span><span class="s">{2026}</span><span class="p">,</span>
- </span><span id="__span-1-15"><a id="__codelineno-1-15" name="__codelineno-1-15" href="#__codelineno-1-15"></a><span class="w"> </span><span class="na">eprint</span><span class="p">=</span><span class="s">{2603.08823}</span><span class="p">,</span>
- </span><span id="__span-1-16"><a id="__codelineno-1-16" name="__codelineno-1-16" href="#__codelineno-1-16"></a><span class="w"> </span><span class="na">archivePrefix</span><span class="p">=</span><span class="s">{arXiv}</span><span class="p">,</span>
- </span><span id="__span-1-17"><a id="__codelineno-1-17" name="__codelineno-1-17" href="#__codelineno-1-17"></a><span class="w"> </span><span class="na">primaryClass</span><span class="p">=</span><span class="s">{cs.SD}</span><span class="p">,</span>
- </span><span id="__span-1-18"><a id="__codelineno-1-18" name="__codelineno-1-18" href="#__codelineno-1-18"></a><span class="w"> </span><span class="na">url</span><span class="p">=</span><span class="s">{https://arxiv.org/abs/2603.08823}</span><span class="p">,</span><span class="w"> </span>
- </span><span id="__span-1-19"><a id="__codelineno-1-19" name="__codelineno-1-19" href="#__codelineno-1-19"></a><span class="p">}</span>
- </span></code></pre></div>
-
- </article>
- </div>
-
-
- <script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
- </div>
-
- </main>
-
- <footer class="md-footer">
-
-
-
- <nav class="md-footer__inner md-grid" aria-label="Rodapé" >
-
-
-
- <a href="install/" class="md-footer__link md-footer__link--next" aria-label="Próximo: Instalação">
- <div class="md-footer__title">
- <span class="md-footer__direction">
- Próximo
- </span>
- <div class="md-ellipsis">
- Instalação
- </div>
- </div>
- <div class="md-footer__button md-icon">
-
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M4 11v2h12l-5.5 5.5 1.42 1.42L19.84 12l-7.92-7.92L10.5 5.5 16 11z"/></svg>
- </div>
- </a>
-
- </nav>
-
-
- <div class="md-footer-meta md-typeset">
- <div class="md-footer-meta__inner md-grid">
- <div class="md-copyright">
-
- <div class="md-copyright__highlight">
- Copyright © 2023-2025 by Fish Audio
- </div>
-
-
- Made with
- <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
- Material for MkDocs
- </a>
-
- </div>
-
-
- <div class="md-social">
-
-
-
-
-
-
-
-
- <a href="https://discord.gg/Es5qTB9BcN" target="_blank" rel="noopener" title="discord.gg" class="md-social__link">
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 576 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M492.5 69.8c-.2-.3-.4-.6-.8-.7-38.1-17.5-78.4-30-119.7-37.1-.4-.1-.8 0-1.1.1s-.6.4-.8.8c-5.5 9.9-10.5 20.2-14.9 30.6-44.6-6.8-89.9-6.8-134.4 0-4.5-10.5-9.5-20.7-15.1-30.6-.2-.3-.5-.6-.8-.8s-.7-.2-1.1-.2C162.5 39 122.2 51.5 84.1 69c-.3.1-.6.4-.8.7C7.1 183.5-13.8 294.6-3.6 404.2c0 .3.1.5.2.8s.3.4.5.6c44.4 32.9 94 58 146.8 74.2.4.1.8.1 1.1 0s.7-.4.9-.7c11.3-15.4 21.4-31.8 30-48.8.1-.2.2-.5.2-.8s0-.5-.1-.8-.2-.5-.4-.6-.4-.3-.7-.4c-15.8-6.1-31.2-13.4-45.9-21.9-.3-.2-.5-.4-.7-.6s-.3-.6-.3-.9 0-.6.2-.9.3-.5.6-.7c3.1-2.3 6.2-4.7 9.1-7.1.3-.2.6-.4.9-.4s.7 0 1 .1c96.2 43.9 200.4 43.9 295.5 0 .3-.1.7-.2 1-.2s.7.2.9.4c2.9 2.4 6 4.9 9.1 7.2.2.2.4.4.6.7s.2.6.2.9-.1.6-.3.9-.4.5-.6.6c-14.7 8.6-30 15.9-45.9 21.8-.2.1-.5.2-.7.4s-.3.4-.4.7-.1.5-.1.8.1.5.2.8c8.8 17 18.8 33.3 30 48.8.2.3.6.6.9.7s.8.1 1.1 0c52.9-16.2 102.6-41.3 147.1-74.2.2-.2.4-.4.5-.6s.2-.5.2-.8c12.3-126.8-20.5-236.9-86.9-334.5zm-302 267.7c-29 0-52.8-26.6-52.8-59.2s23.4-59.2 52.8-59.2c29.7 0 53.3 26.8 52.8 59.2 0 32.7-23.4 59.2-52.8 59.2m195.4 0c-29 0-52.8-26.6-52.8-59.2s23.4-59.2 52.8-59.2c29.7 0 53.3 26.8 52.8 59.2 0 32.7-23.2 59.2-52.8 59.2"/></svg>
- </a>
-
-
-
-
-
-
-
-
- <a href="https://hub.docker.com/r/fishaudio/fish-speech" target="_blank" rel="noopener" title="hub.docker.com" class="md-social__link">
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 640 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M349.9 236.3h-66.1v-59.4h66.1zm0-204.3h-66.1v60.7h66.1zm78.2 144.8H362v59.4h66.1zm-156.3-72.1h-66.1v60.1h66.1zm78.1 0h-66.1v60.1h66.1zm276.8 100c-14.4-9.7-47.6-13.2-73.1-8.4-3.3-24-16.7-44.9-41.1-63.7l-14-9.3-9.3 14c-18.4 27.8-23.4 73.6-3.7 103.8-8.7 4.7-25.8 11.1-48.4 10.7H2.4c-8.7 50.8 5.8 116.8 44 162.1 37.1 43.9 92.7 66.2 165.4 66.2 157.4 0 273.9-72.5 328.4-204.2 21.4.4 67.6.1 91.3-45.2 1.5-2.5 6.6-13.2 8.5-17.1zm-511.1-27.9h-66v59.4h66.1v-59.4zm78.1 0h-66.1v59.4h66.1zm78.1 0h-66.1v59.4h66.1zm-78.1-72.1h-66.1v60.1h66.1z"/></svg>
- </a>
-
-
-
-
-
-
-
-
- <a href="http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=jCKlUP7QgSm9kh95UlBoYv6s1I-Apl1M&authKey=xI5ttVAp3do68IpEYEalwXSYZFdfxZSkah%2BctF5FIMyN2NqAa003vFtLqJyAVRfF&noverify=0&group_code=593946093" target="_blank" rel="noopener" title="qm.qq.com" class="md-social__link">
- <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M434.1 420.4c-11.5 1.4-44.9-52.7-44.9-52.7 0 31.3-16.1 72.2-51 101.8 16.8 5.2 54.8 19.2 45.8 34.4-7.3 12.3-125.5 7.9-159.6 4-34.1 3.8-152.3 8.3-159.6-4-9-15.2 28.9-29.2 45.8-34.4-34.9-29.5-51.1-70.4-51.1-101.8 0 0-33.3 54.1-44.9 52.7-5.4-.6-12.4-29.6 9.3-99.7 10.3-33 22-60.5 40.1-105.8C60.9 98 109.2-.1 224.3-.1 338-.1 387.5 96 384.6 214.9c18.1 45.2 29.9 72.9 40.1 105.8 21.8 70.1 14.7 99.1 9.3 99.7z"/></svg>
- </a>
-
- </div>
-
- </div>
- </div>
- </footer>
-
- </div>
- <div class="md-dialog" data-md-component="dialog">
- <div class="md-dialog__inner md-typeset"></div>
- </div>
-
-
-
-
-
- <script id="__config" type="application/json">{"annotate": null, "base": "..", "features": ["content.action.edit", "content.action.view", "navigation.tracking", "navigation.footer", "search", "search.suggest", "search.highlight", "search.share", "content.code.copy"], "search": "../assets/javascripts/workers/search.2c215733.min.js", "tags": null, "translations": {"clipboard.copied": "Copiado para \u00e1rea de transfer\u00eancia", "clipboard.copy": "Copiar para \u00e1rea de transfer\u00eancia", "search.result.more.one": "Mais 1 nesta p\u00e1gina", "search.result.more.other": "Mais # nesta p\u00e1gina", "search.result.none": "Nenhum resultado encontrado", "search.result.one": "1 resultado encontrado", "search.result.other": "# resultados encontrados", "search.result.placeholder": "Digite para iniciar a busca", "search.result.term.missing": "Ausente", "select.version": "Selecione a vers\u00e3o"}, "version": null}</script>
-
-
- <script src="../assets/javascripts/bundle.79ae519e.min.js"></script>
-
-
- </body>
- </html>
|