index.html 46 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171181191201211221231241251261271281291301311321331341351361371381391401411421431441451461471481491501511521531541551561571581591601611621631641651661671681691701711721731741751761771781791801811821831841851861871881891901911921931941951961971981992002012022032042052062072082092102112122132142152162172182192202212222232242252262272282292302312322332342352362372382392402412422432442452462472482492502512522532542552562572582592602612622632642652662672682692702712722732742752762772782792802812822832842852862872882892902912922932942952962972982993003013023033043053063073083093103113123133143153163173183193203213223233243253263273283293303313323333343353363373383393403413423433443453463473483493503513523533543553563573583593603613623633643653663673683693703713723733743753763773783793803813823833843853863873883893903913923933943953963973983994004014024034044054064074084094104114124134144154164174184194204214224234244254264274284294304314324334344354364374384394404414424434444454464474484494504514524534544554564574584594604614624634644654664674684694704714724734744754764774784794804814824834844854864874884894904914924934944954964974984995005015025035045055065075085095105115125135145155165175185195205215225235245255265275285295305315325335345355365375385395405415425435445455465475485495505515525535545555565575585595605615625635645655665675685695705715725735745755765775785795805815825835845855865875885895905915925935945955965975985996006016026036046056066076086096106116126136146156166176186196206216226236246256266276286296306316326336346356366376386396406416426436446456466476486496506516526536546556566576586596606616626636646656666676686696706716726736746756766776786796806816826836846856866876886896906916926936946956966976986997007017027037047057067077087097107117127137147157167177187197207217227237247257267277287297307317327337347357367377387397407417427437447457467477487497507517527537547557567577587597607617627637647657667677687697707717727737747757767777787797807817827837847857867877887897907917927937947957967977987998008018028038048058068078088098108118128138148158168178188198208218228238248258268278288298308318328338348358368378388398408418428438448458468478488498508518528538548558568578588598608618628638648658668678688698708718728738748758768778788798808818828838848858868878888898908918928938948958968978988999009019029039049059069079089099109119129139149159169179189199209219229239249259269279289299309319329339349359369379389399409419429439449459469479489499509519529539549559569579589599609619629639649659669679689699709719729739749759769779789799809819829839849859869879889899909919929939949959969979989991000100110021003100410051006100710081009101010111012101310141015101610171018101910201021102210231024102510261027102810291030103110321033
  1. <!doctype html>
  2. <html lang="ja" class="no-js">
  3. <head>
  4. <meta charset="utf-8">
  5. <meta name="viewport" content="width=device-width,initial-scale=1">
  6. <meta name="description" content="Targeting SOTA TTS solutions.">
  7. <link rel="canonical" href="https://speech.fish.audio/ja/README.ja/">
  8. <link rel="alternate" href="../../README.ja/" hreflang="en">
  9. <link rel="alternate" href="../../zh/README.ja/" hreflang="zh">
  10. <link rel="alternate" href="./" hreflang="ja">
  11. <link rel="alternate" href="../../pt/README.ja/" hreflang="pt">
  12. <link rel="alternate" href="../../ko/README.ja/" hreflang="ko">
  13. <link rel="alternate" href="../../ar/README.ja/" hreflang="ar">
  14. <link rel="icon" href="../../assets/logo.svg">
  15. <meta name="generator" content="mkdocs-1.6.1, mkdocs-material-9.7.1">
  16. <title>README.ja - Fish Audio</title>
  17. <link rel="stylesheet" href="../../assets/stylesheets/main.484c7ddc.min.css">
  18. <link rel="stylesheet" href="../../assets/stylesheets/palette.ab4e12ef.min.css">
  19. <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
  20. <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
  21. <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
  22. <link rel="stylesheet" href="../../stylesheets/extra.css">
  23. <script>__md_scope=new URL("../..",location),__md_hash=e=>[...e].reduce(((e,_)=>(e<<5)-e+_.charCodeAt(0)),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
  24. </head>
  25. <body dir="ltr" data-md-color-scheme="default" data-md-color-primary="indigo" data-md-color-accent="indigo">
  26. <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
  27. <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
  28. <label class="md-overlay" for="__drawer"></label>
  29. <div data-md-component="skip">
  30. <a href="#_1" class="md-skip">
  31. コンテンツにスキップ
  32. </a>
  33. </div>
  34. <div data-md-component="announce">
  35. </div>
  36. <header class="md-header md-header--shadow" data-md-component="header">
  37. <nav class="md-header__inner md-grid" aria-label="ヘッダー">
  38. <a href="https://speech.fish.audio" title="Fish Audio" class="md-header__button md-logo" aria-label="Fish Audio" data-md-component="logo">
  39. <img src="../../assets/logo.svg" alt="logo">
  40. </a>
  41. <label class="md-header__button md-icon" for="__drawer">
  42. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3zm0 5h18v2H3zm0 5h18v2H3z"/></svg>
  43. </label>
  44. <div class="md-header__title" data-md-component="header-title">
  45. <div class="md-header__ellipsis">
  46. <div class="md-header__topic">
  47. <span class="md-ellipsis">
  48. Fish Audio
  49. </span>
  50. </div>
  51. <div class="md-header__topic" data-md-component="header-topic">
  52. <span class="md-ellipsis">
  53. README.ja
  54. </span>
  55. </div>
  56. </div>
  57. </div>
  58. <form class="md-header__option" data-md-component="palette">
  59. <input class="md-option" data-md-color-media="(prefers-color-scheme)" data-md-color-scheme="default" data-md-color-primary="indigo" data-md-color-accent="indigo" aria-label="Switch to light mode" type="radio" name="__palette" id="__palette_0">
  60. <label class="md-header__button md-icon" title="Switch to light mode" for="__palette_1" hidden>
  61. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m14.3 16-.7-2h-3.2l-.7 2H7.8L11 7h2l3.2 9zM20 8.69V4h-4.69L12 .69 8.69 4H4v4.69L.69 12 4 15.31V20h4.69L12 23.31 15.31 20H20v-4.69L23.31 12zm-9.15 3.96h2.3L12 9z"/></svg>
  62. </label>
  63. <input class="md-option" data-md-color-media="(prefers-color-scheme: light)" data-md-color-scheme="default" data-md-color-primary="black" data-md-color-accent="indigo" aria-label="Switch to dark mode" type="radio" name="__palette" id="__palette_1">
  64. <label class="md-header__button md-icon" title="Switch to dark mode" for="__palette_2" hidden>
  65. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a4 4 0 0 0-4 4 4 4 0 0 0 4 4 4 4 0 0 0 4-4 4 4 0 0 0-4-4m0 10a6 6 0 0 1-6-6 6 6 0 0 1 6-6 6 6 0 0 1 6 6 6 6 0 0 1-6 6m8-9.31V4h-4.69L12 .69 8.69 4H4v4.69L.69 12 4 15.31V20h4.69L12 23.31 15.31 20H20v-4.69L23.31 12z"/></svg>
  66. </label>
  67. <input class="md-option" data-md-color-media="(prefers-color-scheme: dark)" data-md-color-scheme="slate" data-md-color-primary="black" data-md-color-accent="indigo" aria-label="Switch to light mode" type="radio" name="__palette" id="__palette_2">
  68. <label class="md-header__button md-icon" title="Switch to light mode" for="__palette_0" hidden>
  69. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 18c-.89 0-1.74-.2-2.5-.55C11.56 16.5 13 14.42 13 12s-1.44-4.5-3.5-5.45C10.26 6.2 11.11 6 12 6a6 6 0 0 1 6 6 6 6 0 0 1-6 6m8-9.31V4h-4.69L12 .69 8.69 4H4v4.69L.69 12 4 15.31V20h4.69L12 23.31 15.31 20H20v-4.69L23.31 12z"/></svg>
  70. </label>
  71. </form>
  72. <script>var palette=__md_get("__palette");if(palette&&palette.color){if("(prefers-color-scheme)"===palette.color.media){var media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']");palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent")}for(var[key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
  73. <div class="md-header__option">
  74. <div class="md-select">
  75. <button class="md-header__button md-icon" aria-label="言語切り替え">
  76. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m12.87 15.07-2.54-2.51.03-.03A17.5 17.5 0 0 0 14.07 6H17V4h-7V2H8v2H1v2h11.17C11.5 7.92 10.44 9.75 9 11.35 8.07 10.32 7.3 9.19 6.69 8h-2c.73 1.63 1.73 3.17 2.98 4.56l-5.09 5.02L4 19l5-5 3.11 3.11zM18.5 10h-2L12 22h2l1.12-3h4.75L21 22h2zm-2.62 7 1.62-4.33L19.12 17z"/></svg>
  77. </button>
  78. <div class="md-select__inner">
  79. <ul class="md-select__list">
  80. <li class="md-select__item">
  81. <a href="../../README.ja/" hreflang="en" class="md-select__link">
  82. English
  83. </a>
  84. </li>
  85. <li class="md-select__item">
  86. <a href="../../zh/README.ja/" hreflang="zh" class="md-select__link">
  87. 简体中文
  88. </a>
  89. </li>
  90. <li class="md-select__item">
  91. <a href="./" hreflang="ja" class="md-select__link">
  92. 日本語
  93. </a>
  94. </li>
  95. <li class="md-select__item">
  96. <a href="../../pt/README.ja/" hreflang="pt" class="md-select__link">
  97. Português (Brasil)
  98. </a>
  99. </li>
  100. <li class="md-select__item">
  101. <a href="../../ko/README.ja/" hreflang="ko" class="md-select__link">
  102. 한국어
  103. </a>
  104. </li>
  105. <li class="md-select__item">
  106. <a href="../../ar/README.ja/" hreflang="ar" class="md-select__link">
  107. العربية
  108. </a>
  109. </li>
  110. </ul>
  111. </div>
  112. </div>
  113. </div>
  114. <label class="md-header__button md-icon" for="__search">
  115. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.52 6.52 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5"/></svg>
  116. </label>
  117. <div class="md-search" data-md-component="search" role="dialog">
  118. <label class="md-search__overlay" for="__search"></label>
  119. <div class="md-search__inner" role="search">
  120. <form class="md-search__form" name="search">
  121. <input type="text" class="md-search__input" name="query" aria-label="検索" placeholder="検索" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
  122. <label class="md-search__icon md-icon" for="__search">
  123. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.52 6.52 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5"/></svg>
  124. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11z"/></svg>
  125. </label>
  126. <nav class="md-search__options" aria-label="検索">
  127. <a href="javascript:void(0)" class="md-search__icon md-icon" title="共有" aria-label="共有" data-clipboard data-clipboard-text="" data-md-component="search-share" tabindex="-1">
  128. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M18 16.08c-.76 0-1.44.3-1.96.77L8.91 12.7c.05-.23.09-.46.09-.7s-.04-.47-.09-.7l7.05-4.11c.54.5 1.25.81 2.04.81a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3c0 .24.04.47.09.7L8.04 9.81C7.5 9.31 6.79 9 6 9a3 3 0 0 0-3 3 3 3 0 0 0 3 3c.79 0 1.5-.31 2.04-.81l7.12 4.15c-.05.21-.08.43-.08.66 0 1.61 1.31 2.91 2.92 2.91s2.92-1.3 2.92-2.91A2.92 2.92 0 0 0 18 16.08"/></svg>
  129. </a>
  130. <button type="reset" class="md-search__icon md-icon" title="クリア" aria-label="クリア" tabindex="-1">
  131. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12z"/></svg>
  132. </button>
  133. </nav>
  134. <div class="md-search__suggest" data-md-component="search-suggest"></div>
  135. </form>
  136. <div class="md-search__output">
  137. <div class="md-search__scrollwrap" tabindex="0" data-md-scrollfix>
  138. <div class="md-search-result" data-md-component="search-result">
  139. <div class="md-search-result__meta">
  140. 検索を初期化
  141. </div>
  142. <ol class="md-search-result__list" role="presentation"></ol>
  143. </div>
  144. </div>
  145. </div>
  146. </div>
  147. </div>
  148. <div class="md-header__source">
  149. <a href="https://github.com/fishaudio/fish-speech" title="リポジトリへ" class="md-source" data-md-component="source">
  150. <div class="md-source__icon md-icon">
  151. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M439.6 236.1 244 40.5c-5.4-5.5-12.8-8.5-20.4-8.5s-15 3-20.4 8.4L162.5 81l51.5 51.5c27.1-9.1 52.7 16.8 43.4 43.7l49.7 49.7c34.2-11.8 61.2 31 35.5 56.7-26.5 26.5-70.2-2.9-56-37.3L240.3 199v121.9c25.3 12.5 22.3 41.8 9.1 55-6.4 6.4-15.2 10.1-24.3 10.1s-17.8-3.6-24.3-10.1c-17.6-17.6-11.1-46.9 11.2-56v-123c-20.8-8.5-24.6-30.7-18.6-45L142.6 101 8.5 235.1C3 240.6 0 247.9 0 255.5s3 15 8.5 20.4l195.6 195.7c5.4 5.4 12.7 8.4 20.4 8.4s15-3 20.4-8.4l194.7-194.7c5.4-5.4 8.4-12.8 8.4-20.4s-3-15-8.4-20.4"/></svg>
  152. </div>
  153. <div class="md-source__repository">
  154. fishaudio/fish-speech
  155. </div>
  156. </a>
  157. </div>
  158. </nav>
  159. </header>
  160. <div class="md-container" data-md-component="container">
  161. <main class="md-main" data-md-component="main">
  162. <div class="md-main__inner md-grid">
  163. <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
  164. <div class="md-sidebar__scrollwrap">
  165. <div class="md-sidebar__inner">
  166. <nav class="md-nav md-nav--primary" aria-label="ナビゲーション" data-md-level="0">
  167. <label class="md-nav__title" for="__drawer">
  168. <a href="https://speech.fish.audio" title="Fish Audio" class="md-nav__button md-logo" aria-label="Fish Audio" data-md-component="logo">
  169. <img src="../../assets/logo.svg" alt="logo">
  170. </a>
  171. Fish Audio
  172. </label>
  173. <div class="md-nav__source">
  174. <a href="https://github.com/fishaudio/fish-speech" title="リポジトリへ" class="md-source" data-md-component="source">
  175. <div class="md-source__icon md-icon">
  176. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M439.6 236.1 244 40.5c-5.4-5.5-12.8-8.5-20.4-8.5s-15 3-20.4 8.4L162.5 81l51.5 51.5c27.1-9.1 52.7 16.8 43.4 43.7l49.7 49.7c34.2-11.8 61.2 31 35.5 56.7-26.5 26.5-70.2-2.9-56-37.3L240.3 199v121.9c25.3 12.5 22.3 41.8 9.1 55-6.4 6.4-15.2 10.1-24.3 10.1s-17.8-3.6-24.3-10.1c-17.6-17.6-11.1-46.9 11.2-56v-123c-20.8-8.5-24.6-30.7-18.6-45L142.6 101 8.5 235.1C3 240.6 0 247.9 0 255.5s3 15 8.5 20.4l195.6 195.7c5.4 5.4 12.7 8.4 20.4 8.4s15-3 20.4-8.4l194.7-194.7c5.4-5.4 8.4-12.8 8.4-20.4s-3-15-8.4-20.4"/></svg>
  177. </div>
  178. <div class="md-source__repository">
  179. fishaudio/fish-speech
  180. </div>
  181. </a>
  182. </div>
  183. <ul class="md-nav__list" data-md-scrollfix>
  184. <li class="md-nav__item">
  185. <a href="../" class="md-nav__link">
  186. <span class="md-ellipsis">
  187. はじめに
  188. </span>
  189. </a>
  190. </li>
  191. <li class="md-nav__item">
  192. <a href="../install/" class="md-nav__link">
  193. <span class="md-ellipsis">
  194. インストール
  195. </span>
  196. </a>
  197. </li>
  198. <li class="md-nav__item">
  199. <a href="../finetune/" class="md-nav__link">
  200. <span class="md-ellipsis">
  201. ファインチューニング
  202. </span>
  203. </a>
  204. </li>
  205. <li class="md-nav__item">
  206. <a href="../inference/" class="md-nav__link">
  207. <span class="md-ellipsis">
  208. 推論
  209. </span>
  210. </a>
  211. </li>
  212. <li class="md-nav__item">
  213. <a href="../samples.md" class="md-nav__link">
  214. <span class="md-ellipsis">
  215. サンプル
  216. </span>
  217. </a>
  218. </li>
  219. </ul>
  220. </nav>
  221. </div>
  222. </div>
  223. </div>
  224. <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
  225. <div class="md-sidebar__scrollwrap">
  226. <div class="md-sidebar__inner">
  227. <nav class="md-nav md-nav--secondary" aria-label="目次">
  228. <label class="md-nav__title" for="__toc">
  229. <span class="md-nav__icon md-icon"></span>
  230. 目次
  231. </label>
  232. <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
  233. <li class="md-nav__item">
  234. <a href="#_1" class="md-nav__link">
  235. <span class="md-ellipsis">
  236. クイックスタート
  237. </span>
  238. </a>
  239. <nav class="md-nav" aria-label="クイックスタート">
  240. <ul class="md-nav__list">
  241. <li class="md-nav__item">
  242. <a href="#_2" class="md-nav__link">
  243. <span class="md-ellipsis">
  244. ドキュメント入口
  245. </span>
  246. </a>
  247. </li>
  248. <li class="md-nav__item">
  249. <a href="#llm-agent" class="md-nav__link">
  250. <span class="md-ellipsis">
  251. LLM Agent 指南
  252. </span>
  253. </a>
  254. </li>
  255. </ul>
  256. </nav>
  257. </li>
  258. <li class="md-nav__item">
  259. <a href="#fish-audio-s2-pro" class="md-nav__link">
  260. <span class="md-ellipsis">
  261. Fish Audio S2 Pro
  262. </span>
  263. </a>
  264. <nav class="md-nav" aria-label="Fish Audio S2 Pro">
  265. <ul class="md-nav__list">
  266. <li class="md-nav__item">
  267. <a href="#_3" class="md-nav__link">
  268. <span class="md-ellipsis">
  269. モデルバリアント
  270. </span>
  271. </a>
  272. </li>
  273. </ul>
  274. </nav>
  275. </li>
  276. <li class="md-nav__item">
  277. <a href="#_4" class="md-nav__link">
  278. <span class="md-ellipsis">
  279. ベンチマーク結果
  280. </span>
  281. </a>
  282. </li>
  283. <li class="md-nav__item">
  284. <a href="#_5" class="md-nav__link">
  285. <span class="md-ellipsis">
  286. ハイライト
  287. </span>
  288. </a>
  289. <nav class="md-nav" aria-label="ハイライト">
  290. <ul class="md-nav__list">
  291. <li class="md-nav__item">
  292. <a href="#_6" class="md-nav__link">
  293. <span class="md-ellipsis">
  294. 自然言語による細粒度インライン制御
  295. </span>
  296. </a>
  297. </li>
  298. <li class="md-nav__item">
  299. <a href="#dual-autoregressive" class="md-nav__link">
  300. <span class="md-ellipsis">
  301. 革新的な二重自己回帰 (Dual-Autoregressive) アーキテクチャ
  302. </span>
  303. </a>
  304. </li>
  305. <li class="md-nav__item">
  306. <a href="#rl" class="md-nav__link">
  307. <span class="md-ellipsis">
  308. 強化学習 (RL) アライメント
  309. </span>
  310. </a>
  311. </li>
  312. <li class="md-nav__item">
  313. <a href="#sglang" class="md-nav__link">
  314. <span class="md-ellipsis">
  315. SGLang による究極のストリーミング推論性能
  316. </span>
  317. </a>
  318. </li>
  319. <li class="md-nav__item">
  320. <a href="#_7" class="md-nav__link">
  321. <span class="md-ellipsis">
  322. 強力な多言語サポート
  323. </span>
  324. </a>
  325. </li>
  326. <li class="md-nav__item">
  327. <a href="#_8" class="md-nav__link">
  328. <span class="md-ellipsis">
  329. ネイティブなマルチスピーカー生成
  330. </span>
  331. </a>
  332. </li>
  333. <li class="md-nav__item">
  334. <a href="#_9" class="md-nav__link">
  335. <span class="md-ellipsis">
  336. マルチターン対話生成
  337. </span>
  338. </a>
  339. </li>
  340. <li class="md-nav__item">
  341. <a href="#_10" class="md-nav__link">
  342. <span class="md-ellipsis">
  343. 高速音声クローニング
  344. </span>
  345. </a>
  346. </li>
  347. </ul>
  348. </nav>
  349. </li>
  350. <li class="md-nav__item">
  351. <a href="#_11" class="md-nav__link">
  352. <span class="md-ellipsis">
  353. 謝辞
  354. </span>
  355. </a>
  356. </li>
  357. <li class="md-nav__item">
  358. <a href="#_12" class="md-nav__link">
  359. <span class="md-ellipsis">
  360. 技術レポート
  361. </span>
  362. </a>
  363. </li>
  364. </ul>
  365. </nav>
  366. </div>
  367. </div>
  368. </div>
  369. <div class="md-content" data-md-component="content">
  370. <article class="md-content__inner md-typeset">
  371. <a href="https://github.com/fishaudio/fish-speech/blob/main/docs/README.ja.md" title="編集" class="md-content__button md-icon" rel="edit">
  372. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M10 20H6V4h7v5h5v3.1l2-2V8l-6-6H6c-1.1 0-2 .9-2 2v16c0 1.1.9 2 2 2h4zm10.2-7c.1 0 .3.1.4.2l1.3 1.3c.2.2.2.6 0 .8l-1 1-2.1-2.1 1-1c.1-.1.2-.2.4-.2m0 3.9L14.1 23H12v-2.1l6.1-6.1z"/></svg>
  373. </a>
  374. <a href="https://github.com/fishaudio/fish-speech/raw/main/docs/README.ja.md" title="このページの原文を表示" class="md-content__button md-icon">
  375. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M17 18c.56 0 1 .44 1 1s-.44 1-1 1-1-.44-1-1 .44-1 1-1m0-3c-2.73 0-5.06 1.66-6 4 .94 2.34 3.27 4 6 4s5.06-1.66 6-4c-.94-2.34-3.27-4-6-4m0 6.5a2.5 2.5 0 0 1-2.5-2.5 2.5 2.5 0 0 1 2.5-2.5 2.5 2.5 0 0 1 2.5 2.5 2.5 2.5 0 0 1-2.5 2.5M9.27 20H6V4h7v5h5v4.07c.7.08 1.36.25 2 .49V8l-6-6H6a2 2 0 0 0-2 2v16a2 2 0 0 0 2 2h4.5a8.2 8.2 0 0 1-1.23-2"/></svg>
  376. </a>
  377. <div align="center">
  378. <h1>Fish Speech</h1>
  379. [English](../README.md) | [简体中文](README.zh.md) | [Portuguese](README.pt-BR.md) | **日本語** | [한국어](README.ko.md) | [العربية](README.ar.md) | [Español](docs/README.es.md) <br>
  380. <a href="https://www.producthunt.com/products/fish-speech?embed=true&utm_source=badge-top-post-badge&utm_medium=badge&utm_source=badge-fish&#0045;audio&#0045;s1" target="_blank"><img src="https://api.producthunt.com/widgets/embed-image/v1/top-post-badge.svg?post_id=1023740&theme=light&period=daily&t=1761164814710" alt="Fish&#0032;Audio&#0032;S1 - Expressive&#0032;Voice&#0032;Cloning&#0032;and&#0032;Text&#0045;to&#0045;Speech | Product Hunt" style="width: 250px; height: 54px;" width="250" height="54" /></a>
  381. <a href="https://trendshift.io/repositories/7014" target="_blank">
  382. <img src="https://trendshift.io/api/badge/repositories/7014" alt="fishaudio%2Ffish-speech | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/>
  383. </a>
  384. <br>
  385. </div>
  386. <p><br></p>
  387. <div align="center">
  388. <img src="https://count.getloli.com/get/@fish-speech?theme=asoul" /><br>
  389. </div>
  390. <p><br></p>
  391. <div align="center">
  392. <a target="_blank" href="https://discord.gg/Es5qTB9BcN">
  393. <img alt="Discord" src="https://img.shields.io/discord/1214047546020728892?color=%23738ADB&label=Discord&logo=discord&logoColor=white&style=flat-square"/>
  394. </a>
  395. <a target="_blank" href="https://hub.docker.com/r/fishaudio/fish-speech">
  396. <img alt="Docker" src="https://img.shields.io/docker/pulls/fishaudio/fish-speech?style=flat-square&logo=docker"/>
  397. </a>
  398. <a target="_blank" href="https://pd.qq.com/s/bwxia254o">
  399. <img alt="QQ Channel" src="https://img.shields.io/badge/QQ-blue?logo=tencentqq">
  400. </a>
  401. </div>
  402. <div align="center">
  403. <a target="_blank" href="https://huggingface.co/fishaudio/s2-pro">
  404. <img alt="HuggingFace Model" src="https://img.shields.io/badge/🤗%20-models-orange"/>
  405. </a>
  406. <a target="_blank" href="https://fish.audio/blog/fish-audio-open-sources-s2/">
  407. <img alt="Fish Audio Blog" src="https://img.shields.io/badge/Blog-Fish_Audio_S2-1f7a8c?style=flat-square&logo=readme&logoColor=white"/>
  408. </a>
  409. <a target="_blank" href="https://arxiv.org/abs/2603.08823">
  410. <img alt="Paper | Technical Report" src="https://img.shields.io/badge/Paper-Technical_Report-b31b1b?style=flat-square"/>
  411. </a>
  412. </div>
  413. <blockquote>
  414. <p>[!IMPORTANT]
  415. <strong>ライセンス注意事項</strong>
  416. このコードベースおよび関連するモデルウェイトは <strong><a href="../LICENSE">FISH AUDIO RESEARCH LICENSE</a></strong> の下でリリースされています。詳細については <a href="../LICENSE">LICENSE</a> をご参照ください。</p>
  417. <p>[!WARNING]
  418. <strong>法的免責事項</strong>
  419. 私たちはコードベースの不法な使用について一切の責任を負いません。DMCA 及びその他の関連法律について、現地の法律をご参照ください。</p>
  420. </blockquote>
  421. <h2 id="_1">クイックスタート</h2>
  422. <h3 id="_2">ドキュメント入口</h3>
  423. <p>Fish Audio S2 の公式ドキュメントです。以下からすぐに始められます。</p>
  424. <ul>
  425. <li><a href="https://speech.fish.audio/ja/install/">インストール</a></li>
  426. <li><a href="https://speech.fish.audio/ja/inference/">コマンドライン推論</a></li>
  427. <li><a href="https://speech.fish.audio/ja/inference/">WebUI 推論</a></li>
  428. <li><a href="https://speech.fish.audio/ja/server/">サーバー推論</a></li>
  429. <li><a href="https://speech.fish.audio/ja/install/">Docker デプロイ</a></li>
  430. </ul>
  431. <blockquote>
  432. <p>[!IMPORTANT]
  433. <strong>SGLang サーバーについては <a href="https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md">SGLang-Omni README</a> を参照してください。</strong></p>
  434. </blockquote>
  435. <h3 id="llm-agent">LLM Agent 指南</h3>
  436. <div class="language-text highlight"><pre><span></span><code><span id="__span-0-1"><a id="__codelineno-0-1" name="__codelineno-0-1" href="#__codelineno-0-1"></a>https://speech.fish.audio/ja/install/ の手順に従って、Fish Audio S2 をインストール・設定してください。
  437. </span></code></pre></div>
  438. <h2 id="fish-audio-s2-pro">Fish Audio S2 Pro</h2>
  439. <p><strong>業界最先端の多言語テキスト読み上げ (TTS) システム。音声生成の限界を再定義します。</strong></p>
  440. <p>Fish Audio S2 Pro は <a href="https://fish.audio/">Fish Audio</a> が開発した最高峰のマルチモーダルモデルです。世界 <strong>80 言語以上</strong>、<strong>1,000 万時間</strong> を超える膨大な音声データで学習されています。革新的な <strong>二重自己回帰 (Dual-AR)</strong> アーキテクチャと強化学習 (RL) アライメント技術を組み合わせることで、極めて自然でリアル、かつ感情豊かな音声を生成し、オープンソースおよびクローズドソースの双方でリーダーシップを発揮しています。</p>
  441. <p>S2 Pro の最大の特徴は、自然言語タグ(例:<code>[whisper]</code>、<code>[excited]</code>、<code>[angry]</code>)による韻律や感情の <strong>サブワードレベル (Sub-word Level)</strong> での極めて細やかなインライン制御が可能である点です。また、マルチスピーカー生成や長文コンテキストのマルチターン対話生成にもネイティブ対応しています。</p>
  442. <p>今すぐ <a href="https://fish.audio/">Fish Audio 公式サイト</a> でプレイグラウンドを体験するか、<a href="https://arxiv.org/abs/2603.08823">技術レポート</a> や <a href="https://fish.audio/blog/fish-audio-open-sources-s2/">ブログ記事</a> を読んで詳細を確認してください。</p>
  443. <h3 id="_3">モデルバリアント</h3>
  444. <table>
  445. <thead>
  446. <tr>
  447. <th>モデル</th>
  448. <th>サイズ</th>
  449. <th>利用可能性</th>
  450. <th>説明</th>
  451. </tr>
  452. </thead>
  453. <tbody>
  454. <tr>
  455. <td>S2-Pro</td>
  456. <td>4B パラメータ</td>
  457. <td><a href="https://huggingface.co/fishaudio/s2-pro">HuggingFace</a></td>
  458. <td>品質と安定性を最大化した、フル機能のフラッグシップモデル</td>
  459. </tr>
  460. </tbody>
  461. </table>
  462. <p>モデルの詳細は<a href="https://arxiv.org/abs/2411.01156">技術レポート</a>をご参照ください。</p>
  463. <h2 id="_4">ベンチマーク結果</h2>
  464. <table>
  465. <thead>
  466. <tr>
  467. <th>ベンチマーク</th>
  468. <th>Fish Audio S2</th>
  469. </tr>
  470. </thead>
  471. <tbody>
  472. <tr>
  473. <td>Seed-TTS Eval — WER(中国語)</td>
  474. <td><strong>0.54%</strong>(全体最良)</td>
  475. </tr>
  476. <tr>
  477. <td>Seed-TTS Eval — WER(英語)</td>
  478. <td><strong>0.99%</strong>(全体最良)</td>
  479. </tr>
  480. <tr>
  481. <td>Audio Turing Test(指示あり)</td>
  482. <td><strong>0.515</strong> 事後平均値</td>
  483. </tr>
  484. <tr>
  485. <td>EmergentTTS-Eval — 勝率</td>
  486. <td><strong>81.88%</strong>(全体最高)</td>
  487. </tr>
  488. <tr>
  489. <td>Fish Instruction Benchmark — TAR</td>
  490. <td><strong>93.3%</strong></td>
  491. </tr>
  492. <tr>
  493. <td>Fish Instruction Benchmark — 品質</td>
  494. <td><strong>4.51 / 5.0</strong></td>
  495. </tr>
  496. <tr>
  497. <td>多言語(MiniMax Testset)— 最良 WER</td>
  498. <td><strong>24 言語中 11 言語</strong></td>
  499. </tr>
  500. <tr>
  501. <td>多言語(MiniMax Testset)— 最良 SIM</td>
  502. <td><strong>24 言語中 17 言語</strong></td>
  503. </tr>
  504. </tbody>
  505. </table>
  506. <p>Seed-TTS Eval では、S2 はクローズドソースを含む全評価モデルの中で最小 WER を達成しました:Qwen3-TTS(0.77/1.24)、MiniMax Speech-02(0.99/1.90)、Seed-TTS(1.12/2.25)。Audio Turing Test では 0.515 を記録し、Seed-TTS(0.417)比で 24%、MiniMax-Speech(0.387)比で 33% 上回りました。EmergentTTS-Eval では、副言語情報(91.61%)、疑問文(84.41%)、統語的複雑性(83.39%)で特に高い成績を示しています。</p>
  507. <h2 id="_5">ハイライト</h2>
  508. <p><img src="./assets/totalability.png" width=200%></p>
  509. <h3 id="_6">自然言語による細粒度インライン制御</h3>
  510. <p>S2 Pro は音声にこれまでにない「魂」を宿らせます。シンプルな <code>[tag]</code> 構文を使用して、テキスト内の任意の場所に感情の指示を正確に埋め込むことができます。
  511. - <strong>1万5,000以上のユニークタグに対応</strong>:固定のプリセットに限定されず、<strong>自由形式のテキスト記述</strong> をサポートします。<code>[whisper in small voice]</code> (ささやき声で), <code>[professional broadcast tone]</code> (プロのナレーション風), <code>[pitch up]</code> (ピッチを上げる) などを試してみてください。
  512. - <strong>豊富な感情ライブラリ</strong>:
  513. <code>[pause]</code> <code>[emphasis]</code> <code>[laughing]</code> <code>[inhale]</code> <code>[chuckle]</code> <code>[tsk]</code> <code>[singing]</code> <code>[excited]</code> <code>[laughing tone]</code> <code>[interrupting]</code> <code>[chuckling]</code> <code>[excited tone]</code> <code>[volume up]</code> <code>[echo]</code> <code>[angry]</code> <code>[low volume]</code> <code>[sigh]</code> <code>[low voice]</code> <code>[whisper]</code> <code>[screaming]</code> <code>[shouting]</code> <code>[loud]</code> <code>[surprised]</code> <code>[short pause]</code> <code>[exhale]</code> <code>[delight]</code> <code>[panting]</code> <code>[audience laughter]</code> <code>[with strong accent]</code> <code>[volume down]</code> <code>[clearing throat]</code> <code>[sad]</code> <code>[moaning]</code> <code>[shocked]</code></p>
  514. <h3 id="dual-autoregressive">革新的な二重自己回帰 (Dual-Autoregressive) アーキテクチャ</h3>
  515. <p>S2 Pro は、Decoder-only Transformer と RVQ オーディオコーデック(10 コードブック、約 21 Hz)で構成されるマスター・スレーブ型の Dual-AR アーキテクチャを採用しています:</p>
  516. <ul>
  517. <li><strong>Slow AR (4B パラメータ)</strong>: 時間軸方向に動作し、核となるセマンティックコードブックを予測。</li>
  518. <li><strong>Fast AR (400M パラメータ)</strong>: 各時間ステップで残り 9 個の残差コードブックを生成し、極めて繊細な音響ディテールを復元。</li>
  519. </ul>
  520. <p>この非対称設計により、究極のオーディオ忠実度を維持しながら、推論速度を大幅に向上させています。</p>
  521. <h3 id="rl">強化学習 (RL) アライメント</h3>
  522. <p>S2 Pro は、事後学習アライメントに <strong>Group Relative Policy Optimization (GRPO)</strong> 技術を採用しています。データのクリーニングとアノテーションに使用したモデルセットをそのまま報酬モデル (Reward Model) として使用することで、事前学習データの分布と事後学習の目標との間のミスマッチを完璧に解決しました。
  523. - <strong>多次元の報酬信号</strong>: 意味の正確性、指示追従性、音響的な好み、音色の類似性を総合的に評価し、生成される一秒一秒の音声が人間の直感に沿うようにしています。</p>
  524. <h3 id="sglang">SGLang による究極のストリーミング推論性能</h3>
  525. <p>Dual-AR アーキテクチャは標準的な LLM 構造と同型であるため、S2 Pro は SGLang のすべての推論加速機能をネイティブにサポートしています。これには、Continuous Batching、Paged KV Cache、CUDA Graph、RadixAttention ベースの Prefix Caching が含まれます。</p>
  526. <p><strong>NVIDIA H200 GPU 1枚でのパフォーマンス表現:</strong>
  527. - <strong>リアルタイム係数 (RTF)</strong>: 0.195
  528. - <strong>初回音声出力までの時間 (TTFA)</strong>: 約 100 ms
  529. - <strong>極速スループット</strong>: RTF &lt; 0.5 を維持しつつ 3,000+ acoustic tokens/s</p>
  530. <h3 id="_7">強力な多言語サポート</h3>
  531. <p>S2 Pro は 80 以上の言語をサポートしており、音素や特定の言語に対する前処理なしで高品質な合成を実現します:</p>
  532. <ul>
  533. <li><strong>第1層 (Tier 1)</strong>: 日本語 (ja), 英語 (en), 中国語 (zh)</li>
  534. <li><strong>第2層 (Tier 2)</strong>: 韓国語 (ko), スペイン語 (es), ポルトガル語 (pt), アラビア語 (ar), ロシア語 (ru), フランス語 (fr), ドイツ語 (de)</li>
  535. <li><strong>グローバルカバレッジ</strong>: sv, it, tr, no, nl, cy, eu, ca, da, gl, ta, hu, fi, pl, e!t, hi, la, ur, th, vi, jw, bn, yo, xsl, cs, sw, nn, he, ms, uk, id, kk, bg, lv, my, tl, sk, ne, fa, af, el, bo, hr, ro, sn, mi, yi, am, be, km, is, az, sd, br, sq, ps, mn, ht, ml, sr, sa, te, ka, bs, pa, lt, kn, si, hy, mr, as, gu, fo など。</li>
  536. </ul>
  537. <h3 id="_8">ネイティブなマルチスピーカー生成</h3>
  538. <p><img src="./assets/chattemplate.png" width=200%></p>
  539. <p>Fish Audio S2 では、複数のスピーカーを含む参照オーディオをアップロードでき、モデルは <code>&lt;|speaker:i|&gt;</code> トークンを介して各スピーカーの特徴を処理します。スピーカー ID トークンを使用してモデルの出力を制御することで、1回の生成に複数のスピーカーを混在させることが可能です。個別のスピーカーごとに参照オーディオをアップロードし直す手間はもう不要です。</p>
  540. <h3 id="_9">マルチターン対話生成</h3>
  541. <p>コンテキストの拡張により、以前のターンの情報を利用して後続の生成内容の表現力を高めることができ、対話としての自然さが大幅に向上しました。</p>
  542. <h3 id="_10">高速音声クローニング</h3>
  543. <p>Fish Audio S2 は、短い参照サンプル(通常 10〜30 秒)を使用した正確な音声クローニングをサポートしています。モデルは音色、話し方、感情を捉え、追加の微調整なしでリアルで一貫したクローン音声を生成します。
  544. SGLang サーバーの利用については、<a href="https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md">SGLang-Omni README</a> を参照してください。</p>
  545. <hr />
  546. <h2 id="_11">謝辞</h2>
  547. <ul>
  548. <li><a href="https://github.com/daniilrobnikov/vits2">VITS2 (daniilrobnikov)</a></li>
  549. <li><a href="https://github.com/fishaudio/Bert-VITS2">Bert-VITS2</a></li>
  550. <li><a href="https://github.com/innnky/gpt-vits">GPT VITS</a></li>
  551. <li><a href="https://github.com/b04901014/MQTTS">MQTTS</a></li>
  552. <li><a href="https://github.com/pytorch-labs/gpt-fast">GPT Fast</a></li>
  553. <li><a href="https://github.com/RVC-Boss/GPT-SoVITS">GPT-SoVITS</a></li>
  554. <li><a href="https://github.com/QwenLM/Qwen3">Qwen3</a></li>
  555. </ul>
  556. <h2 id="_12">技術レポート</h2>
  557. <div class="language-bibtex highlight"><pre><span></span><code><span id="__span-1-1"><a id="__codelineno-1-1" name="__codelineno-1-1" href="#__codelineno-1-1"></a><span class="nc">@misc</span><span class="p">{</span><span class="nl">fish-speech-v1.4</span><span class="p">,</span>
  558. </span><span id="__span-1-2"><a id="__codelineno-1-2" name="__codelineno-1-2" href="#__codelineno-1-2"></a><span class="w"> </span><span class="na">title</span><span class="p">=</span><span class="s">{Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis}</span><span class="p">,</span>
  559. </span><span id="__span-1-3"><a id="__codelineno-1-3" name="__codelineno-1-3" href="#__codelineno-1-3"></a><span class="w"> </span><span class="na">author</span><span class="p">=</span><span class="s">{Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing}</span><span class="p">,</span>
  560. </span><span id="__span-1-4"><a id="__codelineno-1-4" name="__codelineno-1-4" href="#__codelineno-1-4"></a><span class="w"> </span><span class="na">year</span><span class="p">=</span><span class="s">{2024}</span><span class="p">,</span>
  561. </span><span id="__span-1-5"><a id="__codelineno-1-5" name="__codelineno-1-5" href="#__codelineno-1-5"></a><span class="w"> </span><span class="na">eprint</span><span class="p">=</span><span class="s">{2411.01156}</span><span class="p">,</span>
  562. </span><span id="__span-1-6"><a id="__codelineno-1-6" name="__codelineno-1-6" href="#__codelineno-1-6"></a><span class="w"> </span><span class="na">archivePrefix</span><span class="p">=</span><span class="s">{arXiv}</span><span class="p">,</span>
  563. </span><span id="__span-1-7"><a id="__codelineno-1-7" name="__codelineno-1-7" href="#__codelineno-1-7"></a><span class="w"> </span><span class="na">primaryClass</span><span class="p">=</span><span class="s">{cs.SD}</span><span class="p">,</span>
  564. </span><span id="__span-1-8"><a id="__codelineno-1-8" name="__codelineno-1-8" href="#__codelineno-1-8"></a><span class="w"> </span><span class="na">url</span><span class="p">=</span><span class="s">{https://arxiv.org/abs/2411.01156}</span><span class="p">,</span>
  565. </span><span id="__span-1-9"><a id="__codelineno-1-9" name="__codelineno-1-9" href="#__codelineno-1-9"></a><span class="p">}</span>
  566. </span><span id="__span-1-10"><a id="__codelineno-1-10" name="__codelineno-1-10" href="#__codelineno-1-10"></a>
  567. </span><span id="__span-1-11"><a id="__codelineno-1-11" name="__codelineno-1-11" href="#__codelineno-1-11"></a><span class="nc">@misc</span><span class="p">{</span><span class="nl">liao2026fishaudios2technical</span><span class="p">,</span>
  568. </span><span id="__span-1-12"><a id="__codelineno-1-12" name="__codelineno-1-12" href="#__codelineno-1-12"></a><span class="w"> </span><span class="na">title</span><span class="p">=</span><span class="s">{Fish Audio S2 Technical Report}</span><span class="p">,</span><span class="w"> </span>
  569. </span><span id="__span-1-13"><a id="__codelineno-1-13" name="__codelineno-1-13" href="#__codelineno-1-13"></a><span class="w"> </span><span class="na">author</span><span class="p">=</span><span class="s">{Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han}</span><span class="p">,</span>
  570. </span><span id="__span-1-14"><a id="__codelineno-1-14" name="__codelineno-1-14" href="#__codelineno-1-14"></a><span class="w"> </span><span class="na">year</span><span class="p">=</span><span class="s">{2026}</span><span class="p">,</span>
  571. </span><span id="__span-1-15"><a id="__codelineno-1-15" name="__codelineno-1-15" href="#__codelineno-1-15"></a><span class="w"> </span><span class="na">eprint</span><span class="p">=</span><span class="s">{2603.08823}</span><span class="p">,</span>
  572. </span><span id="__span-1-16"><a id="__codelineno-1-16" name="__codelineno-1-16" href="#__codelineno-1-16"></a><span class="w"> </span><span class="na">archivePrefix</span><span class="p">=</span><span class="s">{arXiv}</span><span class="p">,</span>
  573. </span><span id="__span-1-17"><a id="__codelineno-1-17" name="__codelineno-1-17" href="#__codelineno-1-17"></a><span class="w"> </span><span class="na">primaryClass</span><span class="p">=</span><span class="s">{cs.SD}</span><span class="p">,</span>
  574. </span><span id="__span-1-18"><a id="__codelineno-1-18" name="__codelineno-1-18" href="#__codelineno-1-18"></a><span class="w"> </span><span class="na">url</span><span class="p">=</span><span class="s">{https://arxiv.org/abs/2603.08823}</span><span class="p">,</span><span class="w"> </span>
  575. </span><span id="__span-1-19"><a id="__codelineno-1-19" name="__codelineno-1-19" href="#__codelineno-1-19"></a><span class="p">}</span>
  576. </span></code></pre></div>
  577. </article>
  578. </div>
  579. <script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
  580. </div>
  581. </main>
  582. <footer class="md-footer">
  583. <div class="md-footer-meta md-typeset">
  584. <div class="md-footer-meta__inner md-grid">
  585. <div class="md-copyright">
  586. <div class="md-copyright__highlight">
  587. Copyright &copy; 2023-2025 by Fish Audio
  588. </div>
  589. Made with
  590. <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
  591. Material for MkDocs
  592. </a>
  593. </div>
  594. <div class="md-social">
  595. <a href="https://discord.gg/Es5qTB9BcN" target="_blank" rel="noopener" title="discord.gg" class="md-social__link">
  596. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 576 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M492.5 69.8c-.2-.3-.4-.6-.8-.7-38.1-17.5-78.4-30-119.7-37.1-.4-.1-.8 0-1.1.1s-.6.4-.8.8c-5.5 9.9-10.5 20.2-14.9 30.6-44.6-6.8-89.9-6.8-134.4 0-4.5-10.5-9.5-20.7-15.1-30.6-.2-.3-.5-.6-.8-.8s-.7-.2-1.1-.2C162.5 39 122.2 51.5 84.1 69c-.3.1-.6.4-.8.7C7.1 183.5-13.8 294.6-3.6 404.2c0 .3.1.5.2.8s.3.4.5.6c44.4 32.9 94 58 146.8 74.2.4.1.8.1 1.1 0s.7-.4.9-.7c11.3-15.4 21.4-31.8 30-48.8.1-.2.2-.5.2-.8s0-.5-.1-.8-.2-.5-.4-.6-.4-.3-.7-.4c-15.8-6.1-31.2-13.4-45.9-21.9-.3-.2-.5-.4-.7-.6s-.3-.6-.3-.9 0-.6.2-.9.3-.5.6-.7c3.1-2.3 6.2-4.7 9.1-7.1.3-.2.6-.4.9-.4s.7 0 1 .1c96.2 43.9 200.4 43.9 295.5 0 .3-.1.7-.2 1-.2s.7.2.9.4c2.9 2.4 6 4.9 9.1 7.2.2.2.4.4.6.7s.2.6.2.9-.1.6-.3.9-.4.5-.6.6c-14.7 8.6-30 15.9-45.9 21.8-.2.1-.5.2-.7.4s-.3.4-.4.7-.1.5-.1.8.1.5.2.8c8.8 17 18.8 33.3 30 48.8.2.3.6.6.9.7s.8.1 1.1 0c52.9-16.2 102.6-41.3 147.1-74.2.2-.2.4-.4.5-.6s.2-.5.2-.8c12.3-126.8-20.5-236.9-86.9-334.5zm-302 267.7c-29 0-52.8-26.6-52.8-59.2s23.4-59.2 52.8-59.2c29.7 0 53.3 26.8 52.8 59.2 0 32.7-23.4 59.2-52.8 59.2m195.4 0c-29 0-52.8-26.6-52.8-59.2s23.4-59.2 52.8-59.2c29.7 0 53.3 26.8 52.8 59.2 0 32.7-23.2 59.2-52.8 59.2"/></svg>
  597. </a>
  598. <a href="https://hub.docker.com/r/fishaudio/fish-speech" target="_blank" rel="noopener" title="hub.docker.com" class="md-social__link">
  599. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 640 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M349.9 236.3h-66.1v-59.4h66.1zm0-204.3h-66.1v60.7h66.1zm78.2 144.8H362v59.4h66.1zm-156.3-72.1h-66.1v60.1h66.1zm78.1 0h-66.1v60.1h66.1zm276.8 100c-14.4-9.7-47.6-13.2-73.1-8.4-3.3-24-16.7-44.9-41.1-63.7l-14-9.3-9.3 14c-18.4 27.8-23.4 73.6-3.7 103.8-8.7 4.7-25.8 11.1-48.4 10.7H2.4c-8.7 50.8 5.8 116.8 44 162.1 37.1 43.9 92.7 66.2 165.4 66.2 157.4 0 273.9-72.5 328.4-204.2 21.4.4 67.6.1 91.3-45.2 1.5-2.5 6.6-13.2 8.5-17.1zm-511.1-27.9h-66v59.4h66.1v-59.4zm78.1 0h-66.1v59.4h66.1zm78.1 0h-66.1v59.4h66.1zm-78.1-72.1h-66.1v60.1h66.1z"/></svg>
  600. </a>
  601. <a href="http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=jCKlUP7QgSm9kh95UlBoYv6s1I-Apl1M&authKey=xI5ttVAp3do68IpEYEalwXSYZFdfxZSkah%2BctF5FIMyN2NqAa003vFtLqJyAVRfF&noverify=0&group_code=593946093" target="_blank" rel="noopener" title="qm.qq.com" class="md-social__link">
  602. <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 7.1.0 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2025 Fonticons, Inc.--><path d="M434.1 420.4c-11.5 1.4-44.9-52.7-44.9-52.7 0 31.3-16.1 72.2-51 101.8 16.8 5.2 54.8 19.2 45.8 34.4-7.3 12.3-125.5 7.9-159.6 4-34.1 3.8-152.3 8.3-159.6-4-9-15.2 28.9-29.2 45.8-34.4-34.9-29.5-51.1-70.4-51.1-101.8 0 0-33.3 54.1-44.9 52.7-5.4-.6-12.4-29.6 9.3-99.7 10.3-33 22-60.5 40.1-105.8C60.9 98 109.2-.1 224.3-.1 338-.1 387.5 96 384.6 214.9c18.1 45.2 29.9 72.9 40.1 105.8 21.8 70.1 14.7 99.1 9.3 99.7z"/></svg>
  603. </a>
  604. </div>
  605. </div>
  606. </div>
  607. </footer>
  608. </div>
  609. <div class="md-dialog" data-md-component="dialog">
  610. <div class="md-dialog__inner md-typeset"></div>
  611. </div>
  612. <script id="__config" type="application/json">{"annotate": null, "base": "../..", "features": ["content.action.edit", "content.action.view", "navigation.tracking", "navigation.footer", "search", "search.suggest", "search.highlight", "search.share", "content.code.copy"], "search": "../../assets/javascripts/workers/search.2c215733.min.js", "tags": null, "translations": {"clipboard.copied": "\u30b3\u30d4\u30fc\u3057\u307e\u3057\u305f", "clipboard.copy": "\u30af\u30ea\u30c3\u30d7\u30dc\u30fc\u30c9\u3078\u30b3\u30d4\u30fc", "search.result.more.one": "\u3053\u306e\u30da\u30fc\u30b8\u5185\u306b\u3082\u30461\u4ef6\u898b\u3064\u304b\u308a\u307e\u3057\u305f", "search.result.more.other": "\u3053\u306e\u30da\u30fc\u30b8\u5185\u306b\u3042\u3068#\u4ef6\u898b\u3064\u304b\u308a\u307e\u3057\u305f", "search.result.none": "\u4f55\u3082\u898b\u3064\u304b\u308a\u307e\u305b\u3093\u3067\u3057\u305f", "search.result.one": "1\u4ef6\u898b\u3064\u304b\u308a\u307e\u3057\u305f", "search.result.other": "#\u4ef6\u898b\u3064\u304b\u308a\u307e\u3057\u305f", "search.result.placeholder": "\u691c\u7d22\u30ad\u30fc\u30ef\u30fc\u30c9\u3092\u5165\u529b\u3057\u3066\u304f\u3060\u3055\u3044", "search.result.term.missing": "\u691c\u7d22\u306b\u542b\u307e\u308c\u306a\u3044", "select.version": "\u30d0\u30fc\u30b8\u30e7\u30f3\u5207\u308a\u66ff\u3048"}, "version": null}</script>
  613. <script src="../../assets/javascripts/bundle.79ae519e.min.js"></script>
  614. </body>
  615. </html>