Распознавание через API
CogniCo предоставляет API для распознавания речи, диаризации спикеров и анализа эмоций. Доступны три режима работы:
- Синхронное распознавание — отправить файл и сразу получить результат
- Асинхронное распознавание — отправить файл, получить
task_id, забрать результат позже - Потоковое распознавание (WebSocket) — отправлять аудио в реальном времени и получать результаты по мере распознавания
Базовый URL: https://cognico.ru
OpenAPI спецификация
Полная спецификация API доступна в формате OpenAPI 3.0: cc-recognition.yaml
Вы можете использовать её для автоматической генерации клиента на любом языке с помощью OpenAPI Generator или аналогичных инструментов.
Получение API-ключа
- Откройте cognico.ru/app и войдите в аккаунт
- Перейдите в Профиль → API-ключи
- Нажмите Создать ключ, укажите название и (опционально) срок действия
- Скопируйте ключ — он отображается только один раз
Авторизация
Все методы требуют передачи API-ключа в заголовке:
Authorization: Bearer YOUR_API_KEY
Формат ответа
Синхронный и асинхронный методы возвращают одинаковую структуру RecognitionResultData:
RecognitionResultData
| Поле | Тип | Описание |
|---|---|---|
text | string | Полный распознанный текст |
transcription | TranscriptionData | Детальная транскрипция с сегментами |
TranscriptionData
| Поле | Тип | Описание |
|---|---|---|
segments | SpeechSegment[] | Массив распознанных сегментов |
speakers | SpeakerData[] | Информация о спикерах |
SpeechSegment
| Поле | Тип | Описание |
|---|---|---|
start | float | Время начала (сек) |
end | float? | Время конца (сек) |
text | string | Распознанный текст сегмента |
speech_prob | float? | Вероятность наличия речи (0–1) |
vad_prob | float? | Вероятность VAD (0–1) |
volume_70 | float? | Громкость, 70-й перцентиль |
words | SpeechWord[]? | Детализация по словам |
channel | string? | Идентификатор канала |
speaker | string? | Идентификатор спикера |
emotion | object? | Эмоции: {positive, angry, sad, neutral} (значения 0–1) |
SpeechWord
| Поле | Тип | Описание |
|---|---|---|
word | string | Слово |
start | float | Время начала (сек) |
end | float | Время конца (сек) |
speech_prob | float | Вероятность речи |
volume_avg | float | Средняя громкость |
SpeakerData
| Поле | Тип | Описание |
|---|---|---|
id | string | Идентификатор спикера |
name | string? | Имя спикера |
ref | string? | Ссылка на профиль спикера |
EmotionType
Возможные значения: positive, angry, sad, neutral.